<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>robots archivos - SoyAdmin.com</title>
	<atom:link href="https://soyadmin.com/tag/robots/feed/" rel="self" type="application/rss+xml" />
	<link>https://soyadmin.com/tag/robots/</link>
	<description>La Recova del Informático - Linux en Español - Sysadmin, Noticias Linux y más</description>
	<lastBuildDate>Wed, 08 May 2019 15:35:08 +0000</lastBuildDate>
	<language>es</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://soyadmin.com/wp-content/uploads/2021/03/cropped-favicon-32x32.png</url>
	<title>robots archivos - SoyAdmin.com</title>
	<link>https://soyadmin.com/tag/robots/</link>
	<width>32</width>
	<height>32</height>
</image> 
<site xmlns="com-wordpress:feed-additions:1">147662452</site>	<item>
		<title>Como mantener nuestro sitio o server alejado de robots, bots, spiders, crawlers y visitas no deseadas</title>
		<link>https://soyadmin.com/como-mantener-nuestro-sitio-o-server-alejado-de-robots-bots-spiders-crawlers-y-visitas-no-deseadas/</link>
					<comments>https://soyadmin.com/como-mantener-nuestro-sitio-o-server-alejado-de-robots-bots-spiders-crawlers-y-visitas-no-deseadas/#respond</comments>
		
		<dc:creator><![CDATA[Mauro]]></dc:creator>
		<pubDate>Wed, 08 May 2019 15:35:08 +0000</pubDate>
				<category><![CDATA[Linux]]></category>
		<category><![CDATA[Windows]]></category>
		<category><![CDATA[bots]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[spiders]]></category>
		<category><![CDATA[visitas]]></category>
		<guid isPermaLink="false">https://old.soyadmin.com/?p=971</guid>

					<description><![CDATA[<p>Las visitas y el tráfico que puede tener nuestro Sitio y nuestro Servidor, muchas veces son visitas de clientes o visitantes válidos digamos aunque muchísimas veces esa visita es una visita inesperada 🙂 muchas&#46;&#46;&#46;</p>
<p>La entrada <a href="https://soyadmin.com/como-mantener-nuestro-sitio-o-server-alejado-de-robots-bots-spiders-crawlers-y-visitas-no-deseadas/">Como mantener nuestro sitio o server alejado de robots, bots, spiders, crawlers y visitas no deseadas</a> se publicó primero en <a href="https://soyadmin.com">SoyAdmin.com</a>.</p>
]]></description>
										<content:encoded><![CDATA[
<p>Las visitas y el tráfico que puede tener nuestro Sitio y nuestro Servidor, <strong>muchas veces son visitas de clientes o visitantes válidos</strong> digamos aunque <strong>muchísimas veces esa visita es una visita inesperada 🙂</strong> muchas veces son robots bots o crawlers.</p>


<p><strong>Ahora, que son los Robots, Bots o Crawlers?</strong><br />Son aplicaciones automáticas que hacen un escaneo constante de «internet» buscando recopilar información, enlaces web y contenido. Buscadores como Google, Bing, Yahoo lo hacen, utilizan estos escaneos para generar estadísticas e información de nuestro sitio y así poder «mostrar» información valida cuando uno hace búsquedas en estas web.<br />Hasta ahi todo lindo ¿que mejor que nuestra web sea indexada correctamente por los buscadores más importantes? el problema se genera debido a que cada día aparecen más y más bots y crawlers los cuales abusan o son intrusivos hacia nuestro servidor o sitio web.</p>


<p>Existen robots que buscan por ejemplo, robarse el contenido que tengas en tu portal, «cosechar» cuantas direcciones de correo electrónico, realizar spam en formularios de contacto o comentarios o directamente explorar vulnerabilidades conocidas del software que tengas instalado, son de estos robots que debemos protegernos.</p>


<div class="wp-block-image"><figure class="aligncenter"><img fetchpriority="high" decoding="async" width="400" height="210" src="https://soyadmin.com/wp-content/uploads/2019/05/robots1.jpg" alt="" class="wp-image-973" srcset="https://soyadmin.com/wp-content/uploads/2019/05/robots1.jpg 400w, https://soyadmin.com/wp-content/uploads/2019/05/robots1-300x158.jpg 300w" sizes="(max-width: 400px) 100vw, 400px" /></figure></div>


<p><strong>Que puede pasar con un sitio o server que es bombardeado por robots, bots, spiders, crawlers?</strong><br />La visita de un robot es eso, una visita que recibe nuestro servidor o web, si multiplicamos eso a cientos y miles de visitas por minuto de cientos de crawlers que entran a rotar en nuestro sitio o servidor, indudablemente cabe la posibliidad de que <strong>lleguen a «tumbar» un servicio, denegar una solicitud válida o llegar a límites de transferencia mensuales (esto como cuestiones simples) o directamente al robo de información, vulneración de nuestro sitio (que ya son cuestiones bastante graves)</strong>. En estos casos hay que ponerse el escudo y empezar a tunear un poco nuestro sitio para evitar o tratar de repeler estas alimañas.</p>


<p><strong>Como hacemos para controlar estos agentes?</strong><br />Existen 2 archivos que podemos tunear o tocar:<br /><strong>robots.txt</strong> (aqui podemos indicar que robots NO pueden acceder a nuestro sitio)<br /><strong>.htaccess</strong> (aqui bloquearemos el robot que querramos por medio del user-agent)</p>


<p class="has-text-color has-medium-font-size has-vivid-red-color"><strong>1) Como configuro correctamente mi robots.txt?</strong></p>


<p>Aqui colocaremos que partes del sitio NO queremos que sean visitadas por los robots o directamente negar el acceso a un robot específico.</p>


<p><em>* Colocaremos que partes del sitio no quieres que toque ningún robot:</em></p>

<pre class="wp-block-code"><span><code class="hljs language-http"><span class="hljs-attribute">User-agent</span>: *
<span class="hljs-attribute">Disallow</span>: /images
<span class="hljs-attribute">Disallow</span>: /documentos
<span class="hljs-attribute">Disallow</span>: /portal/formulario.php</code></span></pre>

<p><em>* Si queremos que ningún robot toque nada de nuestro sitio.</em></p>

<pre class="wp-block-code"><span><code class="hljs language-http"><span class="hljs-attribute">User-agent</span>: *
<span class="hljs-attribute">Disallow</span>: /</code></span></pre>

<p><em>* Denegar el acceso a un robot específico a nuestro sitio</em></p>

<pre class="wp-block-code"><span><code class="hljs">User-agent: robotxx
 Disallow: /</code></span></pre>

<p><em>* Armar una lista blanca de robots buenos y negar el acceso a robots malos 🙂</em></p>

<pre class="wp-block-code"><span><code class="hljs">User-agent: Googlebot
User-agent: Bingboot
User-agent: msnbot
User-agent: Mediapartners-Google*
User-agent: Googlebot-Image
User-agent: Yahoo-MMCrawler
Disallow:
User-agent: *
Disallow: /</code></span></pre>

<p class="has-text-color has-medium-font-size has-vivid-red-color"><strong>2) Como configuro correctamente el .htaccess para bloquear robots?</strong></p>


<p>Muchas veces los robots malos no llevan el apunte a nuestro robots.txt, ahi entra en juego el .htaccess que es un poco más efectivo para el control de robots bots spiders crawlers.</p>


<div class="wp-block-image"><figure class="aligncenter is-resized"><img decoding="async" src="https://soyadmin.com/wp-content/uploads/2019/05/robots3-500x500-1.jpg" alt="" class="wp-image-975" width="185" height="185" srcset="https://soyadmin.com/wp-content/uploads/2019/05/robots3-500x500-1.jpg 500w, https://soyadmin.com/wp-content/uploads/2019/05/robots3-500x500-1-300x300.jpg 300w, https://soyadmin.com/wp-content/uploads/2019/05/robots3-500x500-1-150x150.jpg 150w, https://soyadmin.com/wp-content/uploads/2019/05/robots3-500x500-1-80x80.jpg 80w, https://soyadmin.com/wp-content/uploads/2019/05/robots3-500x500-1-320x320.jpg 320w" sizes="(max-width: 185px) 100vw, 185px" /></figure></div>


<p><em>* Denegar el acceso por user-agents y que su petición no sea atendida</em></p>

<pre class="wp-block-code"><span><code class="hljs">Options All -Indexes
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^ROBOTXX.* &#91;OR]
RewriteCond %{HTTP_USER_AGENT} ^ROBOTXXX.* &#91;OR]
RewriteCond %{HTTP_USER_AGENT} ^ROBOTXXXX.* &#91;OR]
RewriteRule ^.* - &#91;F]</code></span></pre>

<p><em>* Bloquear las IP&#8217;s conocidas de estos bichos</em></p>

<pre class="wp-block-code"><span><code class="hljs language-php">order allow,deny
deny from <span class="hljs-number">127.0</span><span class="hljs-number">.0</span><span class="hljs-number">.1</span> <span class="hljs-comment"># banea esa ip</span>
deny from <span class="hljs-number">127.0</span><span class="hljs-number">.0</span><span class="hljs-number">.1</span>/<span class="hljs-number">17</span> <span class="hljs-comment"># banea de la 1 a la 17</span>
allow from all <span class="hljs-comment"># y permitimos el acceso al resto</span></code></span></pre>

<p><em>* Se puede usar tambien la variable SetEnvIfNoCase</em></p>

<pre class="wp-block-code"><span><code class="hljs language-javascript">Options All -Indexes
RewriteEngine on
SetEnvIfNoCase User-Agent <span class="hljs-string">"ROBOTXX"</span> bad_bot
SetEnvIfNoCase User-Agent <span class="hljs-string">"ROBOTXXX"</span> bad_bot
SetEnvIfNoCase User-Agent <span class="hljs-string">"ROBOTXXXX"</span> bad_bot
&lt;Limit GET POST HEAD&gt;
Order Allow,Deny
Allow <span class="hljs-keyword">from</span> all
Deny <span class="hljs-keyword">from</span> env=bad_bot
&lt;<span class="hljs-regexp">/Limit&gt;</span></code></span></pre>

<p>Existen páginas que hacen el trabajo por nosotros y ya <strong>tienen .htaccess armados para bloquear todos los robots spiders bots crawlers indeseables</strong> y que podemos tomar como ejemplo.<br /><a href="http://wpsecure.net/bad-bot-list/" target="_blank" rel="noreferrer noopener">WPSecure.net</a><br /><a href="https://github.com/bluedragonz/bad-bot-blocker/blob/master/.htaccess" target="_blank" rel="noreferrer noopener">Bad-Bot-Bloquer</a></p>
<p>La entrada <a href="https://soyadmin.com/como-mantener-nuestro-sitio-o-server-alejado-de-robots-bots-spiders-crawlers-y-visitas-no-deseadas/">Como mantener nuestro sitio o server alejado de robots, bots, spiders, crawlers y visitas no deseadas</a> se publicó primero en <a href="https://soyadmin.com">SoyAdmin.com</a>.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://soyadmin.com/como-mantener-nuestro-sitio-o-server-alejado-de-robots-bots-spiders-crawlers-y-visitas-no-deseadas/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">971</post-id>	</item>
	</channel>
</rss>
