Robots.txt

Robots.txt para que sirve y como trastearlo con cierto criterio

Los crawlers de Google y de otros motores de búsqueda son insaciables. Les encanta rastrear e indexar todo, así que en más de una ocasión te puedes encontrar por Google alguna cosa que o bien no querías que se rastreara o no te interesa que esté disponible por diferentes motivos, por ejemplo por que afecte al posicionamiento SEO, por seguridad, etc.

Para tratar de dirigir a las arañas de los motores de búsqueda en su trabajo de rastreo e indexación debemos utilizar el archivo robots.txt. Este archivo es una especie de guardia urbano que va dirigir el recorrido de las arañas por tu sitio web. «Por aquí por favor, ¡eh tú no puedes pasar! !No ahí no se puede entrar¡ ¡Circulen, circulen…!»

¿Y por qué no dejar que rastreen todo?

Pues como he comentado antes puede haber diferentes razones por las que no te interese que se rastreen determinadas páginas:

– Porque no quieras que ese contenido esté fácilmente accesible para todo el mundo.
– Porque se trata de thin content que va a hacer perder tiempo a la araña y por tanto vas a perder crawl budget.
– Por motivos de seguridad, por ejemplo es interesante evitar que se indexen determinadas url de WordPress que suelen utilizar los hackers para darte un susto.
– Para evitar contenido duplicado.

Ojo que hay que tener en cuenta que este archivo da unas instrucciones de rastreo a los crawlers que generalmente aceptan, pero no es infalible. Por ejemplo hay determinados robots maliciosos que se pasan por el forro el robots.txt. También tienes que tener en cuenta que se trata de un archivo público, todo el mundo puede verlo solo poniendo la url www.tusitio.com/robots.txt, por lo que si quieres esconder algo muy bien búscate otra fórmula (por ejemplo protege ese contenido con un password).

Vale y ¿cómo se genera el archivo robots.txt?

Yo prefiero generarlo artesanalmente, es decir a mano, pero hay opciones automáticas que he visto por ahí aunque yo no las he probado. Así que lo generas con el notepad o similar y lo subes en el directorio raíz de tu web de la forma en que lo hagas habitualmente.

En cualquier caso, antes de empezar a tocar a lo loco, a bloquear por aquí y por allá en base a lo que has leído en noseque blog o te ha dicho tu amigo menganito, hay que pararse a pensar bien lo que quieres hacer y el porqué y analizar bien tu sitio web.

Comandos básicos

User-agent – Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
Disallow – Deniega el acceso a un directorio o página concreta.
Allow – Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
Sitemap – Indicar la ruta donde se encuentra un mapa del sitio en XML.
Crawl-delay – Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.

Como comodines puedes utilizar el asterisco (*) y el dólar ($):

Asterisco (*) – Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
Dólar ($) – Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$”.

Diferencia entre Disallow y Noindex

Cuando utilizamos el comando disallow en el archivo robots.txt, estamos bloqueando el contenido pero no evitando que sea indexado. Es algo complicado de entender, pero seguro que habéis visto muchas veces alguna SERP con un resultado que en su descripción dice: «No hay disponible una descripción de este resultado debido al archivo robots.txt de este sitio», es decir ¿está indexado? sí, pero el robot no puede pasar a ver el contenido. Si quieres que no se indexe, tienes que hacerlo fuera del robots.txt utilizando la etiqueta Meta Robots en cada página (con la combinación de valores Index/NoIndex, Follow/NoFollow, ya escribiré sobre esto otro día). Lo mejor es combinar ambas cosas.

¿Esto es todo lo que necesitas saber sobre el archivo robots.txt?

La verdad es que no, sólo son nociones básicas para trastear el archivo con cierto criterio y no a lo loco. En cualquier caso, es preciso dedicar algo más de tiempo a analizar bien todo lo que puedes hacer con este archivo. Seguro que me da para algún post más.

¿Y no nos vas a dejar ningún ejemplo?

Pues no, si dejo un ejemplo, lo que muchos van a hacer es copiarlo y pegarlo en su sitio (que nos conocemos), y lo preciso es que antes de tocar nada en robots.txt se piense bien que es lo que queremos conseguir con las acciones que emprendamos. Así que a pensar antes de trastear.