LLAMANOS: 994548099 / RPM #994548099 / RPC 976205506

El archivo robot.txt

Los buscadores o crawlers que funcionan lanzando su robot a la caza de las páginas que irán recolectando para añadir a su base de datos, para su posterior inclusión e indexación, comprueban unicamente los contenidos del fichero robots.txt. Este fichero lo buscan en el directorio raíz del web site y es un fichero de texto plano, no un fichero HTML.
La existencia y el funcionamiento del fichero robots.txt se deben a los protocolos del W3, con la intención de que el webmaster pueda ocultar al robot aquellos contenidos que no se desea hacer públicos o aplicar dichas reglas sólo para algún o algunos robots en concreto.

El robot busca primero en http//www.tudominio.com/robots.txt cuando aterriza en tu website, de manera que ahí es donde deberás incluir tu fichero robots.txt. El número de peticiones que reciba este ficherito y que constará en las estadísticas nos indicará pues el número de veces que hemos sido visitados por el robot.

En caso de que no dispongas del fichero, el robot considera que no hay ninguna exclusión y podrá rastrear cualquier página del web site sin excepción.

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc. También son llamados spiders, arañas, bots o indexadores.
 

 
Por ejemplo, Googlebot es el nombre del crawler del buscador Google. También existen otros como:
 
  • Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.
  • Googlebot-Image, robot indexador de imagenes del buscador de Google.
  • Slurp, crawler de indexación del buscador Yahoo!
  • Scooter, del buscador Altavista.
Y muchísimos más. Si establecemos un control en nuestro robots.txt, podremos conseguir una serie de beneficios:
  • Impedir acceso a robots determinados: Puede parecer contradictorio, pero algunos crawlers no nos proporcionarán sino problemas. Algunos robots no son de buscadores, e incluso algunos robots no son ni amigos. Pero de eso ya hablaremos más tarde.
  • Reducir la sobrecarga del servidor: Podrás controlar el flujo de algunos robots. Algunos de ellos son un verdadero descontrol de peticiones que pueden llegar a saturar tu servidor.
  • Prohibir zonas: Nos puede interesar tener disponible una zona en nuestra web, que sea accesible para algunos, pero que no aparezca en buscadores.
  • Eliminar contenido duplicado: Uno de los casos más importantes, que casi siempre es olvidado por los webmasters. Si eliminamos la duplicidad de contenido, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
  • Fijar mapas del sitio: También es posible acoplar un sitemap para indicar el buen camino a los robots.
¿Como se crea este archivo?

Sólo tenemos que crear un fichero de texto robots.txt y comenzar a escribir en el. Partiré del siguiente ejemplo donde permitimos la entrada a todos los crawlers (igual que sin ningún robots.txt):

User-agent: *
Disallow: 

En User-agent debemos introducir el nombre del robot, y a continuación las rutas donde queremos prohibir que acceda. Algunos ejemplos:
  • Disallow: / prohibe la entrada a todo el sitio.
  • Disallow: /folder/ prohibe la entrada a los documentos del directorio llamado folder.
  • Disallow: permite la entrada a todo el sitio.
En algunos casos suele utilizarse en lugar de Disallow, la palabra Allow. Aunque por definición es correcta, es conveniente no utilizarla, puesto que las rutas omitidas se asumen que están permitidas por defecto, y algunos crawlers no entienden la palabra Allow.

Es posible acumular varios Disallow bajo un mismo User-agent, pero no podemos utilizar varios User-agent encima de un Disallow. Bien, algún ejemplo:

# Crawler de MSN
User-agent: msnbot
Disallow: /archivo.html
Disallow: /privado/
Disallow: /imagenes/

Este código impide al crawler del buscador de Live (MSN) acceder a la página archivo.html, y las carpetas privado e imágenes (y todo su contenido) de nuestro sitio.

Añadiendo el carácter # al principio de una linea podemos escribir comentarios que no interpretará el crawler.

Es posible ir acumulando reglas para distintos crawlers, formando un robots.txt más largo y completo. Cada vez que escribamos un User-agent deberemos dejar una linea en blanco de separación. Además, existe una ligera adaptación que permiten usar comodines ($ y *) en las rutas en algunos crawlers (sólo Googlebot y Slurp)

Finalmente, podemos también incluir un mapa del sitio en nuestro robots.txt de la siguiente forma:
Sitemap: http://www.tudominio.com/sitemap.xml

Debemos recordar a todos que con el fichero robots.txt no podemos bloquear los accesos por «fuerza bruta». Robots.txt es una recomendación del webmaster a los buscadores, que como son «robots buenos», las seguirán al pie de la letra.

Existen otros "robots malos" (que buscan direcciones de correos o formularios para hacer SPAM) que no dudarán en acceder a los lugares que hayas prohibido si lo desean. Para bloquear estos, deberemos echar mano al fichero .htaccess