Robots.txt

Desde la aparición de las arañas web, esas maquinas que navegan por Internet indexando todas las paginas que encuentran para luego incluirlas en los índices de búsqueda de los buscadores, surgió la necesidad de crear un protocolo de comunicación con dichas arañas.

Nació la idea del fichero robots.txt, las arañas al final son ordenadores programadas para seguir unos patrones de navegación y almacenar ciertos datos de cada una de las paginas que visitan, a modo de “robot”, por eso se le llamo al fichero de comunicación robots.txt.

El fichero robots.txt básicamente informa a las arañas sobre los deseos o no de los administradores de una web que esta siendo visitada, de ser indexada por parte de la araña. Se utiliza también para indicarle a la araña que partes del sitio quiere restringir de ser indexada o que tipos de archivos (determinados por la extensión de dicho archivo) deben de ser excluidos de la indexación.

El fichero robots.txt no existe por defecto en las instalaciones de la mayoría de servidores web, por lo que es necesario crear este fichero, de hecho, una de las primeras formas a través de las que descubrí que los arañas buscan los archivos robots.txt viendo el error Log de mi apache, donde había constantes peticiones de dicho fichero que provocaban un error 404 al no hallarse el archivo.

Contenidos del fichero robots.txt:

El formato básico define el nombre de la araña a la que nos referimos y lo que queremos restringir.

User-Agent: GoogleBot
Disallow: /private

Este ejemplo prohibiría a GoogleBot (la araña de nuestro querido Google) de indexar el directorio Private y todos sus subdirectorios.

User-Agent: *
Disallow: /veryprivate

Este ejemplo prohibiría a todas las arañas indexar el directorio veryprivate y todos sus subdirectorios.

En realidad, no es cierto que prohibiría, ya que el robots.txt es una fichero de comunicación con la araña, no tiene la capacidad de restringir el acceso a dicha parte de la web, por lo que la prohibición se basa en que la araña sea friendly (amigable) y respete los deseos de los administradores de las webs expresados en el robots.txt. Para restringir de forma imperativa el acceso a ciertos directorios por parte de las arañas habría que utilizar otros métodos más agresivos.

Con la importancia creciente de las arañas web, se están considerando y probando nuevas directivas para controlar mejor la relación entre una web y las arañas.
Visit-time para definir las horas en las que una web permitiría que una araña realizase su indexación.

Visit-time: 0100-0500
Este ejemplo indicaría a las arañas que las horas permitidas para la indexación de la web son de la 1 de la madrugada a las 5. Esto seria útil para evitar que las arañas añadan sobrecarga a los servidores en horarios prioritarios.

Request-rate: para definir la velocidad de rastreo de la arañas.

Request-rate: 1/10m

Este ejemplo indicaría a las arañas que como máximo indexaran 1 página cada 10 minutos, al igual que antes, para evitar la sobre carga en los servidores por parte de arañas muy potentes que indexan un gran numero de páginas a la vez.

Podemos utilizar también el fichero robotx.txt para saber que arañas nos visitan y con que frecuencia. Este dato lo obtendríamos al consultar las entradas para este fichero en el Log de nuestro servidor web.

Technorati Tags:

One Response to “Robots.txt”

  1. Edgar Says:

    Hola, muy útil la información, pero, sabes como puedo modificar el archivo robots.txt de blogger??, ya intenté con la herramienta de para webmasters de google y nada :(, por eso me pusé a googlear y caí en tu web, :)

Leave a Reply