Controlar el acceso de Robots a tu sitio usando el archivo “robots.txt”
Categorias: Desarrollo web
En ciertas ocasiones nos puede interesar impedir que los robots de los buscadores indexen ciertos directorios o documentos de nuestro web, para ello se usan los archivos “robots.txt”.
El archivo robots.txt no es más que archivo de texto que contiene una lista de instrucciones escritas en un formato estandarizado y que están dirigidas a todos o a ciertos robots en concreto. La función de estas instrucciones es la de prohibir que ciertos documentos o directorios que no queramos compartir sean indexados por los spiders.
El fichero robots.txt es lo primero que los crawlers buscan cuando acceden a un sitio web, posteriormente pasan a indexar el resto de nuestra web. El fichero robots.txt debe esta situado en el directorio raíz de nuestro sitio web, es decir, deberíamos poder acceder a el desde la dirección www.tudominio.com/robots.txt.
El motivo por el cual robots.txt debe esta colocado en nuestro directorio raíz es por es simple hecho de que los spiders solo lo buscan allí. Si lo encuentran, lo leerán y supuestamente acataran las instrucciones allí indicadas. Pero si no lo encuentran, darán por hecho que pueden indexar todos los documentos que estimen oportuno.
Puede ocurrir que un spider encuentre nuestro fichero robots.txt y que aunque supuestamente debería de acatar las ordenes que allí se le indican, este haga caso omiso de los mismo y termine indexando los documentos que queríamos prohibirle. Pero esto es algo que no tiene solución clara, al fin y al cabo quien va a obligar a los desarrolladores del spider a que este acate las ordenes de los archivos robots.txt?
La estructura de un archivo robots.txt es realmente simple, todas sus instrucciones son de tipo
donde [campo] únicamente puede ser
Con un ejemplo todo se ve más claro:
Como puedes observar el ejemplo esta dividido en dos partes. La primera esta dirigida a todos los robots, así lo indica la primera instrucción
En ambas partes, tras indicar los robots a los cuales esta dirigido, se especifica mediante "Disallow" los directorios y documentos que no deberían ser indexados por los robots. Hay que tener en cuenta que para prohibir la indexación de todos los documentos de un directorio, el path que se asigna a
El archivo robots.txt solo sirve para intentar prohibir la indexación de ciertos documentos y directorios, no es valido para configurar otros aspectos del funcionamiento de los spiders. Pero para esto existen los meta-tags de tipo “Robot”, los cuales incluidos en un documento HTML sirven para comunicar al robot la asiduidad con la que debiera indexar el documento. Pero esto es ya otra historia…
Tagging: buscadores, crawlers, Desarrollo web, google, robots txt, spider, spiders
-
Escribir comentario
Los comentarios son propiedad y responsabilidad de sus autores. Los comentarios fuera de tópico y el spam serán removidos. Los e-mails se mantienen privados y no se publican ni utilizan para otros efectos que los de validación. Aparte de eso, sean bienvenidos a comentar.
Trackback este artículo | Suscibase a los comentarios con RSS Feed