Este blog, la Bitácora de guebs, ha sido reemplazada por el nuevo Blog de guebs. Sólo se publicarán nuevos contenidos y noticias en el nuevo Blog de guebs. Por favor, actualiza tus marcadores y/o favoritos.

guebs.com - Alojamiento web económico y de calidad
Hosting profesional, de calidad y fácil de usar al precio de una copa en el pub de la esquina

Bitácora

Categorias

Calendario

Enero 2009
L M X J V S D
« Dic    
 1234
567891011
12131415161718
19202122232425
262728293031  

Últimos artículos

Sindicación

Sitios amigos

Otros

Controlar el acceso de Robots a tu sitio usando el archivo “robots.txt”

Categorias: Desarrollo web

En ciertas ocasiones nos puede interesar impedir que los robots de los buscadores indexen ciertos directorios o documentos de nuestro web, para ello se usan los archivos “robots.txt”.

El archivo robots.txt no es más que archivo de texto que contiene una lista de instrucciones escritas en un formato estandarizado y que están dirigidas a todos o a ciertos robots en concreto. La función de estas instrucciones es la de prohibir que ciertos documentos o directorios que no queramos compartir sean indexados por los spiders.

El fichero robots.txt es lo primero que los crawlers buscan cuando acceden a un sitio web, posteriormente pasan a indexar el resto de nuestra web. El fichero robots.txt debe esta situado en el directorio raíz de nuestro sitio web, es decir, deberíamos poder acceder a el desde la dirección www.tudominio.com/robots.txt.

El motivo por el cual robots.txt debe esta colocado en nuestro directorio raíz es por es simple hecho de que los spiders solo lo buscan allí. Si lo encuentran, lo leerán y supuestamente acataran las instrucciones allí indicadas. Pero si no lo encuentran, darán por hecho que pueden indexar todos los documentos que estimen oportuno.

Puede ocurrir que un spider encuentre nuestro fichero robots.txt y que aunque supuestamente debería de acatar las ordenes que allí se le indican, este haga caso omiso de los mismo y termine indexando los documentos que queríamos prohibirle. Pero esto es algo que no tiene solución clara, al fin y al cabo quien va a obligar a los desarrolladores del spider a que este acate las ordenes de los archivos robots.txt?

La estructura de un archivo robots.txt es realmente simple, todas sus instrucciones son de tipo

donde [campo] únicamente puede ser User-agent o Disallow, mientras que [valor] solo puede ser el nombre de un robot o el path relativo al directorio o documento cuya indexación queremos prohibir.

Con un ejemplo todo se ve más claro:

Como puedes observar el ejemplo esta dividido en dos partes. La primera esta dirigida a todos los robots, así lo indica la primera instrucción User-agent: *, donde el carácter * equivale a cualquiera o todos los spiders. La segunda parte, esta dirigida a unos robots concretos definios mediante múltiples instrucciones que asignan un robot concreto a User-agent.

En ambas partes, tras indicar los robots a los cuales esta dirigido, se especifica mediante "Disallow" los directorios y documentos que no deberían ser indexados por los robots. Hay que tener en cuenta que para prohibir la indexación de todos los documentos de un directorio, el path que se asigna a Disallow debe incluir el carácter / al final del nombre del directorio. Es decir, debe tener el formato Disallow: /directorio/ en vez de Disallow: /directorio.

El archivo robots.txt solo sirve para intentar prohibir la indexación de ciertos documentos y directorios, no es valido para configurar otros aspectos del funcionamiento de los spiders. Pero para esto existen los meta-tags de tipo “Robot”, los cuales incluidos en un documento HTML sirven para comunicar al robot la asiduidad con la que debiera indexar el documento. Pero esto es ya otra historia…


Tagging: , , , , , ,

Accesos: 1934 21/09/2005 Imprimir Autor: webmaster

Escribir comentario

Los comentarios son propiedad y responsabilidad de sus autores. Los comentarios fuera de tópico y el spam serán removidos. Los e-mails se mantienen privados y no se publican ni utilizan para otros efectos que los de validación. Aparte de eso, sean bienvenidos a comentar.

(Requerido)
(Requerido, pero no se muestra)

Trackback este artículo  |  Suscibase a los comentarios con RSS Feed

4images accesibilidad acceso a internet actualizacion adios adsl agujero de seguridad ajax alfa corse alfa romeo alojamiento alojamiento web anti spam anti virus antivirus gratuitos apache ask jeeves aui axarquia backup banda ancha benchmark biblioteca digital bitacora bitacoras blog blogs bug bugs buscador buscadores cable cable modem cat clamav clamwin cobertura adsl coches col color combinacion de colores comercio electronico compras online ComPuntoEs computadoras constructor web correo web correos crawlers creative commons css datos personales Desarrollo web diccionario sms Diseño web dns dominio dominio es Dominios dominios es ebay educacion email ESNIC españa estadisticas estadisticas web estafa estilos estructura de directorios extranet fantastico fiesta firefox formmail formulario contacto formularios fotografias fuentes galicia gif google google adwords google analytics googlebar guebs hojas de estilo hosting htaccess html ibercom icann iconos idn img incidencias include indidencia infraestructura internet internet corporation for assigned names and numbers internet explorer interxion javascript jpeg jpg kernel leyes linux lssi lssice luces malaga marklin microsoft office mo mod security modelismo ferroviario movable type moviles mozilla msn search multilingue MySQL ofimatica openoffice pagerank panel de control panel de dominios phishing phising php php4 php5 pixels plantillas plc plugin poo pop ups Posicionamiento en buscadores privacidad programacion orientad a objetos rails Recursos red regalos regalos originales regalos para hombres relojes robots txt RoR ruby Ruby on Rails san queremos scripts scrollbars seguridad seo server side server side includes servidor servidor de correo servidor http servidor web servidores servidores de correo sistema de nombres de dominio sitebuilder smarty sms software libre spam spider spiders ssi supermicro Telefonica template engine terminos sms thumbnail tradedoubler ubuntu usabilidad uso de internet validacion formulario ventanita virus vulnerabilidad wifi WordPress xhtml yahoo

Inicio :: Por qué elegirnos :: Preguntas frecuentes :: Hosting :: Dominios :: Soporte :: Clientes :: Contacto :: Mapa Web
guebs.com  -  Avisos Legales  -  ( XHTML y CSS válido )