robots.txt ¿Qué es y cómo funciona?

El archivo robots.txt es uno de los elementos fundamentales en la configuración de una webhosting, además de ser bien importante a la hora de la configuración básica a nivel de posicionamiento web.

robots.txt y motores de búsqueda

Los buscadores como Google utilizan robots que les permiten leer una página web, recuperar y guardar el contenido de la misma en una base de datos y, además, seguir los enlaces que pueda tener hacia otros sitios web.

La misma expresión “robots txt” podría denotar un asunto bastante complejo desde el punto de vista técnico, pero no lo es realmente como pasaremos a demostrarlo.

Qué son y cómo funcionan estos robots

Además de lo ya aludido, estos programas navegan “saltando” de enlace en enlace realizando, así, un trabajo bastante útil e imprescindible para que los buscadores nos puedan ofrecer los resultados que necesitamos.

Pero, es necesario precisar que estos robots tienen su lado negativo. Su labor puede ser perjudicial cuando los propietarios de una website deseen que parte de sus contenidos no sean indexados.

Lo anterior puede suceder, por ejemplo, cuando se trata de contenido temporal.

Otra posibilidad no muy conveniente, consiste en que estos “spiders” sometan al servidor a un esfuerzo excesivo al pedir demasiadas páginas muy seguidas.

Cuando un robot visita una página lo primero que solicita al servidor es el archivo http://dominio.com/robots.txt, con la salvedad de que por “dominio” se entiende el nombre de dominio de la página buscada

En caso de localizar el documento, procede a analizarlo para percatarse de la posibilidad de acceder a su contenido. En caso afirmativo, analiza las directivas existentes en cuanto a la indexación del contenido del sitio web.

La posibilidad de personalizar el archivo robots.txt

Es posible su personalización para que se aplique solamente a los robots de determinados buscadores o, también, para excluir únicamente a determinadas páginas o directorios.

Para una mejor ilustración del lector veamos, en primer término, un ejemplo de archivo de los “spiders” txt que excluye todas las búsquedas a todos los robots:

User-agent: * # aplicable a todos.
Disallow: / # impide la indexación de todas las páginas.Ahora, debemos tener en cuenta que únicamente se puede ubicar un solo archivo robots.txt  por cada website en el directorio raíz, para ser más precisos.

Será inútil colocarlo en un subdirectorio, por cuanto un robot nunca buscará allí el archivo “spiders” txt.

Ahora, es imprescindible tener en cuenta que, al momento de preparar el archivo “spiders” txt, deberemos saber que las URLs son sensibles a las mayúsculas y las minúsculas.

El archivo se compondrá de distintas directivas agrupadas en relación con el robot al que se aplican. Además, dentro de cada uno de los grupos de directivas no pueden estar presentes líneas en blanco.

Tengamos en cuenta, además, que cada grupo de directivas empieza con el campo “user-agent” que, dicho sea de paso, sirve para identificar al robot al que se refieren dichas directivas.

Este campo “user-agent” siempre tendrá que existir. Veamos, entonces, un ejemplo de directivas “Disallow” en el que a este lo dejamos vacío, estableciendo total libertad para “Webcrawler”:
User-agent: Webcrawler.
Disallow:  (vacío).

Entonces: mediante las directivas Disallow establecemos los archivos o directorios específicos que pretendemos excluir, de la siguiente manera:
Disallow: /help # afecta a /help.html y a /help/index.html.
Disallow: /help/ # afecta a /help/index.html, pero no a /help.html.

Siempre tendrá que existir un campo Disallow, al cabo que, si lo dejamos vacío, no habrá ningún tipo de restricción.

 

 

Qué hacer cuando no es posible crear un archivo  robots.txt

En esta hipótesis o, también, cuando  deseamos personalizar las instrucciones página por página, es posible utilizar las “Etiquetas Meta”.

Veamos un ejemplo en el que se le indica al robot que no debe indexar el documento, ni seguir sus links:

< META name=”ROBOTS” content=”NOINDEX, NOFOLLOW” >

Aunque en este ejemplo hemos colocado en “content” solo NOINDEX y NOFOLLOW, también existen las opciones de
ALL e INDEX.

El visit-time  y otros aspectos importantes a tener en cuenta

El visit-time permite controlar el tiempo en que los robots indexan las páginas, así:

# Permitir trabajar a los bots de 2 am a 7:45 am (horas Greenwitch).

Visit-time: 0200-0745.

# Un documento CADA 30 minutos.

Request-rate: 1/30m.

# Combinado: 1 doc cada 10 minutos.
# y solo de una a 5 tarde.
Request-rate: 1/10m 1300-1659.

En otro orden de ideas pero en el mismo sentido, digamos que, como lo hemos manifestado suficientemente ya, el robots.txt  es un archivo.

Ahora, como la extensión misma lo indica, se trata de un archivo de texto que se conoce como “protocolo de exclusión de robots”.

Retomando temas ya aludidos, pero explicados de manera diferente, podemos manifestar que los robots se encuentran automatizados en razón de lo cual, antes de visitar el sitio web, revisan la existencia de este archivo.

Y, en caso de estar acreditado, interpretan y respetan las directrices del mismo. El “spider” txt dispone de dos directivas principales:

• User-agent: acá se indica el o los bots para los que se desea bloquear el contenido y puede tener los siguientes valores:

googlebot => para Google
msnbot => MSN Search
yahoo-slurp => Yahoo
teoma => Ask/Teoma
twiceler => Cuil
gigabot => GigaBlast
scrubby => Scrub The Web
robozilla => DMOZ Checker
nutch => Nutch
ia_archiver => Alexa/Wayback
baiduspider => Baidu
naverbot, yeti => Naver.

• Para casos más específicos:

googlebot-image => Google Image
googlebot-mobile => Google Mobile
yahoo-mmcrawler => Yahoo MM
psbot => MSN PicSearch
asterias => SingingFish
yahoo-blogs/v3.9 => Yahoo Blogs.

Otras dos directivas importantes, son:

• Disallow: en esta directiva debe ir la carpeta o archivo que deseamos bloquear, así por ejemplo:

Disallow: /carpeta/

Disallow: /*.js$

Disallow: /carpeta-con-contenido/*.

• Crawl-delay: nos permite establecer la frecuencia con la que podrán pasar los bots por nuestro sitio web. Así, por ejemplo:

Craw-delay 50: el robot esperará 50 segundos entre cada acceso.

En otro orden de ideas pero en el mismo sentido, digamos que crear un robots.txt  es relativamente sencillo aunque, para ahorrar tiempo, podríamos utilizar un generador como, por ejemplo, Generadorderobots.txt.

Para terminar, de momento, veamos algunos ejemplos en los que podemos observar que no existe desperdicio alguno:

El robot.txt de la Casa Real Española es http//www.casareal.es/robots.txt, en el que apreciamos lo siguiente:

User-agent: *

Disallow:

Disallow: /_*/

Disallow: /ES/FamiliaReal/Urdangarin/

Disallow: /CA/FamiliaReal/Urdangarin/

Disallow: /EU/FamiliaReal/Urdangarin/

Disallow: /GL/FamiliaReal/Urdangarin/

Disallow: /VA/FamiliaReal/Urdangarin/

Disallow: /EN/FamiliaReal/Urdangarin/

Sitemap: http://www.casareal.es/sitemap.xml.

 

 

 

 

 

 

 

Artículos relacionados
Deja tu respuesta

Respuestas de otros usuarios:

  • Escrito 20 Julio, 2013
    Nuria

    Buenas, muy interesante el articulo….yo tengo un problema con este tema. Yo no quiero restringir el acceso a nada en mi web y no tenía dicho archivo pero el webmaster de google me dió error diciendo que no disponía de dicho robot.txt, lo puse y google no volvió a pasar por mi web…ahora lo he quitado y sigo igual, es como si no reconociera mi web y no tengo ni idea del porqué. Ayuda, please!!

    • Escrito 20 Julio, 2013
      iSocialWeb

      Hola Nuria,
      si puedes pegar el código que tenía el archivo, podremos ver donde está el problema. Además ¿Cómo sabes que Google no volvió a pasar por tu web? y también ¿Han caído tus visitas de tráfico de Google? Haría falta un poco más de información. Amplía un poco la información y miramos una solución.

  • Escrito 23 Diciembre, 2013
    Dicoma

    Muy interesante. 🙂 Bueno para ocultarle directorios a los bots… Para un tienda online va de miedo, así en http://grupotodoplano.es no tienes que quitar las ofertas manualmente y esperar que te lo indexe… Aunque claro otra cosa es el que entre y lo vea… Buen aporte.

  • Escrito 20 Marzo, 2014
    Andrea Lezcano

    Buenas, una duda:

    El robot debe ir en el directorio raíz httpdocs o dentro de wp_content en el caso de usar una plataforma wordpress?

    Muchas gracias por la ayuda

    • Escrito 20 Marzo, 2014
      iSocialWeb

      Hola Andrea,
      el robots.txt cuelga de la raiz, depende del servidor será el httpdocs u otro nombre de carpeta. En la carpeta wp-content únicamente van carpetas y archivos de temas de wordpress, plugins y subida de archivos en upload, pero ahí no lo reconoce.

      Un placer y gracias a ti por comentar!

      • Escrito 20 Marzo, 2014
        Andrea Lezcano

        Wow! que rápido! muchísimas gracias por tu ayuda, te felicito por el material… excelente, muy bueno ^^ +1

  • Escrito 8 Julio, 2014
    Daniel Bocardo Gutierrez

    Muy bueno el ejemplo jajaja

  • Escrito 23 Enero, 2015
    Federico

    Para configurar el robot. txt para un buen SEO, se puede poner un archivo robots.txt predefinido pero, para evitar futuras complicaciones, es preferible crearlo uno mismo y configurarlo de la manera más adecuada. Para poder configurar el archivo robots.txt y así evitar el rastreo de ciertas zonas de una web, lo principal es tener acceso a la raíz de tu FTP. El archivo hay que colocarlo en la base o root del FTP para que los rastreadores lo tengan en cuenta. Si utilizas algún gestor de contenido, del tipo wordpress, lo más probable es que puedas configurar este elemento con algún plugin.