Robots.txt: Todo lo que necesitas saber

Éste es un archivo de texto dedicado a los robots de los motores de búsqueda y que contiene una serie de comandos que le indican al robot del buscador que páginas debe rastrear y cuáles no.

¿Cómo configurar tu robots.txt?

El robots cuelga siempre de la carpeta raíz (public_html, httpdocs, www,…) dependiendo del servidor donde esté alojado.  Dentro del archivo de texto se tienen que especificar lo que debe hacer cada robot de cada buscador. A continuación se indican los más conocidos:

    • Google usa Googlebot
    • Yahoo usa yahoo-slurp
    • MSN usa msnbot
    • DMOZ Checker usa robozilla
    • Baidu (buscador de China) usa baiduspider
    • Soso.com (buscador de China) usa Sosospider
    • Yandex (buscador de Rusia) usa YandexBot
  • Gigablast usa gigabot
  • Scrub the Web usa scrubyy
  • Alexa/Wayback usa ia_archiver

Además, los buscadores tienen otros bots para algunas partes de su negocio:

  • Google Imágenes usa googlebot-image
  • Google Mobile usa googlebot-mobile
  • Yahoo MM psbot usa mmcrawler

Las principales directrices

Una vez sabemos qué bots queremos que rastreen nuestra web o parte de ella, tenemos que proceder a escribir estos comandos en el robots.txt. Para eso tenemos 3 directrices principales:

User-agent: Le estamos indicando a qué bots queremos evitar que nos indexen ese contenido.
Disallow: Le estamos indicando que carpeta o archivo queremos que no indexen (i.e. Disallow: /usuarios/ para que no indexe la carpeta de usuarios de tu web)
Crawl-delay: Le estamos indicando con qué frecuencia queremos que los bots pasen por nuestra web. Las unidades se muestran en segundos (i.e. Crawl-delay: 90 para que pase cada 90 segundos).

Algunos ejemplos concretos

  • Excluir a todos los robots de tu web:
    User-agent: *
    Disallow:
  • Dar acceso completo a la web a todos los robots (aunque si creas un robots.txt en blanco también funciona):
    User-agent: *
    Disallow:
  • Excluir todos los robots de alguna parte de tu web:
    User-agent: *
    Disallow: /facturas/
    Disallow: /pedidos/
    Disallow: /usuarios/
  • Excluir un solo robot de tu web (i.e. YandeBot):
    User-agent: YandeBot
    Disallow: /
  • Dar acceso completo a la web a un solo robot:
    User-agent: Google
    Disallow:
    User-agent: *
    Disallow: /

Si te parece muy difícil te adjuntamos una herramienta online para hacer robots.txt: Aquí. Y si quieres ampliar la información te dejamos el artículo de Google sobre robots.txt.

Leave a Reply