Robots txt – Para qué sirven y cómo usarlos

. Oct 9, 2014.

Todo lo que debes saber sobre los archivos Robots txt, para qué sirven, cómo funcionan y algunos ejemplos para usarlos correctamente en tu sitio web.

Los motores de búsqueda web usan programas automatizados (bots) para verificar y categorizar qué contenido, páginas y secciones de una web van a ser indexadas en los resultados por medio de la consulta a los archivos robots txt de tu página web.

¿Qué son los Robots.txt?

Significa: “estándar de exclusión de robots”; “protocolo de la exclusión de robots” o “protocolo de robots.txt”.

Es una lista de comandos en un archivo que impide que los bots que analizan los sitios web rastreen y agreguen información innecesaria (o ciertas páginas de tu web) a los resultados de búsqueda.

Los administradores de sitios web usan los archivos robots.txt para hacer que algunas secciones de sus páginas sean privadas e invisibles al resto del mundo.

¿Cómo funcionan los Robots txt?

Los robots son usados frecuentemente por los motores de búsqueda y los administrados de páginas web para categorizar y ordenar los sitios web en su código fuente.

  • Solo puede haber 1 archivo Robots txt en cada sitio web ubicado en el directorio raíz, (un robot nunca buscará un archivo Robots txt en un subdirectorio).

Según Google: el archivo Robots txt es únicamente necesario si tu página web tiene contenido que no deseas que sea incluido en los motores de búsquedas.

Robots txt - Para qué sirven y cómo usarlos

Ejemplos de archivos robots.txt:

Código:

User-agent: *

Disalow: /

  • Para prohibir el acceso de cualquier robot a su sitio.

Código:

User-agent: *

Disalow:

  • Para que los robots puedan acceder a cualquier contenido.

Código:

User-agent: *

Disalow: /contacto.html

Disalow: /archive.html

  • Permite que ningún robot pase por la página “Contacto” ni “Archivo”.

 

Código:

User-agent: Google

Disalow:

User-agent: *Disallow: /

  • Hace que ningún robot pase por el sitio, excepto el bot de Google.

 

Definición de los campos:

  • El campo # significa el comentario o la clasificación del bot.
  • Cada campo empezará con: “User-agent” que sirve para identificar al robot al que dichas directivas se refieren.
  • Primera línea: indica a que robot se le hace la solicitud; en este caso, la orden es para todos. (*)
  • Segunda línea: muestra a que ruta se le quita el acceso, conjuntamente con los directorios que le siguen en orden jerárquico.  (/)
  • No puede haber líneas en blanco.

 

Código:

# Bot de Goole

User-agent: Googlebot

Disalow: /private.html

Disalow: /backup.html

Disalow: /facturas.html

  • Permite que ningún robot pase por la página “Contacto” ni “Archivo”.

 

Para que Google indexe tu sitio web completo NO crees un archivo “Robots txt” aunque sea uno vacío.

  • Ten en cuenta que las ULRs de las páginas web son sensibles a las minúsculas y mayúsculas.

Puedes usar el Probador de Robots txt de Google aquí.

Algunos robots de la web:

  • Googlebot: el bot de Google.
  • Mediapartners-Google: el bot que se encarga de revisar los anuncios de Google Adsense.
  • Googlebot-Image: bot que indexa las imágenes en Google Images.
  • Googlebot-News: bot que indexa noticias en Google News.
  • Bingbot: el bot del buscador Bing.
  • Slurp: el bot del antiguo buscador de Yahoo!
  • Scooter: el bot del buscador Altavista.

Desventajas de los archivos Robots txt

Los archivos Robots txt son protocolos de consulta, es decir, que el bot confía en los comandos robots.txt de tu sitio web. Sin embargo, este no garantiza totalmente el aislamiento del contenido que deseas.

Para más información sobre los archivos Robots.txt puedes visitar la guía de ayuda oficial de Google aquí.

En pocas palabras, aunque agregues un archivo robots.txt en tu sitio web para esconder información confidencial del  público puede que esas secciones aparezcan en los resultados de búsqueda.

Comentarios

Comentarios

Más de SEO

Recibe un resumen de nuestros mejores artículos y recursos GRATIS en tu email

Como tú, tampoco nos gusta el spam, por lo que solo te escribiremos 1 vez por semana

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR