Robots txt – Para qué sirven y cómo usarlos

Todo lo que debes saber sobre los archivos Robots txt, para qué sirven, cómo funcionan y algunos ejemplos para usarlos correctamente en tu sitio web.

Los motores de búsqueda web usan programas automatizados (bots) para verificar y categorizar qué contenido, páginas y secciones de una web van a ser indexadas en los resultados por medio de la consulta a los archivos robots txt de tu página web.

[box]

¿Qué son los Robots.txt?

Significa: “estándar de exclusión de robots”; “protocolo de la exclusión de robots” o “protocolo de robots.txt”.

Es una lista de comandos en un archivo que impide que los bots que analizan los sitios web rastreen y agreguen información innecesaria (o ciertas páginas de tu web) a los resultados de búsqueda.

[/box]

Los administradores de sitios web usan los archivos robots.txt para hacer que algunas secciones de sus páginas sean privadas e invisibles al resto del mundo.

[Tweet «Los archivos Robots.txt permiten esconder información privada de los resultados de búsqueda»]

¿Cómo funcionan los Robots txt?

Los robots son usados frecuentemente por los motores de búsqueda y los administrados de páginas web para categorizar y ordenar los sitios web en su código fuente.

  • Solo puede haber 1 archivo Robots txt en cada sitio web ubicado en el directorio raíz, (un robot nunca buscará un archivo Robots txt en un subdirectorio).

Según Google: el archivo Robots txt es únicamente necesario si tu página web tiene contenido que no deseas que sea incluido en los motores de búsquedas.

Robots txt - Para qué sirven y cómo usarlos

Ejemplos de archivos robots.txt:

[box]

Código:

User-agent: *

Disalow: /

  • Para prohibir el acceso de cualquier robot a su sitio.

[/box]

[box]

Código:

User-agent: *

Disalow:

  • Para que los robots puedan acceder a cualquier contenido.

[/box]

[box]

Código:

User-agent: *

Disalow: /contacto.html

Disalow: /archive.html

  • Permite que ningún robot pase por la página “Contacto” ni “Archivo”.

[/box]

 

[box]

Código:

User-agent: Google

Disalow:

User-agent: *Disallow: /

  • Hace que ningún robot pase por el sitio, excepto el bot de Google.

[/box]

 

Definición de los campos:

  • El campo # significa el comentario o la clasificación del bot.
  • Cada campo empezará con: “User-agent” que sirve para identificar al robot al que dichas directivas se refieren.
  • Primera línea: indica a que robot se le hace la solicitud; en este caso, la orden es para todos. (*)
  • Segunda línea: muestra a que ruta se le quita el acceso, conjuntamente con los directorios que le siguen en orden jerárquico.  (/)
  • No puede haber líneas en blanco.

 

[box]

Código:

# Bot de Goole

User-agent: Googlebot

Disalow: /private.html

Disalow: /backup.html

Disalow: /facturas.html

  • Permite que ningún robot pase por la página “Contacto” ni “Archivo”.

[/box]

 

[box type=»info»]

Para que Google indexe tu sitio web completo NO crees un archivo “Robots txt” aunque sea uno vacío.

  • Ten en cuenta que las ULRs de las páginas web son sensibles a las minúsculas y mayúsculas.

[/box]

Puedes usar el Probador de Robots txt de Google aquí.

[Tweet «Los archivos Robots.txt no son 100 % fiables para esconder información privada»]

Algunos robots de la web:

  • Googlebot: el bot de Google.
  • Mediapartners-Google: el bot que se encarga de revisar los anuncios de Google Adsense.
  • Googlebot-Image: bot que indexa las imágenes en Google Images.
  • Googlebot-News: bot que indexa noticias en Google News.
  • Bingbot: el bot del buscador Bing.
  • Slurp: el bot del antiguo buscador de Yahoo!
  • Scooter: el bot del buscador Altavista.

Desventajas de los archivos Robots txt

Los archivos Robots txt son protocolos de consulta, es decir, que el bot confía en los comandos robots.txt de tu sitio web. Sin embargo, este no garantiza totalmente el aislamiento del contenido que deseas.

Para más información sobre los archivos Robots.txt puedes visitar la guía de ayuda oficial de Google aquí.

En pocas palabras, aunque agregues un archivo robots.txt en tu sitio web para esconder información confidencial del  público puede que esas secciones aparezcan en los resultados de búsqueda.

Autor
David Polo Moya
David Polo Moya

Nacido en Madrid, de 43 años. Licenciado en Business por la Universidad de Portsmouth (Reino Unido) MBA por el Instituto de Empresa en Madrid (España) e Indian Institute of Management en Calcuta (India). Emprendedor recurrente, David Polo es el fundador de Time Management, consultora de sistemas de gestión con más de 10 años de experiencia y por otro lado los blogs emprender-facil.com y gestionar-facil.com. Consultor independiente de emprendedores y empresas, en análisis, gestión y medición de datos, David Polo se enfoca en el desarrollo empresarial a través del uso de Plataformas de gestión, consultoría estrategia y de innovación y ayuda a emprendedores y empresarios. Visita mi perfil en about.me: https://about.me/davidpolomoya


Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR