Qué es robots.txt y cómo crearlo

¿Te has preguntado cómo los robots de búsqueda como Google navegan por tu sitio web? La respuesta es simple: siguiendo las instrucciones de tu archivo robots.txt. Este pequeño archivo, a menudo ignorado, juega un papel crucial en la optimización de tu sitio para los motores de búsqueda.

¿Quieres saber más? Sigue leyendo para descubrir cómo el archivo robots.txt puede ayudarte a mejorar tu visibilidad en los resultados de búsqueda.

archivo robots.txt

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto que contiene instrucciones para los robots de los motores de búsqueda, indicándoles qué páginas deben y no deben rastrear.

¿Cuál es la función del archivo robots.txt?

La función principal del archivo robots.txt es controlar y dirigir el comportamiento de los robots de búsqueda en un sitio web. Les muestra qué partes del sitio pueden rastrear y cuáles no. Esto es útil para bloquear el acceso a páginas innecesarias, como páginas de resultados de búsqueda interna o páginas de inicio de sesión, garantizando que los motores de búsqueda dediquen más tiempo y recursos a las páginas importantes.

¿Cómo afecta el archivo robots.txt al SEO?

El archivo robots.txt desempeña un papel crucial en el SEO al permitir que los buscadores encuentren y clasifiquen las páginas importantes de un sitio web de manera más eficiente. También ayuda a optimizar el presupuesto de rastreo de los motores de búsqueda, asegurando que se dedique más tiempo a las páginas que realmente importan.

¿Qué ocurre si no se utiliza el archivo robots.txt?

Si no se utiliza el archivo robots.txt, los robots de búsqueda rastrearán automáticamente todas las páginas del sitio web. Esto puede tener consecuencias negativas, ya que, en caso de tener una web muy grande, se podría perder tiempo rastreando partes de la web que quizás no deberían ser rastreadas desperdiciando así recursos de rastreo en páginas que no aportan valor.

Cómo crear un archivo robots.txt

A continuación, te mostramos los pasos para crear un archivo robots.txt desde cero y las consideraciones importantes que debes tener en cuenta.

Pasos para crear un archivo robots.txt desde cero

Si aún no tienes un archivo robots.txt en tu sitio web, puedes seguir estos pasos para crear uno:

  • Abre un editor de texto, como Bloc de notas o Sublime Text.
  • Crea un nuevo archivo y guárdalo con el nombre «robots.txt«.
  • Define qué robots de búsqueda quieres que accedan a tu sitio web utilizando la directiva «User-agent«.
  • Utiliza la directiva «Disallow» para indicar qué partes de tu sitio web no quieres que sean rastreadas por los buscadores.
  • Puedes utilizar la directiva «Allow» para permitir el acceso a ciertas partes de tu sitio web que hayas bloqueado previamente. Por ejemplo, has puesto como Disallow la carpeta de medios, pero quieres que los .jpg sí sean rastreados.
  • Utiliza la directiva «Sitemap» para especificar la ubicación de tu mapa del sitio XML.
  • Asegúrate de guardar el archivo robots.txt en la raíz de tu sitio web.

Directivas y comandos en el archivo robots.txt

La correcta configuración del archivo robots.txt dependerá del uso adecuado de las directivas y comandos que se incluyan en él. Estas instrucciones permiten controlar qué partes del sitio web deben ser rastreadas o no por los motores de búsqueda.

Directiva ‘User-agent’

La directiva ‘User-agent‘ se utiliza para especificar a qué bots o rastreadores se aplicarán las siguientes instrucciones. Se puede utilizar ‘User-agent: *’ para aplicar las instrucciones a todos los bots, o se pueden especificar bots específicos, como ‘User-agent: Googlebot’. Es importante utilizar la sintaxis correcta para asegurarse de que los bots comprendan las indicaciones.

Directiva ‘Disallow’

La directiva ‘Disallow‘ se utiliza para indicar a los bots qué partes del sitio web no deben ser rastreadas. Se especifica la ruta de las URL que no se desean que sean indexadas, utilizando la sintaxis ‘Disallow: /ruta/’. Por ejemplo, ‘Disallow: /privado/’ impedirá que los bots accedan a la carpeta /privado/ y a sus contenidos.

Directiva ‘Allow’

La directiva ‘Allow‘ se utiliza para permitir el acceso a determinadas partes del sitio web que se han restringido previamente con la directiva ‘Disallow’. Se utiliza la sintaxis ‘Allow: /ruta/’ para indicar a los bots qué rutas específicas pueden ser rastreadas y indexadas.

Directiva ‘Sitemap’

La directiva ‘Sitemap‘ se utiliza para indicar la ubicación del archivo sitemap.xml del sitio web. El sitemap.xml es un archivo que contiene un listado de todas las páginas del sitio, facilitando su rastreo e indexación por parte de los motores de búsqueda. Se utiliza la sintaxis ‘Sitemap: URL_del_sitemap.xml’ para especificar su ubicación.

Comandos que se usan pero que no son soportados por Google

Además de las directivas mencionadas, existen otros comandos que aunque Google no los soporta, se suelen usar en el archivo robots.txt. Puede que existan otros bots que sí hagan caso a estas directivas.

– ‘Crawl-delay‘: permite especificar un retraso en segundos entre las solicitudes de rastreo realizadas por los bots. Esto es útil para controlar la carga del servidor y evitar un rastreo excesivo.

– ‘Noindex‘: se utiliza para indicar a los bots que una página específica no debe ser indexada en los resultados de búsqueda, a pesar de permitir su rastreo. Este comando se debería usar como etiqueta dentro del encabezado del código HTML de cada URL.

Errores comunes y mejores prácticas en el archivo robots.txt

Errores que deben evitarse al configurar el archivo robots.txt

  • Obsesionarse con el presupuesto de rastreo y el robots.txt: Está claro que el robots.txt va a optimizar el presupuesto de rastreo de tu web, pero en la mayoría de sitios no es un problema. Si tienes una web corporativa básica con un blog, no debes preocuparte. Google va a rastrear sin problema todas las URL de tu web. En cambio, si tienes una tienda online con 50.000 productos, categorías de productos, etiquetas, etc… puede empezar a tener sentido preocuparse por el presupuesto de rastreo.
  • Errores de sintaxis: Un error de sintaxis en el archivo robots.txt puede hacer que los robots de los motores de búsqueda no comprendan correctamente las directivas. Es importante revisar cuidadosamente la sintaxis y evitar errores que puedan impedir el correcto funcionamiento del archivo.
  • Bloquear el rastreo de páginas importantes: Una configuración incorrecta del archivo robots.txt puede llevar al bloqueo de páginas importantes, impidiendo su rastreo por parte de los motores de búsqueda. Es esencial revisar las directivas y asegurarse de no bloquear páginas relevantes para nuestro sitio.
  • Pensar que evitar el rastreo es lo mismo que evitar la indexación: Rastreo e indexación van de la mano, pero la directiva ‘Disallow’ no va a evitar que una URL sea indexada, si no que va a evitar que sea rastreada. Si quieres que una URL no sea indexada deberás usar la metaetiqueta ‘noindex’ en el HTML de la URL en cuestión. Tampoco es recomendable usar ‘Disallow’ y la metaetiqueta ‘noindex’ a la vez porque al evitar el rastreo también estaremos evitando que pueda leer la etiqueta ‘noindex’ y, por tanto, podrá ser indexada.
  • Bloquear archivos JavaScript y CSS: Asegúrate de que los motores de búsqueda puedan acceder a los archivos JavaScript y CSS necesarios para renderizar correctamente el sitio web.

Mejores prácticas para optimizar el archivo robots.txt

Para optimizar el archivo robots.txt y evitar errores, es recomendable seguir algunas mejores prácticas. Estas incluyen:

  • Realizar pruebas: Antes de implementar el archivo robots.txt en un sitio web, es recomendable realizar pruebas exhaustivas para asegurarse de que las directivas se aplican correctamente y no bloquean páginas importantes.
  • Utilizar comentarios: Los comentarios en el archivo robots.txt pueden ayudar a otros desarrolladores o administradores a comprender rápidamente las directivas y su propósito. Es aconsejable incluir comentarios descriptivos para facilitar la comprensión del archivo.
  • Seguir las directrices de los motores de búsqueda: Cada motor de búsqueda puede tener sus propias directrices y recomendaciones para el archivo robots.txt. Es importante revisar y seguir estas directrices para asegurarse de que el archivo se configura de acuerdo a las mejores prácticas de cada motor.

Al seguir estas mejores prácticas y evitar los errores mencionados, se puede garantizar una correcta configuración y uso del archivo robots.txt, optimizando así la visibilidad y el posicionamiento SEO de nuestro sitio web.

Fuentes

Impedir que la Búsqueda indexe páginas con la directiva noindex

Introducción a los archivos robots.txt

Cómo escribir y enviar un archivo robots.txt

¿Cómo interpreta Google la especificación robots.txt?

Mejora el SEO de tu web y comienza a ser rentable online
Picture of Rober Flores
Rober Flores
CEO & Founder de Aupa Digital. Blogger en roberflores.com. Especialista SEO y SEM desde 2014, docente en el curso SEO Bilbao y máster de Marketing digital del centro de informática CIPSA y ponente en el evento SEO en Bilbao.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Roberto Flores González como titular de https://aupa.digital , solicito tu consentimiento para contestar a las cuestiones planteadas a través del formulario. Los datos no se cederán a terceros salvo en los casos en que exista una obligación legal. En todo caso, los datos que nos facilitas están ubicados en servidores cuya sede se encuentra dentro del territorio de la UE. En el caso de no pertenecer a la UE, se informa previamente y sólo se realiza mediante el consentimiento expreso del usuario, o bien, mediante cláusulas contractuales tipo para la transferencia de datos personales entre responsables del tratamiento a un tercer país. Por motivo del uso de Google Fonts, es posible que algunos de sus datos (como la IP) sean tratados con la finalidad de prestar el servicio adecuado del mismo. Puedes acceder, rectificar y suprimir los datos, así como otros derechos, como se explica en la información adicional.

Pide tu presupuesto sin compromiso

Todos nuestros servicios están enfocados a resultados ya sean conseguir leads, ventas o visitas a tu web. Estudiamos tu caso y te asesoramos desde el primer contacto.

Roberto Flores González como titular de https://aupa.digital , solicito tu consentimiento para contestar a las cuestiones planteadas a través del formulario. Los datos no se cederán a terceros salvo en los casos en que exista una obligación legal. En todo caso, los datos que nos facilitas están ubicados en servidores cuya sede se encuentra dentro del territorio de la UE. En el caso de no pertenecer a la UE, se informa previamente y sólo se realiza mediante el consentimiento expreso del usuario, o bien, mediante cláusulas contractuales tipo para la transferencia de datos personales entre responsables del tratamiento a un tercer país. Por motivo del uso de Google Fonts, es posible que algunos de sus datos (como la IP) sean tratados con la finalidad de prestar el servicio adecuado del mismo. Puedes acceder, rectificar y suprimir los datos, así como otros derechos, como se explica en la información adicional.