Cómo crear un archivo Robots.txt para Google

Escrito por

Compartir

Un archivo robots.txt es el encargado de darle los lineamientos a los rastreadores automáticos de los motores de búsqueda de cómo pueden acceder a las URLs de un sitio web.

Parece que no tuviera mucha ciencia, pero la verdad es que la falta del archivo robots es uno de los errores SEO más comunes en los sitios web que existen en Internet actualmente.

Aquí aprenderás qué es un archivo robot.txt, para que sirve y cómo hacer uno que ayude a Google a rastrear tu sitio web de manera mucho más efectiva.

¿Qué es un archivo Robots.txt?

Un archivo robots.txt es un archivo de texto simple que se ubica en la carpeta raíz de un sitio web y se usa principalmente para decirle a los rastreadores si ingresar o no a URLs específicas.

Ya que el archivo se guarda en la raíz del sitio puedes acceder a el escribiendo la dirección de un sitio web y agregando /robots.txt al final de la URL. 

Si tu sitio no cuenta con este archivo seguramente estarás viendo una página 404 y deberías plantearte crearlo luego de leer este artículo.

¿Para qué se usa un archivo robots.txt?

Utiliza el archivo robots para autorizar o desautorizar el ingreso de rastreadores a los directorios de un sitio web y mantener archivos, recursos y páginas fuera de la página de resultados de búsqueda de Google.

El archivo Robots es el primero que los rastreadores visitan en un sitio web, por eso también se debe incluir en el un sitemap.xml que contenga todas las URLs canónicas del sitio.

Existen múltiples rastreadores automáticos para varios fines, como identificar e indexar imágenes, clasificar contenido, señales de redes sociales y hasta publicidad, y en ocasiones no todos son de interés para una estrategia de SEO.

Contrario a lo que mucha gente piensa los rastreadores no son únicos de Google, también existen rastreadores como Bing, Yandex o Yahoo! que a su vez tienen sus propios motores de búsqueda.

Estos y otros rastreadores envían tráfico al sitio web y lo hacen a una velocidad de muchas URLs por segundo, lo que puede traducirse en cientos de solicitudes por segundo y es ahí donde se hace importante el archivo robots.txt y sus comandos.

Debes tener en cuenta que este archivo no se usa para quitar un sitio web de manera permanente de los motores de búsqueda, si quieres que tus páginas no sean rastreadas definitivamente, te recomendamos usar el atributo «noindex» en las páginas del sitio o proteger su ingreso con contraseña.

Veamos un ejemplo de por qué usar un archivo robots.txt:

Ejercicio:

Pensemos en que un sitio web está construido con varios archivos estáticos que son necesarios para su funcionamiento pero no son relevantes o importantes para su indexación en Google.

Por ejemplo: librerías, archivos de seguridad, contenido archivado por ser obsoleto, categorías, productos no existentes en nuestra tienda e incluso en el caso de algunos CMS páginas que por sí mismas no son un contenido que queramos que encuentren nuestros clientes (como slides, o bloques HTML).

En ese caso, nos gustaría que Google no hiciera peticiones a estas carpetas o archivos ya que al hacerlo desperdicia su tráfico en contenido poco relevante y aumentaría la cantidad de peticiones a nuestro servicio de alojamiento de archivos.

Nuestra primera tarea entonces es identificar esos archivos, recursos o URLs y crear un documento con ellos para después desautorizar su rastreo. 

¿Cómo crear un archivo robots.txt?

La mayoría de sitios web que hablan de SEO te dirán que crear un archivo robots es una tarea sencilla y que solo debes aprender algunos comandos para poderlo crear. La verdad es que esa es la mitad de la tarea pero no es la única.
 
Para crear un archivo robots.txt necesitas:
  • Un editor de código o de texto plano como NotePad o sublime text
  • Conocer la sintaxis del archivo.
  • Conocer los directorios que no quieres que los rastreadores recorran.
  • Acceso al servidor donde tienes alojado el sitio web.

Vamos a hacerlo paso por paso:

Paso 1: Crear el archivo .txt

Ingresa al editor de texto plano y crea un nuevo archivo en blanco. Guárdalo con el nombre de robots.txt donde robots es el nombre del archivo y txt el formato. 

Paso 2: Entender la sintaxis del archivo robots.txt

Las líneas del archivo robots.txt son fáciles de entender y de utilizar, en realidad solo debemos tener en cuenta 4 campos y los valores de ruta .

Un robots generalmente consta de estos 4 campos:

  • User-Agent: sirve para identificar el rastreador al que se le van a aplicar las reglas o protocolos de exclusión. (En la base de datos de web robots podrás encontrar más de 300).
  • Allow:  Autoriza a los rastreadores a ingresar a la URL o directorios asignados.
  • Disallow: Desautoriza a los rastreadores a ingresar a la URL o directorios asignados.
  • Sitemap: Identifica la ubicación del archivo sitemap.xml que contiene las urls del sitio web.

Luego de incluir los 4 campos incluiremos los valores de ruta respectivos. Los valores de ruta son las URLs sobre las que vamos a autorizar o desautorizar el rastreo.

Ejemplo:

Supongamos que quieres desautorizar todo el contenido de la carpeta de imágenes del lanzamiento de un nuevo producto que harás dentro de dos meses. 

Las imágenes ya están alojadas en tu servidor en https://tusitioweb.com/assets/img/lanzamiento/

También quieres desautorizar la página donde estás diseñando la promoción porque quieres que nadie se entere aún. La landing page de la promoción esta en:  https://tusitioweb.com/nuevo-lanzamiento/

Tu archivo robots.txt debería verse así:

				
					user-agent: Nombredelbot

disallow: /lanzamiento
disallow: /nuevo-lanzamiento

sitemap: https://tusitioweb.com/sitemap.xml 

				
			

Hasta ahora todo ha sido muy fácil.

Creaste el archivo, luego incluiste en el las primeras directrices y aprendiste a desautorizar un rastreador específico, pero ¿Qué pasaría si quisieras desautorizar esos mismos directorios para todos los rastreadores? 

Para aplicar las mismas directivas para todos los rastreadores basta con utilizar un asterisco «*».  El asterisco sirve para generalizar una regla. 

				
					user-agent: *

disallow: /lanzamiento
disallow: /nuevo-lanzamiento

sitemap: https://tusitioweb.com/sitemap.xml 

				
			

Pero no es todo, el asterisco también podría identificar cualquier tipo de ruta que contenga un tipo de archivo. 

Ejemplo:

Tienes una carpeta pública donde se encuentran archivos pdf que quieres  sea descargados a través de un botón en tu sitio web, por esta razón no deben aparecer en los resultados de búsqueda. 

En la carpeta donde se encuentran los PDF también se encuentran imágenes y algunos archivos necesarios para el funcionamiento de la página de descarga.

Para desautorizar el ingreso solo a los pdf podemos hacer una regla con el asterisco pero primero debes identificar qué directorio tiene alojados los pdf. Para este ejemplo puedes suponer que es https://tusitioweb.com/assets/uploads/

La directriz  sería:

				
					user-agent: *

disallow: /uploads/*.pdf

sitemap: https://tusitioweb.com/sitemap.xml 

				
			

De esta manera los rastreadores podrán usar las imagenes que se encuentran en la carpeta uploads, pero no listarán los pdf.

Así como el asterisco también se pueden encontrar otros valores de coincidencias de ruta para establecer directrices. 

  • No usar / al final
  • usar / al final
  • usuar $ al final
Usemos un archivo de ejemplo para explicarlo mejor:
				
					user-agent: *


disallow: /ima      "Desautoriza cualquier ruta que inicie con ima, como images o imagenes"
disallow: /images/  "Desauroriza solo los archivos que se encuentre en la carpeta images" 
allow: *.pdf$       "Autoriza todos los archivos .pdf que no contengan parametros como /contenido-para-descarga.pdf?parameters"


sitemap: https://tusitioweb.com/sitemap.xml 

				
			

Antes de copiar y pegar el anterior cuadro de ejemplo debes tener en cuenta que los textos que se usaron en él a manera de explicación causarían un error en tu archivo robots. No se deben poner textos explicativos de esta forma en este archivo, pero hay una manera de hacer comentarios guía.

Para ello podemos usar un hashtag «# «

				
					#Este es un archivo robots de ejemplo que hice con ayuda de seoenmedellin.com
#Actualizado en octubre de 2021

#directivas para rastreadores en general

user-agent: *

disallow: /ima
disallow: /assets/

allow: *.pdf$
allow: assets.css

# pasar a allow en diciembre
disallow: /lanzamiento
disallow: /nuevo-lanzamiento

#directiva solo para el rastreador de noticias de google

user-agent: googlebot-news

disallow: /
# Desautoriza a googlebot-news a rastrear cualquier parte del sitio.

sitemap: https://tusitioweb.com/sitemap.xml
				
			

Vez, no es tan complicado usar las directrices. Solo recuerda no tener errores de escritura y todo va a funcionar muy bien.

Ya sabes cómo se hace un robots.txt, ahora debes identificar los directorios que debes bloquear.

Paso 3: identificar los directorios a desautorizar

Si usas WordPress, Shopify , Vtex o cualquier otro CMS común puedes encontrar algunas reglas navegando por internet. Muchas de estas plataformas cuentan con directorios estándar que puedes bloquear, como los de Cloudflare por dar un ejemplo.

Incluso, ingresando a sitios web hechos en esas mismas plataformas puedes identificar algunos directorios y de esta manera ahorrar algunos esfuerzos.

Pero, ¿Qué pasa si quieres identificar tus propios directorios?

Usa Screaming Frog

Screaming Frog es mi herramienta favorita para hacer esta tarea. Una vez empieza a rastrear tu sitio web, la herramienta hace una lista de todas las URLs que tiene y tu puedes identificar cuáles de ellas no quieres que sean rastreadas.

En la versión gratuita puede rastrear hasta 200 URLs, incluye imágenes, archivos css, js y otros recursos.

Usa Google Search Console

Search Console tiene todas las páginas que se encuentran indexadas por Google, por eso tiene sentido que uses esta herramienta como insumo principal para el análisis de las URL que quieres en los resultados de búsqueda.

Úsalo para identificar URLs de contenido, aquí no encontrarás URLs de imágenes ni otros archivos.

Usa Google analytics

Analytics registra todas las URLs que son visitadas por los usuarios. Identifica cuales de ellas son accedidas desde tráfico orgánico y desautoriza las que creas que no deberían estar allí.

Usa el archivo Log del servidor

El archivo Log del servidor registra todas las peticiones de rastreo que se hacen sobre un sitio web. Analízalo e identifica cuales son los bots que acceden al sitio para rastrearlo.

También puedes analizar este archivo con Screaming Frog, encontrarás este y otros datos interesantes para ejecutar en una estrategia de SEO.

Desautoriza los directorios estándar

No permitas el rastreo de archivos en el directorios utilizados por CDNs ya que pueden tener errores, aunque no afectan en el posicionamiento si pueden afectar el crawl budget.

Pro tip: desautoriza la carpeta /cdn-cgi/ si estás usando Cloudflare, la usa de forma interna y Google encuentra errores al rastrearla. 

Paso 4: sube el archivo al sitio web

Una vez creado el archivo ya puedes subirlo al servidor para que los rastreadores lo usen. La primera prueba que debes usar es acceder a https://tusitioweb.com/robots.txt y ver si tu archivo ya esta disponible.

Una vez hayas ingresado a tu archivo robots ya puedes comprobar si está funcionando y si Google puede analizarlo. Para ello puedes utilizar la herramienta de testeo de robots.

Robots.txt en sitios Headless

Los sitios headless son generalmente desarrollos web hechos a la medida con frameworks javascript como React y Angular, más conocidos cuando se habla de sitios SPA (single page application) o desarrollo de aplicaciones hibridas.

Los sitios Headless utilizan un sistema de desarrollo basado en micro frontends, lo que en principio, puede causar problemas en cómo los rastreadores interpretan y clasifican la información.  

Cuando se habla de Headless se entiende que todo el contenido se está presentando sobre una misma «vista», el renderizado de contenido de lado de cliente se hace una vez el usuario hace una interacción con el sitio web y por esta razón no existen directorios o URLs como los conoces en los desarrollos tradicionales.

Cuando se va a crear un archivo robots.txt para un desarrollo Headless se debe recurrir entonces a varias técnicas que aseguren su correcto rastreo e indexación y para ello se usan plugins que ayudan a la creación de estos ficheros.

Gatsby.js y next.js

Gatsby.js y Next.js son generadores de sitios estáticos que nos permiten «convertir» un desarrollo Headless en un sitio web mucho más amigable con los motores de búsqueda. 

Para generar un robots.txt, Gatsby tendrá que usar gatsby-plugin-robots-txt que le permitan, a través de un protocolo de consultas, generar la información necesaria para el robots.

En el caso del robots.txt en Next.js, basta con crear el archivo y agregarlo a la carpeta /public, se ejecuta la aplicación y ya está.

Si tu fuerte no es el desarrollo no deberías asustarte con este tipo de problemas, solo debes recurrir a tu desarrollador y revisar que su implementación esté correcta con lo que aprendiste anteriormente.

Errores comunes en el archivo Robots.txt

  • No bloquear carpetas que contiene sitios viejos.
  • Pensar que a través de este archivo podemos bloquear la indexación total de un sitio desautorizando todos los directorios.
  • Pensar que todos los rastreadores respetan el archivo, al igual que Google, muchos rastreadores eligen si tener o no en cuenta este archivo.
  • Hacerlo de muestra de otro sitio web sin entender por qué se hizo de esa forma. 
  • Los errores de escritura son los más comunes en el archivo.
  • Autorizar y desautorizar el mismo directorio, las directrices redundantes son muy comunes.

Conclusión

El archivo Robots.txt puede ayudarnos a mejorar el rastreo e indexación de un sitio web y no es una opción tomarlo a ligera. 

 

También puedes leer

Continua leyendo sobre SEO

logo-endupla-seo-growth-partners-medellin

¿Necesita una Agencia de SEO y posicionamiento en Medellín?

En Endupla contamos con un equipo de consultores SEO con más de 10 años de experiencia en posicionamiento web y estrategias de marketing digital. Aumentar tus ventas y atraer nuevos clientes por medio de una estrategia SEO si es posible.