Cómo crear un archivo Robots.txt para Google

17 de mayo de 2023
Tiempo de lectura: 11 min
SEO Técnico

Escrito por

Juan David Ortiz

Experto SEO Técnico / Web Frontend / Marketing Digital / SEO Headless / SEO Leader en Pragma Medellín y consultor SEO en Endupla SEO Growth Partners

Última actualización: 7 de junio de 2023

Un archivo robots.txt es el encargado de darle los lineamientos a los rastreadores automáticos de los motores de búsqueda de cómo pueden acceder a las URLs de un sitio web.

Parece que no tuviera mucha ciencia, pero la verdad es que la falta del archivo robots es uno de los errores SEO más comunes en los sitios web que existen en Internet actualmente.

Aquí aprenderás qué es un archivo robot.txt, para que sirve y cómo hacer uno que ayude a Google a rastrear tu sitio web de manera mucho más efectiva.

Contenido

¿Qué es un archivo Robots.txt?

Un archivo robots.txt es un archivo de texto simple que se ubica en la carpeta raíz de un sitio web y se usa principalmente para decirle a los rastreadores si ingresar o no a URLs específicas.

Ya que el archivo se guarda en la raíz del sitio puedes acceder a el escribiendo la dirección de un sitio web y agregando /robots.txt al final de la URL.

Si tu sitio no cuenta con este archivo seguramente estarás viendo una página 404 y deberías plantearte crearlo luego de leer este artículo.

¿Para qué se usa un archivo robots.txt?

Utiliza el archivo robots para autorizar o desautorizar el ingreso de rastreadores a los directorios de un sitio web y mantener archivos, recursos y páginas fuera de la página de resultados de búsqueda de Google.

El archivo Robots es el primero que los rastreadores visitan en un sitio web, por eso también se debe incluir en el un sitemap.xml que contenga todas las URLs canónicas del sitio.

Existen múltiples rastreadores automáticos para varios fines, como identificar e indexar imágenes, clasificar contenido, señales de redes sociales y hasta publicidad, y en ocasiones no todos son de interés para una estrategia de SEO.

Contrario a lo que mucha gente piensa los rastreadores no son únicos de Google, también existen rastreadores como Bing, Yandex o Yahoo! que a su vez tienen sus propios motores de búsqueda.

Estos y otros rastreadores envían tráfico al sitio web y lo hacen a una velocidad de muchas URLs por segundo, lo que puede traducirse en cientos de solicitudes por segundo y es ahí donde se hace importante el archivo robots.txt y sus comandos.

Debes tener en cuenta que este archivo no se usa para quitar un sitio web de manera permanente de los motores de búsqueda, si quieres que tus páginas no sean rastreadas definitivamente, te recomendamos usar el atributo «noindex» en las páginas del sitio o proteger su ingreso con contraseña.

Veamos un ejemplo de por qué usar un archivo robots.txt:

Ejercicio:

Pensemos en que un sitio web está construido con varios archivos estáticos que son necesarios para su funcionamiento pero no son relevantes o importantes para su indexación en Google.

Por ejemplo: librerías, archivos de seguridad, contenido archivado por ser obsoleto, categorías, productos no existentes en nuestra tienda e incluso en el caso de algunos CMS páginas que por sí mismas no son un contenido que queramos que encuentren nuestros clientes (como slides, o bloques HTML).

En ese caso, nos gustaría que Google no hiciera peticiones a estas carpetas o archivos ya que al hacerlo desperdicia su tráfico en contenido poco relevante y aumentaría la cantidad de peticiones a nuestro servicio de alojamiento de archivos.

Nuestra primera tarea entonces es identificar esos archivos, recursos o URLs y crear un documento con ellos para después desautorizar su rastreo.

¿Cómo crear un archivo robots.txt?

La mayoría de sitios web que hablan de SEO te dirán que crear un archivo robots es una tarea sencilla y que solo debes aprender algunos comandos para poderlo crear. La verdad es que esa es la mitad de la tarea pero no es la única.

Para crear un archivo robots.txt necesitas:

Un editor de código o de texto plano como NotePad o sublime text
Conocer la sintaxis del archivo.
Conocer los directorios que no quieres que los rastreadores recorran.
Acceso al servidor donde tienes alojado el sitio web.

Vamos a hacerlo paso por paso:

Paso 1: Crear el archivo .txt

Ingresa al editor de texto plano y crea un nuevo archivo en blanco. Guárdalo con el nombre de robots.txt donde robots es el nombre del archivo y txt el formato.

Paso 2: Entender la sintaxis del archivo robots.txt

Las líneas del archivo robots.txt son fáciles de entender y de utilizar, en realidad solo debemos tener en cuenta 4 campos y los valores de ruta .

Un robots generalmente consta de estos 4 campos:

User-Agent: sirve para identificar el rastreador al que se le van a aplicar las reglas o protocolos de exclusión. (En la base de datos de web robots podrás encontrar más de 300).
Allow: Autoriza a los rastreadores a ingresar a la URL o directorios asignados.
Disallow: Desautoriza a los rastreadores a ingresar a la URL o directorios asignados.
Sitemap: Identifica la ubicación del archivo sitemap.xml que contiene las urls del sitio web.

Luego de incluir los 4 campos incluiremos los valores de ruta respectivos. Los valores de ruta son las URLs sobre las que vamos a autorizar o desautorizar el rastreo.

Ejemplo:

Supongamos que quieres desautorizar todo el contenido de la carpeta de imágenes del lanzamiento de un nuevo producto que harás dentro de dos meses.

Las imágenes ya están alojadas en tu servidor en https://tusitioweb.com/assets/img/lanzamiento/

También quieres desautorizar la página donde estás diseñando la promoción porque quieres que nadie se entere aún. La landing page de la promoción esta en: https://tusitioweb.com/nuevo-lanzamiento/

Tu archivo robots.txt debería verse así:

				
					user-agent: Nombredelbot

disallow: /lanzamiento
disallow: /nuevo-lanzamiento

sitemap: https://tusitioweb.com/sitemap.xml

Hasta ahora todo ha sido muy fácil.

Creaste el archivo, luego incluiste en el las primeras directrices y aprendiste a desautorizar un rastreador específico, pero ¿Qué pasaría si quisieras desautorizar esos mismos directorios para todos los rastreadores?

Para aplicar las mismas directivas para todos los rastreadores basta con utilizar un asterisco «*». El asterisco sirve para generalizar una regla.

				
					user-agent: *

disallow: /lanzamiento
disallow: /nuevo-lanzamiento

sitemap: https://tusitioweb.com/sitemap.xml

Pero no es todo, el asterisco también podría identificar cualquier tipo de ruta que contenga un tipo de archivo.

Ejemplo:

Tienes una carpeta pública donde se encuentran archivos pdf que quieres sea descargados a través de un botón en tu sitio web, por esta razón no deben aparecer en los resultados de búsqueda.

En la carpeta donde se encuentran los PDF también se encuentran imágenes y algunos archivos necesarios para el funcionamiento de la página de descarga.

Para desautorizar el ingreso solo a los pdf podemos hacer una regla con el asterisco pero primero debes identificar qué directorio tiene alojados los pdf. Para este ejemplo puedes suponer que es https://tusitioweb.com/assets/uploads/

La directriz sería:

				
					user-agent: *

disallow: /uploads/*.pdf

sitemap: https://tusitioweb.com/sitemap.xml

De esta manera los rastreadores podrán usar las imagenes que se encuentran en la carpeta uploads, pero no listarán los pdf.

Así como el asterisco también se pueden encontrar otros valores de coincidencias de ruta para establecer directrices.

No usar / al final
usar / al final
usuar $ al final

Usemos un archivo de ejemplo para explicarlo mejor:

				
					user-agent: *


disallow: /ima      "Desautoriza cualquier ruta que inicie con ima, como images o imagenes"
disallow: /images/  "Desauroriza solo los archivos que se encuentre en la carpeta images" 
allow: *.pdf$       "Autoriza todos los archivos .pdf que no contengan parametros como /contenido-para-descarga.pdf?parameters"


sitemap: https://tusitioweb.com/sitemap.xml

Antes de copiar y pegar el anterior cuadro de ejemplo debes tener en cuenta que los textos que se usaron en él a manera de explicación causarían un error en tu archivo robots. No se deben poner textos explicativos de esta forma en este archivo, pero hay una manera de hacer comentarios guía.

Para ello podemos usar un hashtag «# «

				
					#Este es un archivo robots de ejemplo que hice con ayuda de seoenmedellin.com
#Actualizado en octubre de 2021

#directivas para rastreadores en general

user-agent: *

disallow: /ima
disallow: /assets/

allow: *.pdf$
allow: assets.css

# pasar a allow en diciembre
disallow: /lanzamiento
disallow: /nuevo-lanzamiento

#directiva solo para el rastreador de noticias de google

user-agent: googlebot-news

disallow: /
# Desautoriza a googlebot-news a rastrear cualquier parte del sitio.

sitemap: https://tusitioweb.com/sitemap.xml

Vez, no es tan complicado usar las directrices. Solo recuerda no tener errores de escritura y todo va a funcionar muy bien.

Ya sabes cómo se hace un robots.txt, ahora debes identificar los directorios que debes bloquear.

Paso 3: identificar los directorios a desautorizar

Si usas WordPress, Shopify , Vtex o cualquier otro CMS común puedes encontrar algunas reglas navegando por internet. Muchas de estas plataformas cuentan con directorios estándar que puedes bloquear, como los de Cloudflare por dar un ejemplo.

Incluso, ingresando a sitios web hechos en esas mismas plataformas puedes identificar algunos directorios y de esta manera ahorrar algunos esfuerzos.

Pero, ¿Qué pasa si quieres identificar tus propios directorios?

Usa Screaming Frog

Screaming Frog es mi herramienta favorita para hacer esta tarea. Una vez empieza a rastrear tu sitio web, la herramienta hace una lista de todas las URLs que tiene y tu puedes identificar cuáles de ellas no quieres que sean rastreadas.

En la versión gratuita puede rastrear hasta 200 URLs, incluye imágenes, archivos css, js y otros recursos.

Usa Google Search Console

Search Console tiene todas las páginas que se encuentran indexadas por Google, por eso tiene sentido que uses esta herramienta como insumo principal para el análisis de las URL que quieres en los resultados de búsqueda.

Úsalo para identificar URLs de contenido, aquí no encontrarás URLs de imágenes ni otros archivos.

Usa Google analytics

Analytics registra todas las URLs que son visitadas por los usuarios. Identifica cuales de ellas son accedidas desde tráfico orgánico y desautoriza las que creas que no deberían estar allí.

Usa el archivo Log del servidor

El archivo Log del servidor registra todas las peticiones de rastreo que se hacen sobre un sitio web. Analízalo e identifica cuales son los bots que acceden al sitio para rastrearlo.

También puedes analizar este archivo con Screaming Frog, encontrarás este y otros datos interesantes para ejecutar en una estrategia de SEO.

Desautoriza los directorios estándar

No permitas el rastreo de archivos en el directorios utilizados por CDNs ya que pueden tener errores, aunque no afectan en el posicionamiento si pueden afectar el crawl budget.

Pro tip: desautoriza la carpeta /cdn-cgi/ si estás usando Cloudflare, la usa de forma interna y Google encuentra errores al rastrearla.

Paso 4: sube el archivo al sitio web

Una vez creado el archivo ya puedes subirlo al servidor para que los rastreadores lo usen. La primera prueba que debes usar es acceder a https://tusitioweb.com/robots.txt y ver si tu archivo ya esta disponible.

Una vez hayas ingresado a tu archivo robots ya puedes comprobar si está funcionando y si Google puede analizarlo. Para ello puedes utilizar la herramienta de testeo de robots.

Robots.txt en sitios Headless

Los sitios headless son generalmente desarrollos web hechos a la medida con frameworks javascript como React y Angular, más conocidos cuando se habla de sitios SPA (single page application) o desarrollo de aplicaciones hibridas.

Los sitios Headless utilizan un sistema de desarrollo basado en micro frontends, lo que en principio, puede causar problemas en cómo los rastreadores interpretan y clasifican la información.

Cuando se habla de Headless se entiende que todo el contenido se está presentando sobre una misma «vista», el renderizado de contenido de lado de cliente se hace una vez el usuario hace una interacción con el sitio web y por esta razón no existen directorios o URLs como los conoces en los desarrollos tradicionales.

Cuando se va a crear un archivo robots.txt para un desarrollo Headless se debe recurrir entonces a varias técnicas que aseguren su correcto rastreo e indexación y para ello se usan plugins que ayudan a la creación de estos ficheros.

Gatsby.js y next.js

Gatsby.js y Next.js son generadores de sitios estáticos que nos permiten «convertir» un desarrollo Headless en un sitio web mucho más amigable con los motores de búsqueda.

Para generar un robots.txt, Gatsby tendrá que usar gatsby-plugin-robots-txt que le permitan, a través de un protocolo de consultas, generar la información necesaria para el robots.

En el caso del robots.txt en Next.js, basta con crear el archivo y agregarlo a la carpeta /public, se ejecuta la aplicación y ya está.

Si tu fuerte no es el desarrollo no deberías asustarte con este tipo de problemas, solo debes recurrir a tu desarrollador y revisar que su implementación esté correcta con lo que aprendiste anteriormente.

Errores comunes en el archivo Robots.txt

No bloquear carpetas que contiene sitios viejos.
Pensar que a través de este archivo podemos bloquear la indexación total de un sitio desautorizando todos los directorios.
Pensar que todos los rastreadores respetan el archivo, al igual que Google, muchos rastreadores eligen si tener o no en cuenta este archivo.
Hacerlo de muestra de otro sitio web sin entender por qué se hizo de esa forma.
Los errores de escritura son los más comunes en el archivo.
Autorizar y desautorizar el mismo directorio, las directrices redundantes son muy comunes.

Conclusión

El archivo Robots.txt puede ayudarnos a mejorar el rastreo e indexación de un sitio web y no es una opción tomarlo a ligera.

También puedes leer

El SEO mejora la reputación de marca y la credibilidad en internet

Cómo el SEO aumenta la confianza y la credibilidad de tu negocio

16 de febrero de 2026

Existe una relación directa entre la posición que tiene una marca en Google y la percepción de confianza que brinda al usuario. Te contamos por qué el SEO es importante para tu negocio.

Leer artículo »

Qué es una Url Canonical, cómo funciona y cómo ayuda al contenido duplicado

Url Canonical: Qué es y cómo ayuda al contenido duplicado

7 de febrero de 2025

Entender y aplicar correctamente las URLs canónicas no es solo una «buena práctica» de SEO; es una necesidad estratégica para proteger la integridad de su contenido y asegurar que los motores de búsqueda comprendan cuál es la versión más importante de sus páginas.

Leer artículo »

SEO atrae tráfico más calificado para vender más

Por qué el SEO atrae más usuarios dispuestos a comprar que la pauta

17 de febrero de 2026

El SEO es ayuda a los usuarios a encontrar información cuando la buscan, la pauta lo hace cuando navega por internet. Esto hace una gran diferencia en el aumento de ventas de tu negocio.

Leer artículo »

Persona en una computadora optimizando las lsi keywords de su artículo de SEO

Qué son las LSI Keywords y para que sirven en SEO

12 de junio de 2023

En el mundo del SEO constantemente se mencionan las «LSI Keywords» o Palabras de indexación semántica latente, pero ¿Qué son exactamente las palabras LSI y cómo pueden afectar tu estrategia de posicionamiento web?

Leer artículo »

Búsqueda en Google sobre qué es indexación web

Qué es indexación o indexabilidad en SEO

22 de mayo de 2023

Este artículo habla sobre qué es la indexación, cómo funciona, su importancia en una estrategia de visibilidad y cómo puedes asegurarte de tener una correcta indexación de tu sitio web en los motores de búsqueda.

Leer artículo »

Continua leyendo sobre SEO

Cómo el SEO aumenta la confianza y la credibilidad de tu negocio

16 de febrero de 2026

Existe una relación directa entre la posición que tiene una marca en Google y la percepción de confianza que brinda al usuario. Te contamos por qué el SEO es importante para tu negocio.

Leer artículo »

Imagen ilustrativa sobre qué es una redirección y cómo hacerla correctamente para SEO

¿Qué es una redirección web?

30 de junio de 2025

Las redirecciones web son herramientas esenciales para mantener la accesibilidad y la usabilidad de un sitio. Aprende cuales son los tipos de redirecciones y buenas prácticas para usarlas.

Leer artículo »

¿Por qué hacer SEO? Equipo evaluando los resultados de una estrategia de SEO

¿Por qué hacer SEO es importante para las empresas?

25 de mayo de 2025

¿Por qué hacer SEO? Porque tus clientes te van a buscar, te van encontrar y van a llegar a tu sitio web. Tu no los buscas, no los convences, ni pagas dinero a diario para que te vean. Este artículo te explica por qué hacer SEO y por qué es importante para tu empresa.

Leer artículo »

¿Necesita una Agencia de SEO y posicionamiento en Medellín?

En Endupla contamos con un equipo de consultores SEO con más de 10 años de experiencia en posicionamiento web y estrategias de marketing digital. Aumentar tus ventas y atraer nuevos clientes por medio de una estrategia SEO si es posible.