robotstxt_y_seo_todo_lo_qu Photos at PBase.com

Topics >> by >> robotstxt_y_seo_todo_lo_qu

robotstxt_y_seo_todo_lo_qu Photos
Topic maintained by (see all topics)

Robots.txt es uno de los ficheros más simples de un sitio mas también uno de los más fáciles de arruinar. Sólo un error de tipeo puede ocasionar estragos en tu posicionamiento en buscadores y eludir que los motores de búsqueda accedan al contenido importante en tu lugar.

Esta es la razón por la que los fallos de configuración de robots.txt son exageradamente comunes, incluso entre los profesionales SEO con experiencia.

En esta guía aprenderás:

¿Qué es un archivo robots.txt?

Un archivo robots.txt le afirma a los motores de búsqueda por dónde pueden y por donde no pueden ir en tu lugar.

En primer sitio, enumera todo el contenido que deseas bloquear de los motores de búsqueda como Google. También le puedes apuntar a algunos motores de búsqueda (no a Google)
cómopueden rastrear el contenido alcanzable.

La mayoría de los motores de búsqueda son obedientes. No tienen el hábito de ignorar una restricción. Dicho esto, algunos no son tímidos en el momento de obviar dichas restricciones.

Google no es uno de esos motores de búsqueda, obedece las instrucciones de un fichero robots.txt.

Sólo debes saber que algunos motores de búsqueda lo ignoran por completo.

¿Cómo se ve un archivo robots.txt?

Este es el formato básico de un archivo robots.txt:

Si nunca has visto uno de estos archivos antes puede parecer desmoralizador. No obstante, la sintaxis es bastante simple. En resumen, tienes que asignar reglas a los robots señalando su
user-agentseguido de las
directivas.

Exploremos estos dos componentes con más detalle.

User-agents

Cada motor de búsqueda se identifica con un user-agent diferente. Puedes establecer instrucciones adaptadas para cada uno de ellos de ellos en el fichero robots.txt. Hay, pero aquí hay algunos útiles en relación al SEO:

Google:Googlebot

Google Images:Googlebot-Image

Bing:Bingbot

Yahoo:Slurp

Baidu: Baiduspider

DuckDuckGo:DuckDuckBot

Todos los user-agents distinguen entre mayúsculas y minúsculas en robots.txt.

También puedes utilizar el asterisco (*) para asignar directivas a todos y cada uno de los user-agents.

Por ejemplo, supongamos que deseas bloquear todos y cada uno de los bots excepto Googlebot a fin de que no rastree tu sitio. Así es como lo harías:

Tienes que saber que tu fichero robots.txt puede incluir directivas para tantos user-agents como desees. Dicho esto, cada vez que declares un nuevo user-agent, éste ignorará las directivas declaradas anteriormente para otros user-agents. En otras palabras, si añades directivas para múltiples user-agents, las directivas declaradas para el primer user-agent no se aplicarán al segundo, o bien al tercero, o al cuarto, y así consecutivamente.

La excepción a esta regla es cuando se declara el mismo user-agent más de una vez. En ese caso, se combinan y se cumplen todas las directivas pertinentes.

Los rastreadores sólo siguen las reglas declaradas bajo el (los) usuario-agent(s) que
se se aplican a ellos de la forma más específica posible. Es por eso que el archivo robots.txt bloquea a todos y cada uno de los bots salvo a Googlebot (y a otros robots de Google) a fin de que no puedan rastrear el sitio, Googlebot ignora la declaración de usuario-agent menos específica.

Directivas

Las directivas son las reglas que deseas que los user-agents declarados sigan.

Directivas admitidas

Aquí están las directivas que Google acepta en nuestros días, junto con sus usos.

Disallow

Utiliza esta directiva para señalar a los motores de búsqueda que no accedan a ficheros y páginas que se encuentren bajo una senda específica. Por poner un ejemplo, si quieres bloquear el acceso de todos los motores de búsqueda a tu weblog y a sus mensajes, el fichero robots.txt puede verse así:

Si no defines una ruta después de la directiva disallow, los motores de búsqueda la ignorarán.

Allow

Utiliza esta directiva para permitir a los motores de búsqueda rastrear un subdirectorio o bien una página, incluso en un directorio que de otra manera no estaría tolerado. Por servirnos de un ejemplo, si quieres evitar que los motores de búsqueda accedan a todas y cada una de las entradas de tu weblog excepto a una, el fichero robots.txt puede tener este aspecto:

En este caso, los motores de búsqueda pueden acceder a:
/blog/post-permitido. Mas no pueden acceder a:

/blog/otro-post

/blog/y-otro-post

/blog/descarga.pdf

Tanto Google como Bing aceptan esta directiva.

Al igual que con la directiva disallow, si no defines una senda después de la directiva allow, los motores de búsqueda la ignorarán.

nota sobre reglas conflictivas

A menos que seas cauteloso, las directivas allow y disallow pueden fácilmente entrar en pugna entre sí. En el siguiente ejemplo no se le permite el acceso a
/blog/y se permite el acceso a
/blog.

En este caso, la URL
/blog/post-title/parece tener las dos directivas. Entonces ¿cuál gana?

Para Google y Bing, la regla es que gana la directiva con más caracteres. Esa es la directiva disallow.

Disallow: /blog/
(6 caracteres)

Allow: /blog
(5 caracteres)

Si las directivas allow y disallow tienen exactamente la misma longitud, entonces gana la directiva menos restrictiva. En un caso así, esa sería la directiva allow.

Aquí,
/blog(sin la barra) sigue siendo alcanzable y rastreable.

Es esencial mentar que
esto sólo aplica para el caso de Google y Bing. Otros motores de búsqueda obedecen a la primera directiva coincidente. En este caso sería disallow.

Sitemap

Utiliza esta directiva para precisar la ubicación de tu(s) sitemap(s) en los motores de búsqueda. Si no estás familiarizado con los sitemaps, en general incluyen las páginas que deseas que los motores de búsqueda rastreen e indexen.

A continuación se muestra un caso de un fichero robots.txt que usa la directiva sitemap:

¿Qué importancia tiene incluir tu(s) sitemap(s) en tu fichero robots.txt? Si ya lo has enviado a través de Search Console entonces es algo redundante para Google. diseño web wordpress barcelona , le dicen a otros motores de búsqueda como Bing dónde localizar tu sitemap, con lo que prosigue siendo una buena práctica.

Ten en cuenta que no es necesario reiterar la directiva sitemap múltiples veces para cada user-agent, éste aplica para todos. Por tanto, lo mejor es incluir las directivas del sitemap al principio o al final del archivo robots.txt. Por ejemplo:

Googlela directiva sitemap, así como Ask, Bing, y Yahoo.

Puedes incluir tantos sitemaps como desees en tu fichero robots.txt.

Directivas no admitidas

Estas son las directivas que—algunas de las cuales jamás lo fueron, técnicamente.

Crawl-delay

Anteriormente podías emplear esta directiva para especificar un retardo del rastreo en segundos. Por poner un ejemplo, si quisieras que Googlebot espere cinco segundos después de cada acción de rastreo, debías establecer el retardo de rastreo en 5:

Google ya no acepta esta directiva peroysí.

Dicho esto, ten cuidado al establecer esta directiva, singularmente si tienes un lugar grande. Si estableces un retardo de rastreo de 5 segundos, entonces estarás limitando a los bots a rastrear un máximo de diecisiete y doscientos ochenta URLs al día. Eso no es muy útil si tienes millones de páginas, mas podría ahorrar ancho de banda si tienes un sitio web pequeño.

Noindex

Esta directiva nunca fue apoyada oficialmente por Google. Sin embargo, hasta hace poco, se creía que Google tenía algún “código que maneja reglas no aceptadas y no publicadas (como el noindex)”. Así que si quieres eludir que Google indexe todas y cada una de las entradas de tu blog, puedes usar la siguiente directiva:

Sin embargo, el 1 de septiembre de dos mil diecinueve, Google dejó claro que
esta directiva no está admitida. Si deseas excluir una página o un archivo de los motores de búsqueda, utiliza en su lugar la etiqueta meta robots o bien el encabezado HTTP x‑robots.

Nofollow

Esta es otra directiva que Google nunca apoyó oficialmente y fue usada para indicar a los motores de búsqueda que no siguieran enlaces en páginas y archivos bajo una ruta específica. Por ejemplo, si quieres evitar que Google siga todos los links de tu weblog, puedes usar la siguiente directiva:

Google anunció que esta directiva no tiene soporte oficial desde el 1 de septiembre de dos mil diecinueve. Si deseas no seguir todos y cada uno de los links de una página ahora, debes utilizar la meta tag robots o bien el encabezado x‑robots. Si deseas apuntar a Google que no prosiga links específicos de una página, usa el atributo de enlace rel=“nofollow”.

¿Necesitás un archivo robots.txt?

Tener un fichero robots.txt no es vital para muchos sitios, especialmente para los más pequeños.

Dicho esto, no hay ninguna buena razón para no tener uno. diseño de página web á más control sobre dónde los motores de búsqueda pueden y no pueden entrar en tu sitio, y esto podría asistirte con cosas como:

Prevenir el rastreo de;

Mantener secciones de un sitio web como privadas (por poner un ejemplo, tu sitio de pruebas);

Prevenir el rastreo de páginas de resultados de búsqueda interna;

Prevenir la sobrecarga del servidor;

Prevenir que Google desperdicie su “.”

Prevenir que,, y ficheros de recursos aparezcan en los resultados de búsqueda de Google.

Ten en cuenta que aunque Google no suele indexar las páginas web que están bloqueadas por robots.txt,
no hay forma de asegurar la exclusión en los resultados de búsqueda mediante el fichero robots.txt.

Como, si el contenido está enlazado desde otros lugares en la página web, puede llegar a aparecer en los resultados de búsqueda de Google.

Cómo encontrar tu archivo robots.txt

Si ya tienes un fichero robots.txt en tu sitio, podrás acceder a él a través de dominio.com/robots.txt. Navega hasta la URL de tu navegador. Si ves algo como esto, entonces tienes un fichero robots.txt:

Cómo crear un archivo robots.txt

Si aún no tienes un archivo robots.txt, crear uno es fácil. Sencillamente abre un documento .txt en blanco y empieza a redactar directivas. Por servirnos de un ejemplo, si quieres impedir que todos los motores de búsqueda rastreen tu directorio
/admin/se debería ver algo así:

Continúa redactando las directivas hasta que estés satisfecho con lo que tienes. Guarda tu archivo como “robots.txt”.

Alternativamente, también puedes utilizar un generador robots.txt como.

La ventaja de emplear una herramienta como esta es que minimiza los fallos de sintaxis. Esto es bueno porque un error podría resultar en una catástrofe posicionamiento en buscadores para tu lugar, con lo que vale la pena ir por el lado de la precaución.

La desventaja es que son algo limitados en términos de personalización.

Dónde situar tu archivo robots.txt

Ubica el fichero robots.txt en el directorio raíz del subdominio al que se aplique. Por servirnos de un ejemplo, para controlar el comportamiento de rastreo en un
dominio.com, el fichero robots.txt ha de estar alcanzable en
dominio.com/robots.txt.

Si quieres controlar la rastreabilidad en un subdominio como
blog.dominio.com, el archivo robots.txt debe estar alcanzable en
blog.dominio.com/robots.txt.

Buenas prácticas para el fichero robots.txt

Tenlos en cuenta para eludir errores comunes.

Usa una nueva línea para cada directiva

Cada directiva debería ir en una nueva línea. En caso contrario confundirá a los motores de búsqueda.

Incorrecto:

Correcto:

Utiliza asteriscos para simplificar las instrucciones

No sólo puedes usar asteriscos (*) para aplicar directivas a todos los user-agents sino también a fin de que coincidan con los patrones de URL al declarar directivas. Por servirnos de un ejemplo, si deseas evitar que los motores de búsqueda accedan a las URLs de las categorías de productos parametrizadas en tu lugar, puedes contarlas de la próxima manera:

Pero no es muy eficiente. Sería mejor si simplificáramos las cosas con un asterisco, de la próxima manera:

Este ejemplo bloquea a los motores de búsqueda para que no rastreen todas las URLs bajo la subcarpeta /productos/ que contengan un signo de interrogación. En otras palabras, cualquier URL parametrizada de la categoría “producto”.

Usa “ dólares americanos ” para concretar el final de una URL

Incluye el símbolo “ dólares americanos ” para marcar el final de una URL. Por poner un ejemplo, si quieres eludir que los motores de búsqueda accedan a todos los ficheros .pdf de tu lugar, el fichero robots.txt debería verse así:

En este caso, los motores de búsqueda no pueden acceder a ninguna URL que finalice en.pdf. Esto significa que no pueden acceder a /archivo.pdf, pero pueden acceder a /archivo.pdf?id= por el hecho de que no termina con “.pdf”.

Usa cada user-agent sólo una vez

A Google no le importa si especificas exactamente el mismo usuario-agent múltiples veces. Sencillamente combinará todas y cada una de las reglas de las distintas declaraciones en una y las seguirá todas y cada una. Por servirnos de un ejemplo, si tienes los siguientes usuario-agents y directivas en tu archivo robots.txt.…

… Googlebot
no dejaría de rastrearninguna de las dos subcarpetas.

Dicho esto, tiene sentido declarar a cada user-agent sólo una vez por el hecho de que es menos confuso. En otras palabras, es menos probable que cometas errores críticos al mantener las cosas ordenadas y simples.

Sé específico para eludir fallos involuntarios

La falta de instrucciones específicas en el momento de establecer directivas puede dar lugar a errores fáciles que pueden tener un impacto catastrófico en el posicionamiento SEO. Por servirnos de un ejemplo, pongamos que tienes un sitio multilingüe y que estás trabajando en una versión en alemán que estará libre en el subdirectorio /de/.

Debido a que no está listo para marchar, deseas eludir que los motores de búsqueda accedan a él.

El archivo robots.txt que se muestra a continuación evitará que los motores de búsqueda accedan a esa subcarpeta y a todo lo que contiene:

Pero también evitará que los motores de búsqueda rastreen páginas o bien ficheros que comiencen con
/de.

Por ejemplo:

/decoracion/

/delivery-informacion.html

/depeche-mode/camisetas/

/definitivamente-no-para-ser-visto-en-publico.pdf

En este caso, la solución es simple: añadir una barra.

Use comentarios para explicar tu fichero robots.txt a humanos

Los comentarios ayudan a explicar el archivo robots.txt a los desarrolladores, e inclusive potencialmente a tu porvenir . Para incluir un comentario, comienza la línea con un numeral (#).

# Esto le señala a Bing que no rastree nuestro lugar.

Los rastreadores ignorarán todo lo que haya en las líneas que empiecen con un numeral.

Usa un archivo robots.txt separado para cada subdominio

Robots.txt sólo controla el comportamiento de rastreo en el subdominio donde esté alojado. Si deseas supervisar el rastreo en un subdominio diferente, necesitarás un archivo robots.txt separado.

Por ejemplo, si tu sitio primordial se encuentra en dominio.com y tu blog en blog.dominio.com, necesitarás dos archivos robots.txt. Uno debe ir en el directorio raíz del dominio primordial, y el otro en el directorio raíz del weblog.

Ejemplos de ficheros robots.txt

A continuación se muestran algunos ejemplos de archivos robots.txt. Estos son eminentemente para inspirarse, mas si uno de ellos se ajusta a tus necesidades, cópialo y pégalo en un documento de texto, guárdalo como “robots.txt” y cárgalo en el directorio apropiado.

Acceso total para todos los bots

Si no se declara una URL después de una directiva, ésta se vuelve redundante. En otras palabras, los motores de búsqueda lo ignoran. Es por eso que esta directiva no tiene ningún efecto en el sitio; los motores de búsqueda todavía pueden rastrear todas las páginas y ficheros.

Sin acceso para todos los bots

Bloquear un subdirectorio para todos y cada uno de los bots

Bloquear un subdirectorio para todos y cada uno de los bots (con un fichero interno tolerado)

Bloquear un fichero para todos los bots

Bloquear un tipo de archivo (PDF) para todos y cada uno de los bots

Bloquear todas las URLs parametrizadas sólo para Googlebot

¿Cómo auditar tu archivo robots.txt en pos de errores?

Los fallos de robots.txt se pueden deslizar por la red con bastante sencillez, por lo que merece la pena estar al loro a los problemas.

Para hacerlo, busca de manera regular cuestiones relacionadas al robots.txt en el reporte de “Cobertura” de. Aquí debajo tienes ciertos errores que podrías ver, qué significan y cómo podrías solventarlos.

¿Necesitas buscar fallos en una página determinada?

Pega la URL en la herramienta de inspección de URLs de Google en Search Console. Si está bloqueado por robots.txt, deberías ver algo como esto:

URL presentada bloqueada por robots.txt

Esto significa que al menos una de las URL de los sitemaps presentados está bloqueada por robots.txt.

Si túy excluiste páginas, noindexadas, y, entonces
ninguna página presentada debería ser bloqueada por robots.txt. Si es así, estudia qué páginas están perjudicadas y a continuación ajusta el archivo robots.txt en consecuencia para quitar el bloqueo de esa página.

Puedes emplear elpara ver qué directiva bloquea el contenido. Sólo ten cuidado al hacer esto, es fácil cometer fallos que afectan a otras páginas y ficheros.

Bloqueado por robots.txt

Esto significa que tienes contenido bloqueado por robots.txt que no está indizado hoy día en Google.

Si este contenido es esencial y ha de ser indizado, elimina el bloqueo de rastreo en robots.txt. Si has bloqueado contenido en robots.txt con la intención de excluirlo del índice de Google, suprime el bloqueo y utiliza una meta etiqueta de robots o un encabezado x‑robots. Esa es la única manera de asegurar la exclusión de contenido del índice de Google.

Es esencial suprimir el bloqueo de rastreo cuando se procura excluir una página de los resultados de la búsqueda. Si no lo haces, Google no verá la etiqueta noindex ni el encabezado HTTP, por lo que permanecerá indizada.

Indexada, si bien bloqueada por robots.txt

Esto quiere decir que parte del contenido bloqueado por robots.txt prosigue estando indexado en Google.

Una vez más, si estás procurando excluir este contenido de los resultados de búsqueda de Google, robots.txt no es la solución adecuada. Quita el bloqueo de rastreo y en su lugar emplea unapara prevenir la indexación.

Si has bloqueado este contenido por accidente y quieres mantenerlo en el índice de Google, elimina el bloqueo del rastreo en robots.txt. Esto puede ayudar a prosperar la visibilidad del contenido en la búsqueda de Google.

FAQs

Aquí están algunas de las preguntas más usuales que no encajaban de forma natural en otra una parte de nuestra guía: haznos saber en los comentarios si falta algo, y actualizaremos la sección en consecuencia.

¿Cuál es el tamaño máximo de un fichero robots.txt?

(aproximadamente).

¿Dónde está robots.txt en Wordpress?

En el mismo lugar:
dominio.com/robots.txt.

¿Cómo puedo editar robots.txt en Wordpress?

De forma manual o utilizandocomo Yoast que te permite editar robots.txt desde el backend de Wordpress.

¿Qué sucede si no permito el acceso a contenido no-indexado en robots.txt?

Google jamás verá la directiva noindex por el hecho de que no puede rastrear la página.

“¿Sabías que bloquear una página con un robots.txt disallow y un noindex en la página no tiene mucho sentido porque Googlebot no puede “ver” el noindex?”

Conclusiones

Robots.txt es un archivo simple mas poderoso. Utilízalo de manera sabia, y puede tener un impacto positivo en el posicionamiento SEO. Úsalo al azar y, bueno, vivirás para arrepentirte.

¿Tienes más preguntas? Deja un comentario o bien.

has not yet selected any galleries for this topic.