Logo de AK Marketing - Agencia SEO y Marketing de Venezuela

10 Consejos para optimizar el presupuesto de rastreo SEO

El crawl budget es un concepto vital del SEO para sitios web grandes con millones de páginas o sitios web de tamaño mediano que tienen algunos miles de páginas que cambian a diario.

Un ejemplo de una página web con millones de páginas sería Amazon.com, mientras que sitios con decenas de miles de páginas que se actualizan con frecuencia serían sitios web de reseñas y calificaciones de usuarios.

Hay tantas tareas y problemas que un experto en SEO tiene que considerar, que el crawling se suele dejar de lado.

Pero el crawl budget se puede y debe optimizar.

En este artículo, aprenderás:

  • Cómo mejorar tu crawl budget.
  • Los cambios en el concepto de crawl budget en los últimos años.
(Nota: Si tienes un sitio web con solo unas pocas cientos de páginas, y las páginas no se están indexando, te recomendamos leer nuestro artículo sobre problemas comunes que causan problemas de indexación, ya que no es por el crawl budget).

10 Consejos para optimizar el presupuesto de rastreo SEO

¿Qué es crawl budget?

Crawl budget se refiere al número de páginas que los crawlers de motores de búsqueda (es decir, spiders y bots) visitan dentro de un cierto marco de tiempo.

Hay ciertas consideraciones que se tienen en cuenta para el crawl budget, como un balance tentativo entre los intentos de Googlebot de no sobrecargar tu servidor y el deseo general de Google de rastrear tu dominio.

La optimización del crawl budget es una serie de pasos que puedes tomar para aumentar la eficiencia y la tasa a la que los bots de los motores de búsqueda visitan tus páginas.

¿Por qué es importante la optimización del crawl budget?

El crawling es el primer paso para aparecer en la búsqueda. Sin ser rastreadas, las nuevas páginas y las actualizaciones de páginas no se agregarán a los índices de los  principales buscadores de Internet.

Cuanto más a menudo los crawlers visiten tus páginas, más rápido aparecerán las actualizaciones y las nuevas páginas en el índice. En consecuencia, tus esfuerzos de optimización tomarán menos tiempo para tener efecto y comenzar a afectar tu posicionamiento web. 💪

El índice de Google contiene cientos de miles de millones de páginas y está creciendo cada día. Cuesta a los motores de búsqueda rastrear cada URL, y con el creciente número de sitios web, quieren reducir los costos computacionales y de almacenamiento al reducir la tasa de rastreo y la indexación de URLs. 🌐

También hay una creciente urgencia por reducir las emisiones de carbono para combatir el cambio climático, y Google tiene una estrategia a largo plazo para mejorar la sostenibilidad y reducir las emisiones de carbono.

Estas prioridades podrían dificultar que los sitios web sean rastreados de manera efectiva en el futuro. Si bien el crawl budget no es algo de lo que debas preocuparte con los sitios web pequeños de unas pocas cientos de páginas, la gestión de recursos se convierte en un problema importante para los sitios web masivos. Optimizar el crawl budget significa hacer que Google rastree tu sitio web gastando la menor cantidad de recursos posible.

Así que, hablemos de cómo puedes optimizar tu crawl budget para sacarle el máximo provecho. 🌎

1. Deshabilitar el rastreo de URLs de acción en Robots.txt

Puede que estés sorprendido, pero Google ha confirmado que deshabilitar URLs no afectará a tu crawl budget. Esto significa que Google seguirá rastreando tu sitio web a la misma tasa. Entonces, ¿por qué se menciona esto aquí?

Bueno, si deshabilitas URLs que no son importantes, básicamente le dices a Google que rastree las partes útiles de tu sitio web a una tasa más alta.

Por ejemplo, si tu sitio web tiene una función de búsqueda interna con parámetros de consulta como /?q=google, Google rastreará estas URLs si están enlazadas desde algún lugar.

De manera similar, en un sitio de comercio electrónico, podrías tener filtros de facetas generando URLs como /?color=red&size=s.

Estos parámetros de cadena de consulta pueden crear un número infinito de combinaciones únicas de URL que Google podría intentar rastrear.

Esas URLs no tienen contenido único y solo filtran los datos que tienes, lo cual es genial para la experiencia del usuario, pero no para Googlebot. 😮

Permitir que Google rastree estas URLs desperdicia el crawl budget y afecta la rastreabilidad general de tu sitio web. Al bloquearlas a través de las reglas de robots.txt, Google centrará sus esfuerzos de rastreo en las páginas más útiles de tu sitio.

Aquí tienes un ejemplo de cómo bloquear la búsqueda interna, facetas o cualquier URL que contenga cadenas de consulta a través de robots.txt:

Disallow: *?*s=*
Disallow: *?*color=*
Disallow: *?*size=*

Cada regla deshabilita cualquier URL que contenga los respectivos parámetros de consulta, independientemente de los otros parámetros que puedan estar presentes.

* (asterisco) coincide con cualquier secuencia de caracteres (incluyendo ninguno).
? (signo de interrogación): Indica el comienzo de una cadena de consulta.
= (signo igual): Coincide con el signo igual y cualquier carácter posterior.

Este enfoque ayuda a evitar la redundancia y asegura que las URLs que contienen estos parámetros de consulta se bloqueen para ser rastreadas por los motores de búsqueda.

Ten en cuenta, sin embargo, que este método asegura que cualquier URL que contenga los caracteres indicados se deshabilitará para ser rastreada sin importar dónde aparezcan los caracteres. Esto puede llevar a deshabilitaciones no intencionadas. Por ejemplo, las cadenas de consulta que contienen un solo carácter deshabilitarán cualquier URL que contenga ese carácter independientemente de dónde aparezca. Si deshabilitas s, las URLs que contienen /?pages=2 se bloquearán porque ?s= también coincide con ?pages=.

Si deseas deshabilitar URLs con un carácter único específico, puedes usar una combinación de reglas:

Disallow: *?s=*
Disallow: *&s=*

El cambio crítico es que no hay un asterisco * entre los ? y los caracteres s.

Este método te permite deshabilitar parámetros s específicos en las URLs, pero necesitarás agregar cada variación individualmente.

Aplica estas reglas a tus casos de uso específicos para cualquier URL que no ofrezca contenido único. Por ejemplo, en caso de que tengas botones de lista de deseos con URLs “?add_to_wishlist=1”, debes deshabilitarlas con la regla:

Disallow: /*?*add_to_wishlist=*

Este es un paso natural y de sentido común recomendado por Google.

Un ejemplo a continuación muestra cómo bloquear esos parámetros ayudó a reducir el rastreo de páginas con cadenas de consulta. Google estaba intentando rastrear decenas de miles de URLs con diferentes valores de parámetro que no tenían sentido, llevando a que se rastrearan páginas inexistentes.

Sin embargo, a veces las URLs deshabilitadas pueden seguir siendo rastreadas e indexadas por los motores de búsqueda. Esto puede parecer extraño, pero generalmente no es motivo de alarma. Por lo general, significa que otros sitios web enlazan a esas URLs.

La indexación se disparó porque Google indexó las URL de búsqueda internas después de que fueron bloqueadas a través de robots.txt.

El aumento del índice se produjo porque Google indexó las URLs de búsqueda interna después de haber sido bloqueadas a través de robots.txt.

Comentario de Google en Reddit, Julio 2024

Otra importante beneficio de bloquear estas URLs a través de robots.txt es ahorrar recursos de tu servidor. Cuando una URL contiene parámetros que indican la presencia de contenido dinámico, las solicitudes irán al servidor en lugar de a la caché, aumentando la carga en tu servidor con cada página rastreada.

Recuerda no utilizar la etiqueta de “noindex meta” para bloquear, ya que Googlebot tiene que realizar una solicitud para ver la etiqueta meta o el código de respuesta HTTP, desperdiciando el crawl budget.

2. Deshabilitar URLs no importantes de recursos en Robots.txt

Además de deshabilitar las URLs de acción, puede que quieras deshabilitar archivos JavaScript que no son parte del diseño o renderizado del sitio web.

Por ejemplo, si tienes archivos JavaScript responsables de abrir imágenes en una ventana emergente cuando los usuarios hacen clic, puedes deshabilitarlos en robots.txt para que Google no desperdicie presupuesto de rastreo al rastrearlos.

Aquí tienes un ejemplo de la regla de des habilitación de un archivo JavaScript:

Disallow: /assets/js/popup.js

Sin embargo, nunca debes deshabilitar recursos que sean parte del renderizado. Por ejemplo, si tu contenido se carga dinámicamente a través de JavaScript, Google necesita rastrear los archivos JS para indexar el contenido que cargan.

Otro ejemplo es los endpoints de API REST para envíos de formularios. Supón que tienes un formulario con la URL de acción “/rest-api/form-submissions/”.

Potencialmente, Google podría rastrearlas. Esas URLs no están relacionadas de ninguna manera con el renderizado, y sería una buena práctica deshabilitarlas.

Disallow: /rest-api/form-submissions/

Sin embargo, los CMS sin cabeza a menudo utilizan APIs REST para cargar contenido de manera dinámica, así que asegúrate de no bloquear esos endpoints.

En resumen, examina cualquier cosa que no esté relacionada con el renderizado y bloquea esos elementos.

3. Cuidado con las cadenas de redirección

Las cadenas de redirección ocurren cuando múltiples URLs redirigen a otras URLs que también redirigen. Si esto se prolonga demasiado, los crawlers pueden abandonar la cadena antes de llegar al destino final.

La URL 1 redirige a la URL 2, que redirige a la URL 3, y así sucesivamente. Las cadenas también pueden tomar la forma de bucles infinitos cuando las URLs se redirigen entre sí.

Evitar esto es un enfoque de sentido común para la salud del sitio web.

Idealmente, podrías evitar tener incluso una sola cadena de redirección en todo tu dominio.

Pero puede que sea una tarea imposible para un sitio web grande, ya que las redirecciones 301 y 302 están destinadas a aparecer, y no puedes arreglar las redirecciones de los enlaces entrantes simplemente porque no tienes el control sobre los sitios web externos.

Una o dos redirecciones aquí y allá pueden no hacer mucho daño, pero las cadenas largas y los bucles pueden volverse problemáticos.

Para solucionar cadenas de redirección, puedes utilizar una de las herramientas SEO como Screaming Frog, Lumar o Oncrawl para encontrar cadenas.

Cuando descubras una cadena, la mejor manera de solucionarla es eliminar todas las URLs entre la primera página y la página final. Si tienes una cadena que pasa a través de siete páginas, redirige la primera URL directamente a la séptima.

Otra gran manera de reducir las cadenas de redirección es reemplazar las URLs internas que redirigen con los destinos finales en tu CMS.

Dependiendo de tu CMS, puede haber diferentes soluciones para esto; por ejemplo, puedes utilizar este plugin para WordPress. Si tienes un CMS diferente, es posible que necesites utilizar una solución personalizada o pedirle a tu equipo de desarrollo que lo haga.

4. Utiliza el renderizado del lado del servidor (HTML) siempre que sea posible

Ahora, si estamos hablando de Google, su crawler utiliza la última versión de Chrome y es capaz de ver contenido cargado por JavaScript sin problemas.

Pero pensemos de manera crítica. ¿Qué significa eso? Googlebot rastrea una página y recursos como JavaScript, y luego gasta más recursos computacionales para renderizarlos.

Recuerda, los costos computacionales son importantes para Google, y quiere reducirlos tanto como sea posible.

Entonces, ¿por qué cargar contenido a través de JavaScript (lado del cliente) y agregar un costo computacional adicional para que Google lo rastree?

Por eso, siempre que sea posible, deberías apegarte al HTML.

De esa manera, no estás perjudicando tus posibilidades con ningún crawler. 🚀

5. Mejora la velocidad de la página

Como discutimos anteriormente, Googlebot rastrea y renderiza páginas con JavaScript, lo que significa que si gasta menos recursos para renderizar páginas web, más fácil será para él rastrear, lo cual depende de qué tan bien optimizadas están las velocidades de tu sitio web.

Google dice:

Google rastrea está limitado por el ancho de banda, el tiempo y la disponibilidad de las instancias de Googlebot. Si tu servidor responde más rápido a las solicitudes, podemos rastrear más páginas en tu sitio. 🕒

Así que utilizar el renderizado del lado del servidor es ya un gran paso hacia la mejora de la velocidad de la página, pero necesitas asegurarte de que tus métricas de Core Web Vital estén optimizadas, especialmente el tiempo de respuesta del servidor.

6. Cuida tus enlaces internos

Google rastrea URLs que están en la página, y siempre ten en cuenta que diferentes URLs son contadas por los crawlers como páginas separadas.

Si tienes un sitio web con la versión ‘www’, asegúrate de que tus URLs internas, especialmente en la navegación, apunten a la versión canónica, es decir, con la versión ‘www’ y viceversa.

Otro error común es perder una barra diagonal al final. Si tus URLs tienen una barra diagonal al final, asegúrate de que tus URLs internas también la tengan.

De lo contrario, las redirecciones innecesarias, por ejemplo, “https://akmarketingseo.com/sample-page” a “https://www.akmarketingseo/sample-page/”, resultarán en dos rastreos por URL.

Otro aspecto importante es evitar los enlaces internos rotos, las páginas que pueden consumir tu presupuesto de rastreo y soft 404 páginas.

¡Y si eso no fuera suficiente, también perjudican tu experiencia de usuario! 😣

En este caso, nuevamente, estoy a favor de utilizar una herramienta para auditar el sitio web.

WebSite Auditor, Screaming Frog, Lumar o Oncrawl, y SE Ranking son ejemplos de grandes herramientas para una auditoría de sitios web.

7. Actualiza tu sitemap

Una vez más, te recomendamos cuidar de tu sitemap XML.

Los bots tendrán un tiempo mucho mejor y más fácil para entender a dónde llevan los enlaces internos.

Utiliza solo las URLs que son canónicas para tu sitemap.

Además, asegúrate de que corresponde a la versión más nueva cargada de robots.txt y se carga rápidamente.

8. Implementar el código de estado 304

Cuando Googlebot está rastreando una URL, envía una fecha a través de la cabecera de “If-Modified-Since”, la cual es información adicional sobre la última vez que rastreó la URL dada.

Si tu página web no ha cambiado desde entonces (especificada en “If-Modified-Since”), puedes retornar el código de estado “304 No modificado” con un cuerpo de respuesta vacío. Esto le dice a los motores de búsqueda que el contenido de la página web no ha cambiado y Googlebot puede usar la versión de la última visita que tiene en el archivo.

Una explicación simple de cómo funciona el código de estado http 304 no modificado:

Imagina cuántos recursos de servidor puedes ahorrar mientras ayudas a Googlebot a ahorrar recursos cuando tienes millones de páginas web. Bastante grande, ¿no? 💡

Sin embargo, hay un inconveniente al implementar el código de estado 304, señalado por Gary Illyes.

Gary Illes en LinkedIn

Así que ten cuidado. Los errores del servidor que sirven páginas vacías con un estado 200 pueden hacer que los crawlers dejen de rastrear, lo que lleva a problemas de indexación duraderos.

9. Las etiquetas hreflang son vitales

Para analizar tus páginas localizadas, los crawlers emplean etiquetas hreflang. Debes estar declarando a Google  las versiones localizadas de tus páginas tan claramente como sea posible.

Primero, utiliza el <link rel=»alternate» hreflang=»[lang_code]» href=»url_of_page» /> en el encabezado de tu página. Donde “lang_code” es un código para un idioma soportado.

Deberías utilizar el elemento <loc> para cualquier URL dada. De esa manera, puedes apuntar a las versiones localizadas de una página.

10. Monitoreo y mantenimiento

Revisa los registros de tu servidor y el informe de estadísticas de rastreo de Google Search Console para monitorear los anomalías de rastreo e identificar posibles problemas. 🔍

Si notas picos periódicos de rastreo de páginas 404, en el 99% de los casos, esto es causado por espacios de rastreo infinitos, que hemos discutido anteriormente, o indica otros problemas que tu sitio web podría estar experimentando.

A menudo, es posible que desees combinar la información de registros del servidor con datos de Search Console para identificar la causa raíz.

Palabras finales

Así que, si te estabas preguntando si la optimización del crawl budget sigue siendo importante para tu sitio web, la respuesta es claramente .

El crawl budget es, fue y probablemente será algo importante a tener en cuenta para cada profesional de SEO.

Espero que estos consejos te ayuden a optimizar tu crawl budget y mejorar tu rendimiento de SEO, pero recuerda, hacer que tus páginas sean rastreadas no significa que serán indexadas, para ello es necesario aplicar estrategias SEO para lograr un mejor posicionamiento.

Si necesitas ayuda para optimizar el presupuesto de rastreo de tu sitio web o proyecto y deseas un impulso en el posicionamiento organico, comunícate con nosotros para discutir como podemos ayudarte a alcanzar tus objetivos de posicionamiento web.

Compartir:
Picture of Mia
Mia
Apasionada del marketing digital y el SEO, me encanta el café, los videosjuegos y disfrutar de una buena lectura además de cautivar a los usuarios con mis textos

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Newsletter

Recibe recursos gratuitos, guías, tips, consejos y más sobre SEO y Marketing Digital 100% Libre de Spam