Los motores de búsquedas son cada vez más inteligentes, pero a veces es necesario ofrecer un poco de ayuda para que los robots sepan dónde ir. Y eso es lo que hacen los Sitemap XML.
Un sitemap XML es una parte importante de la optimización de cualquier sitio web. Son archivos en los que se proporciona información sobre las páginas, post, imágenes y otros archivos de tu sitio web.
No solo proporciona a los robots una lista completa de todas las páginas públicas de un sitio web. Del mismo modo, les da a los motores de búsqueda una mejor idea de la arquitectura de información del sitio web, la jerarquía de sus páginas y la frecuencia de actualización de los contenidos.
Generar un sitemap XML y enviarlo a los motores de búsqueda es uno de los pasos más importantes que puede seguir para asegurarse de que su sitio web esté indexado correctamente. Por tanto, las principales ventajas de tener un mapa de sitio actualizado son:
Hay varias formas de generar un sitemap, las principales son:
Un sitemap debe ser un elemento vivo, por lo que deberemos optimizarlo en base a los contenidos que se añadan o desaparezcan del sitio web.
En primer lugar, enviándolo a través de Google Search Console. Además de ayudar a los motores de búsqueda a encontrar el sitemap de una web, estas plataformas también proporcionan información y diagnósticos sobre las URLs que figuran en él.
En segundo lugar, también es bueno incluir la URL en el archivo Robots.txt para que los motores de búsqueda conozcan la ubicación del sitemap XML.
Es bastante común tener páginas activas que no queremos indexar, ya sea por contenido duplicado, paginaciones SEO, etc.
Esto puede resultar muy obvio, pero en muchos casos se nos puede pasar realizar el cambio en caso de redirecciones web. Por eso, es importante, verificar con herramientas como Screaming Frog los códigos de estado de cada una de las URL prestando atención a los siguientes valores:
Al igual que ocurría en el punto anterior, algunas páginas pueden no ser indexables debido a etiquetas HTML especiales, como es el caso de páginas canonicalizadas. Revisa que no tengas ninguna URL en el sitemap con la etiqueta Rel = canonical apuntando a otra página.
Como norma general, cuando no queramos indexar una página, debemos definir la etiqueta meta robots “noindex, follow” en el código html de la página. Esto evita que Google indexe la página, pero conserva el valor de los enlaces.
Si se ve que indexa y consume presupuesto de rastreo, en ese caso, se podría valorar desindexarlo a través de robots.txt
Algunas páginas del mapa de sitio pueden no ser indexables debido a etiquetas HTML especiales. Este seria un claro ejemplo de presupuesto de rastreo desperdiciado. Si los robots de los motores de búsqueda no pueden indexar ciertas páginas, entonces no tienen sentido que estén incluidas en el sitemap de una web.
Como hemos comentado, Search Console tiene un informe de sitemaps que proporciona mucha información útil sobre el estado del mapa del sitio y las páginas enumeradas en él.
Podemos obtener un informe detallado de los siguientes valores:
En conclusión, echar un vistazo a su informe de sitemaps en Search Console permite detectar rápidamente los problemas a solucionar.