Guia práctica de Safecont. Analizamos Mediamarkt.es

Uso Safecont: yo no soy tonto

Hola a tod@s, por aquí Álvaro al aparato! En este caso os traigo a tres cracks de la familia de iSocialWeb: Jorge, Fabio y Frank, que han hecho un análisis de una de las webs más famosas que se encuentran entre la lista de los perdedores del 2018 de la lista de sistrix.

Aquí una pista:

indice sistrix mediamarkt

Pues sí, una de las grandes laureadas de este 2018… para mal, siempre teniendo en cuenta que los valores de sistrix son estimativos es MEDIAMARKT.es. Y su tendencia viene siendo esta:

caida mediamarkt

Es importante remarcar que con este artículo no queremos hacer sangre ni mucho menos. Somos muy conscientes de lo complicados que es, como SEOs, llevar un gran proyecto. También sabemos que no siempre puedes hacer lo que quieres o necesita el proyecto, pero creemos que analizar grandes referentes de internet, puede ser un buen trabajo didáctico para todos, y si además podemos aportar algo de valor al equipo de Mediamarkt mucho mejor!

Sin más preámbulos os dejo a los tres mosqueteros!

Guía de Safecont paso a paso: Analizando la caída de Mediamarkt.es

¿Crees que tienes controlados todos los aspectos del SEO on page de tus webs? ¿Seguro? No pongas la mano en el fuego antes de pasarlos por Safecont, porque puede que te lleves alguna que otra sorpresa.

Safecont analiza todo el contenido y la arquitectura de tu web utilizando la tecnología de Machine Learning y te dice si éstos están provocando problemas de posicionamiento, además de medir el riesgo de recibir una penalización algorítmica o filtrado por contenidos.

Esta tool sirve para optimizar todo tipo de proyectos, pero cuanto más grande sea la web, más partido vas a sacarle.

En este post vas a aprender todo lo que puede hacer con esta herramienta por tus proyectos y como ejemplo vamos a utilizar nada más y nada menos que la web de Mediamarkt España.

¿Te apuntas?

¿Cómo se configura Safecont?

Lo primero que tenemos que hacer es añadir el dominio.

safecont add domain

Ahora lo buscamos en nuestro dashboard y le damos a “run análisis”.

run analysis

Nos aparecerán las siguientes opciones:

configuracion del crawler

Como recomendación en el apartado de internal credits: puedes hacer un primer análisis sobre un 15 o un 20% de las urls totales, para detectar patrones y no consumir todos tus créditos. A posteriori sobre eso, puedes ir optimizando todo lo que realmente quieres indexar o no, de forma que no gastes créditos crawleando el site completo sin una primera optimización. Esto es importante en grandes sitios si necesitas hacer varias pasadas. También puedes decidir si quieres empezar a analizar desde un punto determinado con la opción “Start point?”. Si vas a analizar todo el dominio, deja vacío este apartado.

El apartado de contenido externo duplicado se contrata aparte y no lo trataremos en este post, donde vamos a centrarnos únicamente en el contenido dentro del propio dominio.

La siguiente opción “Customize crawl” te permite decirle al crawler exactamente qué crawlear o no, vendría a ser como un robots.txt y funciona igual. Este punto es interesante si acompañas el análisis inicial con otro crawler pasado anteriormente. Por ejemplo, si le pasas la rana y ves que hay filtros que generan múltiples urls o alguna sección que no aporte valor y genera muchas urls. Con esto puedes bloquearlo y evitar consumir recursos innecesarios hasta que esté arreglado.

Por último, recientemente se ha añadido una funcionalidad muy interesante: “Custom clusters” que permite hacer análisis de un sitio web por clusters de contenidos. Con esta opción puedes analizar independientemente partes de la web, por ejemplo el blog, ciertas tipologías de página o alguna sección en concreto. Muy útil para segmentar webs grandes y/o hacer estudios minuciosos por partes. Se agradecería tener aquí la inclusión de datalayers como tiene por ejemplo FandangoSEO, pero es una funcionalidad muy útil aun así.

Una vez configurado todo, lanzaremos el análisis y deberemos esperar un tiempo que dependerá del tamaño de la web y de la configuración que hayamos puesto.

Home

Cuando el análisis haya terminado, podremos aterrizar en la sección Home, que nos permite obtener una visualización rápida y sintetizada de los problemas del proyecto.

Este rinoceronte muestra una puntuación llamada PandaRisk y en este caso parece que está algo cabreado, así que vamos a ver por qué.

pandarisk

El PandaRisk es un índice que va de 0 a 100 y se calcula a nivel de dominio. Cuanto más bajo, mejor.

Desde nuestro punto de vista, que un PandaRisk sea alto o bajo en realidad va a depender del sector y la media de este, como en casi todos los factores que afectan al SEO. Si estás en la media o por debajo de ella, será más peligroso que si está por encima. Pero lo que está claro es que hay que intentar reducirlo al máximo. Para ello, la clave es estudiar minuciosamente cada uno de los apartados de Safecont y tomar las medidas necesarias para reducirlo.

Aquí es cuando entra en juego otra métrica importante: el PageRisk.

El PageRisk se saca a nivel de URL y es básicamente una puntuación que se genera a partir de los análisis realizados por los algoritmos de machine learning de Safecont.

En resumen: lo que necesitas tener claro es que cada una de las URLs crawleadas va a ser puntuada con un PageRisk. Cuanto más bajo sea éste, mejor.

En el caso de mediamarkt.es tenemos un PandaRisk de 65,43. En base a nuestra experiencia utilizando Safecont, consideramos que es alto, aunque habría que analizar el resto de empresas de la competencia para saber esto a ciencia cierta.

Para reducirlo debemos solucionar los problemas que iremos detectando en cada uno de los apartados en que se divide Safecont.

Errores básicos iniciales

En la vista principal ya podemos detectar claramente que los problemas a los que se enfrenta mediamarkt.es vienen por contenido muy similar entre sí.

problemas principales

Este es un problema bastante común en un ecommerce debido a su propia naturaleza. La forma en la que se muestran los productos, sus variaciones de gama, las opciones de filtrado que permite la tienda y otros factores hacen que cualquier mínimo despiste provoque similitudes en el contenido.

grafica de problemas del dominio

En este otro diagrama se ve claramente representado que el problema está en la similaridad. Estamos muy lejos del “safety area” que nos ha estimado Safecont, así que hay que detectar qué URLs nos están causando esos problemas.

Risks

Este apartado muestra de un vistazo los tres problemas principales que pueden afectar a una web según Safecont. Estos son similaridad, contenido externo duplicado (no lo hemos analizado) y thin content.

En este caso nos dice que solo existen riesgos por similaridad de contenidos dentro del mismo dominio:

risks

Clusters

Un cluster es una agrupación de URLs en función de patrones comunes que se cumplen entre sí.

Por ejemplo, en esta agrupación de clusters según la similaridad nos encontramos con 6 clusters. El más peligroso de todos es el último, que engloba 9015 URLs que tienen un porcentaje de similaridad de entre el 90 y el 100%. A su vez, según los PageRisk de las URLs que conforman ese cluster, obtenemos un ClusterRisk de 51,89%.

similarity clusters

Para ver otro ejemplo, en esta agrupación de clusters según su PageRisk, nos encontramos que existen 417 URLs que tienen un PageRisk entre el 70 y 80%, lo cual nos indica que son páginas que podrían estar causando problemas de posicionamiento.

pagerisk clusters

En los siguientes apartados analizaremos cada agrupación de clusters según estén provocando problemas de similaridad, thin content o semántica.

Similarity

A diferencia del informe de Clusters -que incluye también contenido externo-, el informe de Similarity analiza exclusivamente el contenido duplicado de páginas internas.

El informe funciona de la siguiente manera. En la columna Link aparece el porcentaje de similaridad de ese cluster. En la columna Page aparece el número de páginas que sufren ese porcentaje de similaridad. Y por último, en la columna Cluster Risk aparece, en forma de porcentaje, el riesgo de ese cluster de ser penalizado. Quizá, lo único que se eche en falta en esta funcionalidad sea que además de ofrecernos agrupadas las URLs en función del porcentaje de contenido similar que tienen, nos señale en concreto que URLs son exactamente idénticas a otras.

similarity clusters safecont

En cualquier caso, los resultados del análisis son esclarecedores. Si tenemos en cuenta el número de páginas que tienen entre un 70% y un 100% de contenido similar (es decir, la suma de los grupos 70%-80%, 80%-90% y 90%-100%) vemos que Mediamarkt ha lanzado al índice de Google aproximadamente 25000 URLs cuyo contenido es en la práctica extremadamente parecido.

Vayamos un poco más en detalle: Hacemos clic en el grupo de 90%-100% (el que tiene problemas de similitud más graves), y nos encontramos una larga lista de URLs con parámetros variables que están generando contenido duplicado. Un total de 9015 URLs.

foto safecont similarity clusters

Ante esto, podemos afirmar que uno de los errores de Mediamarkt ha sido perder el control sobre ciertas URLs que está enviando al índice de Google.

En concreto, su web ha estado generando una URL distinta por cada posible combinación de filtros que aparecen en su lateral izquierdo. Lo cual ha dado lugar a indexar miles de páginas idénticas cuyo contenido coincide en un 90%.

La creación de estas URLs es normal. No lo es, sin embargo, que se envíen a indexar. Mediante la no indexación o mediante el robots.txt y la funcionalidad de control de parámetros variables de Google Search Console, podemos gestionar estas duplicidades.

Esto es tan solo la punta del iceberg. Si nos adentramos en el resto de páginas con problemas de similaridad, podemos encontrar de todo; desde páginas de producto, a páginas de descuentos o promociones… Veamos algún ejemplo más:

b) Páginas de producto

En el grupo de URLs cuyo contenido On Page es similar en un 80%-90%, encontramos hasta 12485 páginas de producto. En contra de lo que cabría pensar en primer lugar, no se trata de que Mediamarkt haya descuidado la web hasta tal punto de que sus productos estén repetidos por todas partes.

El problema tiene más que ver con la configuración del contenido de las páginas de producto. La mayoría de productos tienen una descripción muy breve. Esa pequeña descripción es el único contenido único de cada página (valga la redundancia).

safecont-contenido-muy-similar-paginas

Sin embargo, todo lo que rodea al producto, se repite una y otra vez en todas las páginas. Nos estamos refiriendo al enorme bloque de upsellings, al footer y al encabezado. Podemos encontrar estos tres elementos en la mayoría de tiendas online. Lo especial de este caso, es que estos tres elementos por sí solo, representan hasta un 80% del contenido on page.

safecont-contenido-muy-similar-upsellings

Contenido en común a todas las páginas de producto (upsellings y footer)

c) Páginas de categorías de producto

También en el grupo de URLs cuyo contenido On Page es similar en un 80%-90%, encontramos otra tipología de página: las categorías de producto.

La razón detrás de la similaridad de estas páginas es que están construidas exclusivamente con banners. El único texto que en ellas encontramos es el que correspondiente al menú lateral y al footer. No hay un texto descriptivo de la categoría que incluya palabras clave relevantes, como cabría esperar. La única pieza de contenido único de estas páginas son los banners, que por su propia naturaleza, carecen de contenido semántico (más allá de los alts) y por lo tanto no informan a Google adecuadamente del contenido semántico exclusivo de estas páginas.
banners mediamarkt categorias de producto
banners mediamarkt categorias de producto

Consejos prácticos: si tu web sufre también estos problemas de similaridad, trata de solucionar en primer lugar las similaridades técnicas (como es el caso de las URLs generadas por parámetros variables). Es lo más rápido. Pese a que se trata de miles de URLs es algo que puedes solucionar en bulk en apenas unos minutos, bien a través de Google Search Console o bien directamente a través de tu propio robots.txt.

En el caso de la similaridad de páginas de producto y las categorías el trabajo es más minucioso y debe ser afrontado caso por caso. Asegúrate de que las categorías principales tengan al menos un pequeño texto con las palabras clave más relevantes para cada categoría. De este modo, estarás ayudando a Google a determinar el contenido semántico de esa página.

Cuando se trata de páginas de producto, trata de que contengan también un texto descriptivo de sus características, sobre todo cuando se trata de productos que tienen búsquedas. En caso contrario, cuando tenemos cientos de URLs de productos que no tienen búsquedas, puede ser una pérdida de tiempo dotarles de un texto original y único. En esos supuestos, optar por su desindexación puede ser una forma rápida de mejorar la salud del dominio, puesto que estaremos eliminando del índice de Google cientos de URLs que no aportan valor. En cualquier caso, la desindexación de URLs es una acción que debe adoptarse con cautela y estudiando cada caso en concreto.

Thin content

Gracias a la herramienta de Thin Content podemos detectar lo que comúnmente se conoce como páginas con contenido de baja calidad.

De nuevo, los datos del informe aparecen recopilados en las columnas Link, Pages y Cluster Risk.

En este caso, la primera columna Link indica en qué porcentaje puede considerarse de baja calidad el contenido, siendo 100% el mayor ratio, y 0% el menor ratio.

safecont thin content

Con estos datos, podemos ver que el problema de Mediamarkt no está focalizado en este punto en el contenido de baja calidad, ya que todas sus páginas se encuentran en ratios muy bajos; entre un 0%-10% y el 10%-20%, lo cual entra dentro de lo habitual y no entraña riesgos. Esto no implica que este problema no exista, en muchas ocasiones después de atacar problemas de similaridad de contenidos graves, y tener este punto controlado, aparecen problemas de thin content que eran menos prioritarios, pero que son también relevantes y pueden estar lastrando el proyecto.

Semantic

El apartado Semantic está dedicado a agrupar semánticamente distintos grupos de URLs. Se trata de una de las funcionalidades más avanzadas y a la cual se le puede sacar mucho partido si sabe utilizarse bien.

No se trata de una herramienta que nos diga si algo es correcto o incorrecto, sino que nos ofrece los datos para averiguar más acerca de los distintos campos semánticos de nuestra web.

Las principales utilidades que hemos encontrado a esta herramienta son dos:

  1. identificar los grupos de contenido semánticamente más alejados de la temática principal, para así poder analizar su rendimiento SEO por separado.
  2. aislar los grupos semánticos con un mayor riesgo de penalización para implementar acciones directas sobre ellos.

En este sentido, la interfaz y UX de esta función podría pulirse un poco más para ofrecer a usuarios menos avanzados más pistas acerca de qué pasos hay que seguir para sacarle todo su partido.

Dentro de esta Semantic, encontramos cuatro subapartados: Words: tfidf and URls, Semantic similarity, Tfidf-Top words y Semantic clusters.

safecont tfidf semantic similarity

Words: TFIDF and URLs

Esta gráfica nos ofrece el TFIDF de cada KW y el número de URLs en las que aparece. En este post, no entraremos en detalle a explicar que es el TFIDF, que muy sucintamente podría definirse como el peso semántico que una KW tiene dentro del conjunto de una web. Si queréis profundizar más en este concepto, recientemente Juan de USEO escribió un artículo bastante completo al respecto.

Semantic similarity

Esta gráfica en 3 dimensiones muestra la cercanía o el alejamiento semántico de los distintos grupos de contenidos que tiene la web. Cada punto representa un grupo de URLs (agrupadas por semántica) y su cercanía o distancia representa su similitud o discrepancia. Lo habitual en webs especializadas o webs de nicho es que todos los puntos estén muy juntos. Mientras que en marketplaces o medios de presa, lo normal será que estén alejados.

En el caso de Mediamarkt estamos ante una web especializada en electrónica lo cual explica la cercanía de sus puntos. Los puntos alejados son anecdóticos (ejemplo: la sección de discos musicales).

Aislar un cluster semántico alejado, nos servirá para conocer mejor rendimiento y así poder mejorarlo; lo cual puede ser material para un escribir post completo aparte.

Tfidf-Top words

Esta tabla nos ofrece un ranking de las KWs con más peso dentro de la web.

En el caso de Mediamarkt, aparece en el nº1 la KW “estrellas”, que está relacionado con la capacidad de alcanzar temperaturas mínimas de los congeladores. Teniéndolo esto en cuenta, se podría entrar analizar detenidamente si su peso semántico es adecuado o desproporcionado, en relación con webs competidoras.

safecont tfidf top words

Semantic clusters

Finalmente, en este apartado, encontraremos un listado con enlace hacia todos los clusters semánticos y una representación gráfica del tamaño y peligrosidad de cada uno de los clusters.

El tamaño del cuadrado representa la cantidad de URLs que un cluster tiene. Y su color viene determinado por su peligrosidad: verde, naranja o rojo en función de su riesgo.

La peligrosidad (ClusterRisk) se ha calculado mediante la suma de la peligrosidad de todas las URLs que conforman este cluster.

semantic clusters safecont

Pongamos un ejemplo. El cluster número 25 es el relativo a la sección musical de Mediamarkt.

Comprobamos que tiene un tamaño reducido, y que su color es naranja (peligrosidad media). Siendo así, es muy improbable que este cluster en concreto esté perjudicando a la salud del dominio en su conjunto.

Salvo el 25 y el 58, el resto de clusters cuentan con un riesgo de peligrosidad alto; es decir, que las URLs que los conforman tienen problemas.

Como ya sabemos por los análisis de los puntos anteriores de este artículo, este problema se llama similitud de contenidos y contenidos duplicados.

Y gracias al análisis con la función Semantic podemos concretar que esos problemas se hallan en los grupos de URLs cuya temática es la principal de la web (es decir, la electrónica) y no en grupos de URLs de contenido semántico distinto (ej, la música).

Pages

El apartado Pages  proporciona un sencillo informe de todas las URLs que alberga el sitio organizada de mayor a menor por orden de Page Risk, como podemos observar en la imagen:

pages

Como podemos observar en la imagen, las URLs clasifican en función del Page Risk, mostrando otros datos como son el PageStrength o fuerza de la página y el campo “Similarity” lo que indica la similaridad de contenidos de esa URL con otras URLs del sitio web. Cabe destacar que el Page Risk no sólo está basado en la similaridad, duplicado externo o thin content, este valor es calculado con muchos otros factores.

Si abrimos cada uno, se abrirá una ficha como la que podemos ver a continuación:

pages-url

Esta ficha nos indica el riesgo de penalización que tiene una URL, que en este caso es muy alto (71,13). Por otro lado, vemos que lo acompaña un gráfico de araña, que nos indicará cuáles son los mayores problemas que tiene esa URL. En este caso, la similaridad es el problema que pone en riesgo dicha URL, de hecho pertenece a una cluster que contiene entre 90- 100% de contenido similar.

Como ya decíamos antes, estas URLs se han generado por la combinación de los diferentes filtros dando lugar a nuevas URLs de contenido casi idéntico, permitiendo que se indexen dichas URLs.

Si continuamos la ficha, podemos ver que tenemos otro apartado con un amplia información:

similar-pages-with-this

Aquí podemos ver un poco algunos detalles más en profundidad acerca de la URL analizada.

  • Content length: longitud del contenido.
  • URL depth: nivel de profundidad a la que se enceuntra la URL.
  • Similarity: contenido similar a otras URLs del mimso dominio.
  • External duplicate: contenido similar a otras URLs de distinto dominio.
  • Thin content ratio: porcentaje de contenido pobre o vacío.
  • Internal inbound links: enlaces que recibe esta URL desde otras URLs del mismo dominio.
  • Internal outbound links: enlaces que esta URL envía a otras URLs del mismo dominio.
  • Number of words: número de palabras que contiene la URL.
  • PageStrenght: fuerza interna de la URL.
  • PageRisk: riesgo de que la URL sea penalizada.

Y si no vamos a mano derecha podemos ver que tenemos estos tres datos adicionales:

  • Text/ HTML ratio: nos indica ela relación de texto a HTML, es decir el porcentaje de correlación del contenido de texto real que se encuentra en un URL.
  • Response time: nos indica el tiempo de respuesta que tarda la URL en descargar.
  • Similar page with this: nos agrupa en un cluster, todas las URLs que son similares a la URL analizada.

Gracias a la agrupación de URLs bajo el concepto de “similar page with this” podremos detectar todas las URLs que tienen el mismo contenido y por las cuáles Mediamarket podría sufrir una penalización.

Arquitectura

En este apartado podremos ver determinadas representaciones visuales de cómo se enlaza la estructura del sitio web, divido en varios informes donde podemos ver:

Niveles de profundidad:

niveles-de-profundidad

Aquí podemos observar una representación de los niveles de profundidad del sitio web, ubicándose en el primer nivel, la home, y el resto de niveles para categorias, subcategorias, productos, etc.

Además, podemos ver el número de URLs que componen cada nivel, así como el  nivel de relevancia de cada uno de ellos. A este valor lo han llamado “levelstrength” y podríamos decir que es asimilable al conocido “page rank”. Es decir, que este valor nos indica la distribución de la fuerza de un nivel a otro nivel por medio de los enlaces que los conectan.

En este caso, podemos ver que existen demasiados nivel de profundidad, a los cuales apenas le llegan fuerza interna o levelstrength, esto se debe a una mala arquitectura y distribución del enlazado interno. Pero si hacemos una análisis en profundidad, si clickamos en cada nivel podremos ver las URLs que lo componen, vemos que los niveles más inferiores corresponden con las URLs generadas por los filtros de navegación.

También podemos observar que la página home no es la más relevante en cuanto al levelstrength. Además nos sorprende que sea tan bajo (24,52%). Echando un vistazo, nos damos cuenta que el el enlace a home del logo en todas las páginas del dominio está formateado con una variable: href=”//www.mediamarkt.es?ref=logo_rh”

Los valores de levelstrength de cada nivel también son demasiado bajos, si tuviéramos valores superiores, las palabras clave asociadas a las URLs de cada nivel posicionarían mejor.

Mediante este informe, hemos podido ver al instante que el nivel y la calidad de la estructura del sitio web no es lo más apropiada posible y tiene mucho margen de mejora.

Páginas más relevantes

paginas-mas-potentes

En este informe encontramos las URLs más relevantes a nivel de arquitectura, para el sitio web , con su correspondiente pagestrength o fuerza interna de la URL. En este caso podemos observar que la home no está entre las URLs con mayor pagestrength. Las URLs más relevantes pertenecen a un segundo nivel de profundidad. En este caso sería necesario conocer bien las necesidades del negocio y el sector para evaluar si esta es la distribución o ponderación más acertada para el crecimiento del mismo.

Interlinking

interlinking

Este gráfico nos muestra una representación de Hubs/Authorities, donde los Hubs (puntos azules en grandes) representan aquellas URLs en las cuáles podemos poner un enlace a otra URL del sitio web debido a que esos enlaces son muy relevantes. Y por otro lado los Authorities (punto pequeños de colores) representan a aquellas URLs donde podemos incluir contenido pues son, a ojos de los motores de búsqueda, más relevantes. Mediante este grafo podemos mejorar tanto el contenido como el enlazado interno de MediaMarkt.

hubs

Y aquí podemos ver un listado de Hubs organizado por el HubValue, el valor como Hub a la hora de enlazar a otras partes de la web y su correspondiente valor como authorities.

Crawlstats

El apartado crawlstats nos proporciona un dashboard con las métricas y datos de crawleo principales, como podemos ver a continuación:

crawlstats

Este apartado nos da un informe a modo de resumen del estado de rastreo del dominio, que incluye la siguiente información:

  • Páginas únicas indexables: 32.214 URLs
  • Páginas no indexables: 1431 URLs
  • Páginas con un código de respuesta distinto al 200 (3xx, 4xx, 5xx, etc)
    • 403: 1 URLs
  • Páginas rastreables por encima del límite que hayamos establecido: 58 URL por encima del limite de crawling.

Por otro lado, también podemos ver una segmentación por URLs no indexables, donde podemos ver que de las 1.431 URLs no indexables:

url no indexables

  • 999 URLs pertenecen a redirecciones 301
  • 394 URLs pertenecen a redirecciones 302
  • 38 URLs pertenecen a URLs en Noindex

Gracias a este informe, podemos mejorar el rastreo de nuestro sitio web, por ejemplo eliminando todos los enlaces internos a redirecciones 301 y 302. Para ello, dentro de nuestro informe de crawlstats, accedemos a las “999 URLs Redirects 301“, que no devuelve un listado de URLs que contienen dichas redirecciones 301:

listado de urls con redirecciones

Este listado, nos indica la URL que redirige y hacía que URL es redirigida, además de donde ha sido detectada dicha URL, su nivel de profundidad y su tiempo de respuesta.

Por ejemplo, en el siguiente caso:

enlace a redireccion

Aquí vemos que tenemos una URL que ha sido redireccionada, pero no se ha modificado los enlaces interno, es decir encontramos enlaces internos que apuntan hacia la redirección y no hacía la URL final, bajo el anchor text “oferta MediaMarkt”. Dicho enlace se encuentra en el menú de navegación y por tanto afecta a toda la web en general.

enlaces internos a redirecciones 3xx

Si modificamos ese enlace, cambiándolo por la URL a la que estamos redireccionando, nos quitaremos gran parte de los enlaces internos que pertenecen a redirecciones 301, mejorando el rastreo general de nuestro sitio web.

Si continuamos con el informe de crawlstats, vemos que también nos añade información acerca de la canonicalización de URLs, algo muy necesario en una ecommerce como Media Markt:

urls canonicalizadas

Aquí, podemos ver que:

  • 25.625 URLs contienen la etiqueta canonical a sí mismas.
  • 3.247 URLs canonicalizadas, es decir el canonical apunta hacía otra URL.
  • 3.380 URLs no contiene etiqueta canonical.

En el caso de las URLs que no contienen canonical, pertenecen a las URLs que están siendo generadas a través del sistema de navegación facetada, es decir, los filtros de búsqueda, que como ya hemos dicho anteriormente no deberían generar un nueva URL y menos aún que sean rastreables e indexables.

Y por último, podemos que ver que en el informe de crawlstats, se ha asignado un Crawl Score, que se trata de una métrica creada por el equipo de Safecont y trata de evaluar la dificultad que encuentran los diferentes bots a la hora de crawlear el dominio y detectar todas las URLs indexadables. Se trata de una métrica única ponderada del peso de cada nivel de URLs según su importancia.

El Crawl Health Score es de 97.04

También podemos ver una gráfica con el crawl score, donde podremos ver toda esta información por cada nivel de profundidad, esto está bajo el nombre de “Crawled URLs per level“:

crawled url per level

Esta sección desde nuestro punto de vista, no es la más destacada de la herramienta, pero sí aporta de una forma rápida y clara información relevante que siempre es de valor.

Conclusión

Como hemos podido ver a lo largo del artículo, Safecont es una herramienta que nos permite analizar nuestro sitio web a fondo para tomar decisiones basadas en datos.

Esto nos permite tener mayor control sobre la calidad del contenido del sitio web, así como la arquitectura web, detectando aquellas zonas o clusters peligrosos.

A diferencia de otras herramientas on page, Safecont no se limita a realizar un checklist de tareas, sino que va más allá, pues se trata de una herramienta basada en inteligencia artificial aplicada al SEO.

Por lo tanto, si quieres tener bajo control tu sitio web y evitar posibles penalizaciones, así como mejorar la arquitectura y enlazado interno, no seas tonto y usa Safecont 😛

Artículos relacionados
Deja tu respuesta