Hay un informe de Search Console que se ha convertido en el motivo número uno por el que me escriben últimamente, y es el de "rastreada: actualmente sin indexar". La frase desconcierta porque parece una contradicción, ¿cómo que Google ha pasado por mi página y ha decidido no guardarla? Pues sí, eso es exactamente lo que ocurre, y conviene entenderlo bien porque más que un error técnico es una decisión que Google toma de forma deliberada. Google ha leído tu contenido y ha concluido que, de momento, no le aporta nada a su índice.
Llevo años peleándome con este informe en webs propias y de clientes, desde directorios con miles de fichas hasta blogs de pymes con cuarenta artículos, y te adelanto la conclusión, casi nunca se arregla "solicitando indexación" a mano. Eso es como pedirle al portero de una discoteca que te deje entrar otra vez con la misma ropa con la que ya te ha rechazado.
Por qué Google rastrea pero no indexa
Cuando audito un caso de crawled not indexed, las causas se repiten con una regularidad casi aburrida. La primera y más frecuente es contenido commodity, páginas que dicen lo mismo que otras diez mil que ya están en el índice. Si tu artículo sobre "beneficios del email marketing" es un refrito del top 10, Google no necesita una copia más, y desde los sistemas de contenido útil esto se nota muchísimo. La documentación de Google sobre contenido útil y centrado en las personas lo dice sin rodeos, el contenido hecho para el buscador en vez de para las personas tiene cada vez menos hueco.
La segunda causa es la falta de señales de experiencia y autoridad. Una web nueva o débil que publica veinte artículos genéricos de golpe es candidata perfecta a quedarse en el limbo, porque Google indexa con más generosidad a quien ya ha demostrado que aporta. Aquí el E-E-A-T deja de ser una etiqueta mística y se convierte en una pregunta muy concreta, ¿hay alguien real detrás con algo propio que contar?
Luego están las causas más técnicas. El presupuesto de rastreo mal repartido es un clásico en e-commerce, recuerdo una web de tecnología que auditamos donde los filtros y facetas generaban URLs de forma exponencial, y en un rastreo parcial ya aparecía casi la mitad de las URLs como no indexables recibiendo enlaces internos. Google gastaba su tiempo en basura paginada en vez de en las fichas de negocio. Y por último, la duplicidad y el thin content, subcategorías con un solo producto y cero texto, fichas casi idénticas entre sí, paginaciones canonicalizadas de cualquier manera. Cuando un porcentaje alto de tu web es similar entre sí, Google indexa una muestra y descarta el resto.
Cómo lo diagnostico en Search Console
El informe de indexación de páginas de Search Console es el punto de partida, pero el error típico es mirar el número total y asustarse. Lo que yo hago es exportar las URLs afectadas y segmentarlas por patrón, porque no es lo mismo que estén sin indexar 300 URLs de parámetros que 300 artículos del blog en los que has invertido dinero. Si lo que no se indexa son filtros, paginaciones o variantes, en realidad Google te está haciendo un favor.
Después cruzo ese listado con un crawl de Screaming Frog y con los datos de tráfico, y de ahí salen tres preguntas que lo deciden todo. ¿La URL recibe enlaces internos o está huérfana? En una auditoría reciente encontramos casi 26.000 páginas huérfanas, de las cuales solo mil eran indexables y, oh sorpresa, eran justo las de marcas que el negocio quería posicionar. ¿La URL tiene contenido sustancialmente distinto al de sus hermanas? Y ¿esa URL tiene una búsqueda real detrás que justifique su existencia? Con la inspección de URL individual verifico además que no haya canonicals raros apuntando a páginas que a su vez no son indexables, que es de las cosas más retorcidas que me he encontrado tras migraciones mal hechas.
Este análisis es una de las patas de cualquier auditoría SEO profesional que hago, porque la indexación es el peaje de entrada, si Google no guarda tus páginas, todo lo demás da igual.
El proceso para recuperar URLs, en este orden
Una vez segmentado el problema, aplico tres palancas y siempre en el mismo orden.
Mejora sustancial del contenido
No retocar, reescribir con un ángulo propio. Añadir experiencia de primera mano, datos que no estén en el top 10, un caso real, una opinión con criterio. He recuperado artículos que llevaban un año fuera del índice solo con esto, transformándolos de resumen genérico a pieza con algo que decir, y la indexación llegó en una o dos semanas tras el cambio. Si no puedes mejorar sustancialmente una URL, pasa a la palanca tres.
Enlazado interno
Google interpreta los enlaces internos como votos de importancia. Una URL huérfana o enterrada a cinco clics de la home le está gritando "no me importo ni a mí misma". Enlazo las URLs a recuperar desde las páginas más fuertes del sitio con anchors descriptivos, y me aseguro de que el enlazado no se esté fugando hacia URLs no indexables, que es donde más popularidad se desperdicia en la mayoría de webs que audito.
Poda
La palanca incómoda y, en mi experiencia, la más rentable. Las URLs sin búsqueda detrás, sin tráfico y sin posibilidad de mejora se eliminan o se desindexan a propósito. Suena contraintuitivo, pero reducir el ruido mejora la percepción de calidad del conjunto y concentra el rastreo en lo que importa. En un directorio propio podé varios cientos de fichas vacías y las URLs buenas empezaron a entrar al índice sin tocarlas siquiera.
¿Y solicitar indexación manualmente? Solo después de haber mejorado la página, como aviso de que hay algo nuevo que ver. Antes de eso es perder el tiempo.
Si quieres revisar tú mismo el estado de indexación de tu web antes de meterte en faena, tienes los puntos clave en mi checklist de auditoría SEO, y el diagnóstico de Search Console lo desarrollo más a fondo en la auditoría con Search Console. Y si el informe de páginas sin indexar te crece cada mes y no sabes por dónde cortar, eso es exactamente el tipo de problema que destapo en mis auditorías, con causas concretas y un plan de recuperación priorizado, no con un PDF de cien páginas que nadie lee.
Preguntas frecuentes
¿Cuánto tarda Google en indexar una URL después de mejorarla?
Depende de la autoridad del sitio y de la frecuencia de rastreo, pero en mi experiencia, si la mejora es sustancial y la URL recibe enlazado interno, suele volver al índice en una o dos semanas. Si pasan más de uno o dos meses sin movimiento, la mejora probablemente no fue suficiente o hay un problema de calidad a nivel de dominio.
¿Es malo tener URLs en rastreada pero sin indexar?
No siempre. Si las URLs afectadas son parámetros, filtros o paginaciones, es el comportamiento esperado y hasta deseable. El problema real es cuando ahí aparecen páginas de negocio o artículos en los que has invertido, porque entonces Google te está diciendo que ese contenido no le aporta valor frente a lo que ya tiene indexado.
¿Sirve de algo solicitar indexación manualmente en Search Console?
Solo como aviso después de haber mejorado la página de forma sustancial. Solicitar indexación de la misma página sin cambios es inútil, Google ya la rastreó y decidió no indexarla, y volver a presentársela igual solo repite el rechazo. Primero mejora, enlaza o poda, y después solicita.