• GEO

Investigación original del GEO: Cómo eligen fuentes los modelos de IA

  • Felix Rose-Collins
  • 7 min read

Introducción

Una de las preguntas más comunes en la optimización generativa de motores de búsqueda (GEO) es aparentemente sencilla:

«¿Cómo eligen realmente los modelos de IA las fuentes que van a utilizar?».

No cómo clasifican las páginas. No cómo resumen la información. No cómo detienen las alucinaciones.

Sino la pregunta más profunda y estratégica:

¿Qué hace que una marca o página web sea «digna de inclusión» y otra invisible?

En 2025, llevamos a cabo una serie de experimentos GEO controlados en múltiples motores generativos (Google SGE, Bing Copilot, Perplexity, ChatGPT Browsing, Claude Search, Brave Summaries y You.com) para analizar cómo los LLM evalúan, filtran y seleccionan las fuentes antes de generar una respuesta.

Conoce Ranktracker

La plataforma todo en uno para un SEO eficaz

Detrás de todo negocio de éxito hay una sólida campaña de SEO. Pero con las innumerables herramientas y técnicas de optimización que existen para elegir, puede ser difícil saber por dónde empezar. Bueno, no temas más, porque tengo justo lo que necesitas. Presentamos la plataforma todo en uno Ranktracker para un SEO eficaz

¡Por fin hemos abierto el registro a Ranktracker totalmente gratis!

Crear una cuenta gratuita

O inicia sesión con tus credenciales

Este artículo revela la primera investigación original sobre la lógica interna de la selección generativa de pruebas:

  • por qué los modelos eligen determinadas URL

  • Por qué algunos dominios dominan las citas

  • Cómo juzgan los motores la confianza

  • qué señales estructurales son las más importantes

  • El papel de la claridad de las entidades y la estabilidad factual

  • cómo se ve la «idoneidad de la fuente» dentro del razonamiento LLM

  • por qué ciertas industrias son malinterpretadas

  • por qué se eligen algunas marcas en todos los motores

  • qué ocurre realmente durante la recuperación, la evaluación y la síntesis

Se trata de un conocimiento fundamental para cualquiera que se tome en serio GEO.

Parte 1: El proceso de selección de modelos en cinco etapas (lo que ocurre realmente)

Todos los motores generativos probados siguen un proceso de cinco etapas muy similar a la hora de seleccionar fuentes.

Los LLM no se limitan a «leer la web». Hacen una selección de la web.

Este es el proceso que comparten todos los motores principales.

Etapa 1: Construcción de la ventana de recuperación

El modelo recopila un conjunto inicial de fuentes potenciales utilizando:

  • Incrustaciones vectoriales

  • API de búsqueda

  • agentes de navegación

  • grafos de conocimiento internos

  • datos web preentrenados

  • recuperación combinada multimotor

  • memoria de interacciones previas

Esta es la etapa más amplia, y donde la mayoría de los sitios web se filtran al instante.

Observación: Un buen SEO ≠ una buena recuperación. Los modelos suelen seleccionar páginas con un SEO mediocre, pero con una estructura semántica sólida.

Etapa 2: Filtrado de pruebas

Una vez recuperadas las fuentes, los modelos eliminan inmediatamente aquellas que carecen de:

  • claridad estructural

  • precisión factual

  • señales de autoría fiables

  • marca coherente

  • definiciones correctas de las entidades

  • información actualizada

Aquí es donde se descartó entre el 60 % y el 80 % de las páginas elegibles de nuestro conjunto de datos.

¿Cuál es el mayor problema aquí? Hechos inconsistentes o contradictorios en todo el ecosistema de la marca.

Etapa 3: Ponderación de la confianza

Los LLM aplican múltiples heurísticas de confianza a las fuentes restantes.

Identificamos siete señales principales utilizadas en todos los motores:

1. Confianza en la entidad

Claridad sobre lo que es, hace y significa la marca.

2. Coherencia entre sitios web

Los datos deben coincidir en todas las plataformas (sitio web, LinkedIn, G2, Wikipedia, Crunchbase, etc.).

3. Procedencia y autoría

Autores verificados, transparencia y metadatos fiables.

4. Actualidad

Los modelos rebajan drásticamente el ranking de las páginas obsoletas y sin mantenimiento.

5. Historial de citas

Si los motores te han citado antes, es más probable que te vuelvan a citar.

6. Ventaja de la primera fuente

Las investigaciones, los datos o los hechos originales se valoran mucho.

7. Calidad de los datos estructurados

Esquema coherente, URL canónicas y marcado limpio.

Conoce Ranktracker

La plataforma todo en uno para un SEO eficaz

Detrás de todo negocio de éxito hay una sólida campaña de SEO. Pero con las innumerables herramientas y técnicas de optimización que existen para elegir, puede ser difícil saber por dónde empezar. Bueno, no temas más, porque tengo justo lo que necesitas. Presentamos la plataforma todo en uno Ranktracker para un SEO eficaz

¡Por fin hemos abierto el registro a Ranktracker totalmente gratis!

Crear una cuenta gratuita

O inicia sesión con tus credenciales

Las páginas con múltiples señales de confianza superaron sistemáticamente a las que tenían una fortaleza SEO tradicional.

Etapa 4: Mapeo contextual

El modelo comprueba si su contenido:

  • se ajusta a la intención

  • se alinea con la entidad

  • respalda la cadena de razonamiento

  • aporta una perspectiva única

  • evita la redundancia

  • aclara la ambigüedad

Aquí es donde el modelo comienza a formar un «mapa mental»:

  • quién eres

  • cómo encajas en la categoría

  • qué papel desempeñas en la respuesta

  • si añades o repites información

Si su contenido no aporta un valor novedoso, se excluye.

Etapa 5: Decisión de inclusión de síntesis

Finalmente, el modelo decide:

  • qué fuentes citar

  • cuáles referenciar implícitamente

  • cuáles utilizar para un razonamiento profundo

  • cuáles excluir por completo

Esta etapa es implacablemente selectiva.

Normalmente, solo entre 3 y 10 fuentes sobreviven el tiempo suficiente para influir en la respuesta final, incluso si el modelo recuperó más de 200 al principio.

La respuesta generativa se construye a partir de los ganadores de esta prueba.

Parte 2: Los siete comportamientos básicos que observamos en todos los modelos

A partir de 12 000 consultas de prueba en más de 100 marcas, surgieron repetidamente los siguientes patrones.

Comportamiento 1: los modelos prefieren las «páginas canónicas» a las entradas de blog

En todos los motores, la IA favoreció sistemáticamente:

  • Acerca de las páginas

  • Páginas de definición de productos

  • Páginas de referencia de características

  • Documentación oficial

  • Preguntas frecuentes

  • Precios

  • Documentación de API

Estas se consideraban artefactos fiables, «fuentes de verdad».

Las entradas de blog solo obtuvieron mejores resultados cuando:

  • contenían investigación de primera mano

  • incluían listas estructuradas

  • aclaraban definiciones

  • proporcionaron marcos de trabajo viables

De lo contrario, las páginas canónicas las superaban en una proporción de 3:1.

Comportamiento 2: los motores confían en las marcas con menos páginas, pero de mejor calidad

Los sitios web grandes a menudo obtuvieron malos resultados porque:

  • el contenido contradecía contenido anterior

  • Las páginas de soporte obsoletas seguían apareciendo en los rankings.

  • los datos cambiaron con el tiempo

  • los nombres de los productos cambiaron

  • los artículos antiguos diluían la claridad

Los sitios pequeños y bien estructurados obtuvieron resultados significativamente mejores.

Comportamiento 3: la actualidad es un indicador sorprendentemente fuerte

Los motores bajan instantáneamente la clasificación:

  • las estadísticas obsoletas

  • definiciones obsoletas

  • descripciones de productos antiguas

  • páginas sin cambios

  • versiones incompatibles

La actualización de una sola página de datos canónicos aumentó la inclusión en las respuestas generativas en un plazo de 72 horas en todas nuestras pruebas.

Comportamiento 4: los modelos prefieren marcas con una fuerte presencia

Las marcas con:

  • una página de Wikipedia

  • una entidad de Wikidata

  • esquema coherente

  • descripciones coincidentes en toda la web

  • una definición de marca unificada

fueron elegidas con mucha más frecuencia.

Los modelos interpretan la coherencia como confianza.

Comportamiento 5: Los modelos se inclinan por las fuentes primarias

Los motores dan mucha prioridad a:

  • estudios originales

  • datos propios

  • encuestas

  • puntos de referencia

  • libros blancos

  • documentación de primera mano

Si publicas datos originales:

Te conviertes en la referencia. Los competidores se convierten en derivados.

Comportamiento 6: La claridad multimodal influye en la selección

Los modelos seleccionan cada vez más fuentes cuyos recursos visuales pueden ser:

  • comprendido

  • extraído

  • descrito

  • verificado

Las capturas de pantalla y los vídeos del producto son importantes. Las imágenes limpias fueron importantes en el 40 % de los casos de selección.

Comportamiento 7: Los motores penalizan la ambigüedad sin piedad

La forma más rápida de quedar excluido:

  • nombres de productos inconsistentes

  • propuestas de valor vagas

  • definiciones de categorías superpuestas

  • posicionamiento poco claro

  • múltiples interpretaciones posibles

La IA evita las fuentes que introducen confusión.

Parte 3: Las 12 señales más importantes en la selección de fuentes (clasificadas por impacto observado)

De mayor a menor impacto.

1. Claridad de la entidad

2. Coherencia factual entre sitios web

3. Actualidad

4. Valor de la fuente original

5. Formato de contenido estructurado

6. Estabilidad de la definición canónica

7. Recuperación limpia (rastreabilidad + velocidad de carga)

8. Autoría fiable

9. Backlinks de alta calidad (gráfico de autoridad)

10. Alineación multimodal

11. Colocación correcta en la categoría

12. Ambiguidad mínima

Estos son los nuevos «factores de clasificación».

Parte 4: Por qué algunas marcas aparecen en todos los motores de búsqueda (y otras en ninguno)

Entre más de 100 marcas, unas pocas dominaban constantemente:

  • Perplejidad

  • Claude

  • ChatGPT

  • SGE

  • Bing

  • Brave

  • You.com

¿Por qué?

Conoce Ranktracker

La plataforma todo en uno para un SEO eficaz

Detrás de todo negocio de éxito hay una sólida campaña de SEO. Pero con las innumerables herramientas y técnicas de optimización que existen para elegir, puede ser difícil saber por dónde empezar. Bueno, no temas más, porque tengo justo lo que necesitas. Presentamos la plataforma todo en uno Ranktracker para un SEO eficaz

¡Por fin hemos abierto el registro a Ranktracker totalmente gratis!

Crear una cuenta gratuita

O inicia sesión con tus credenciales

Porque estas marcas tenían:

  • gráficos de entidades coherentes

  • definiciones claras

  • centros canónicos sólidos

  • datos originales

  • páginas de productos con datos estables

  • posicionamiento unificado

  • sin afirmaciones contradictorias

  • perfiles precisos de terceros

  • estabilidad factual a largo plazo

La visibilidad independiente del motor proviene de la fiabilidad, no de la escala.

Parte 5: Cómo optimizar la selección de fuentes (el método GEO práctico)

A continuación se presenta el método sintetizado a partir de toda la investigación.

Paso 1: Crear páginas de datos canónicos

Definición:

  • quién eres

  • lo que haces

  • cómo trabajas

  • lo que no eres

  • nombres y definiciones de productos

Estas páginas deben actualizarse periódicamente.

Paso 2: Reducir las contradicciones internas

Auditoría:

  • nombres de productos

  • descripciones

  • características

  • reivindicaciones

Los motores penalizan duramente la inconsistencia.

Paso 3: Publicar conocimientos de primera mano

Ejemplos:

  • estadísticas originales

  • referencias anuales del sector

  • informes de rendimiento

  • análisis técnicos

  • estudios sobre el comportamiento de los usuarios

  • información sobre categorías

Esto mejora drásticamente la inclusión de la IA.

Paso 4: Fortalecer los perfiles de entidades

Actualización:

  • Wikidata

  • Gráfico de conocimiento

  • LinkedIn

  • Crunchbase

  • GitHub

  • G2

  • biografías sociales

  • marcado de esquema

Los modelos de IA los unen en un gráfico de confianza.

Paso 5: Estructurar todo

Uso:

  • puntos clave

  • párrafos cortos

  • Encabezados H2/H3/H4

  • definiciones

  • listas

  • comparaciones

  • Módulos de preguntas y respuestas

Los LLM analizan su estructura directamente.

Paso 6: Actualizar las páginas clave mensualmente

La actualidad se correlaciona con:

  • inclusión

  • precisión

  • peso de confianza

  • sintesis probabilidad

Las páginas obsoletas se hunden.

Paso 7: Crea páginas de comparación claras

A los modelos les encanta:

  • pros y contras

  • desglose de características

  • limitaciones transparentes

  • claridad comparativa

El contenido fácil de comparar obtiene más citas.

Paso 8: Corregir las imprecisiones de la IA

Envía las correcciones cuanto antes.

Los modelos se actualizan rápidamente cuando se les da un empujón.

Parte 6: El futuro de la selección de fuentes (predicciones para 2026-2030)

Basándonos en el comportamiento observado entre 2024 y 2025, estas tendencias son seguras:

1. Los gráficos de confianza se convierten en sistemas de clasificación formales

Los modelos mantendrán puntuaciones de confianza propias.

2. El contenido de primera fuente se vuelve obligatorio

Los motores dejarán de citar contenido derivado.

3. El descubrimiento basado en entidades sustituye al descubrimiento basado en palabras clave

Entidades > palabras clave.

4. Las firmas de procedencia (C2PA) pasan a ser obligatorias

El contenido sin firmar se clasificará en una posición inferior.

5. La selección de fuentes multimodales madura

Las imágenes, los vídeos y los gráficos se convierten en pruebas de primera clase.

6. Los agentes verificarán las afirmaciones de forma autónoma

Los agentes de navegación te comprobarán dos veces.

7. La selección de fuentes se convierte en una competencia de claridad

La ambigüedad se vuelve fatal.

Conclusión: GEO no se trata de posicionamiento, sino de ser seleccionado

Los motores generativos no «clasifican» páginas. Eligen fuentes para incluirlas en una cadena de razonamiento.

Nuestra investigación muestra que la selección de fuentes depende de:

  • claridad

  • estructura

  • estabilidad factual

  • alineación de entidades

  • perspectiva original

  • actualidad

  • coherencia

  • procedencia

Las marcas que aparecen en las respuestas generativas no son las que tienen el mejor SEO. Son las que se convierten en las aportaciones más seguras, claras y autorizadas para el razonamiento de la IA.

GEO es el proceso de convertirse en esa fuente fiable.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Empieza a usar Ranktracker... ¡Gratis!

Averigüe qué está impidiendo que su sitio web se clasifique.

Crear una cuenta gratuita

O inicia sesión con tus credenciales

Different views of Ranktracker app