Origineel GEO-onderzoek: Hoe AI-modellen bronnen kiezen

Intro

Een van de meest gestelde vragen in Generative Engine Optimization (GEO) is bedrieglijk eenvoudig:

"Hoe kiezen AI-modellen eigenlijk welke bronnen ze gebruiken?"

Niet hoe ze pagina's rangschikken. Niet hoe ze informatie samenvatten. Niet hoe ze hallucinaties tegengaan.

Maar de diepere, meer strategische vraag:

Wat maakt het ene merk of de ene webpagina "waardig om opgenomen te worden" en het andere onzichtbaar?

In 2025 hebben we een reeks gecontroleerde GEO-experimenten uitgevoerd op meerdere generatieve engines – Google SGE, Bing Copilot, Perplexity, ChatGPT Browsing, Claude Search, Brave Summaries en You.com – om te analyseren hoe LLM's bronnen evalueren, filteren en selecteren voordat ze een antwoord genereren.

Dit artikel onthult het eerste originele onderzoek naar de interne logica van generatieve bewijsselectie:

waarom modellen bepaalde URL's kiezen
waarom sommige domeinen citaten domineren
hoe zoekmachines vertrouwen beoordelen
welke structurele signalen het belangrijkst zijn
de rol van entiteitsduidelijkheid en feitelijke stabiliteit
hoe 'bronfitness' eruitziet binnen LLM-redeneringen
waarom bepaalde sectoren verkeerd worden geïnterpreteerd
waarom sommige merken in alle zoekmachines worden gekozen
wat er daadwerkelijk gebeurt tijdens het ophalen, evalueren en synthetiseren

Dit is fundamentele kennis voor iedereen die serieus bezig is met GEO.

Deel 1: De vijfstappenmodel voor selectie (wat er daadwerkelijk gebeurt)

Elke geteste generatieve engine volgt een opmerkelijk vergelijkbare vijfstappenpijplijn bij het selecteren van bronnen.

LLM's 'lezen' niet simpelweg het web. Ze triëren het web.

Dit is de pijplijn die alle grote engines gemeen hebben.

Fase 1: Opbouw van het zoekvenster

Het model verzamelt een eerste reeks potentiële bronnen met behulp van:

vector-embeddings
zoek-API's
browsing agents
interne kennisgrafieken
vooraf getrainde webgegevens
multi-engine blended retrieval
geheugen van eerdere interacties

Dit is de breedste fase, waarin de meeste websites direct worden uitgefilterd.

Observatie: Sterke SEO ≠ sterke opvraging. Modellen selecteren vaak pagina's met middelmatige SEO maar een sterke semantische structuur.

Fase 2: Filteren van bewijs

Zodra bronnen zijn opgehaald, elimineren modellen onmiddellijk de bronnen die niet voldoen:

structurele duidelijkheid
feitelijke nauwkeurigheid
betrouwbare auteurschapsignalen
consistente branding
correcte entiteitsdefinities
actuele informatie

Hier werd ~60-80% van de in aanmerking komende pagina's in onze dataset verwijderd.

De grootste boosdoener hier? Inconsistente of tegenstrijdige feiten binnen het eigen ecosysteem van het merk.

Fase 3: Vertrouwensweging

LLM's passen meerdere vertrouwensheuristieken toe op de resterende bronnen.

We hebben zeven primaire signalen geïdentificeerd die in alle engines worden gebruikt:

1. Entiteitstrust

Duidelijkheid over wat het merk is, doet en betekent.

2. Consistentie op het web

Feiten moeten op alle platforms (website, LinkedIn, G2, Wikipedia, Crunchbase, enz.) overeenkomen.

3. Herkomst en auteurschap

Geverifieerde auteurs, transparantie en betrouwbare metadata.

4. Actualiteit

Modellen geven verouderde, niet-onderhouden pagina's een aanzienlijk lagere ranking.

5. Citatiegeschiedenis

Als zoekmachines u eerder hebben geciteerd, is de kans groter dat ze dat opnieuw doen.

6. Voordeel van de eerste bron

Origineel onderzoek, gegevens of primaire feiten worden sterk geprefereerd.

7. Kwaliteit van gestructureerde gegevens

Consistent schema, canonieke URL's en duidelijke markup.

Pagina's met meerdere vertrouwenssignalen presteerden consequent beter dan pagina's met traditionele SEO-kracht.

Fase 4: Contextuele mapping

Het model controleert of uw inhoud:

past bij de intentie
sluit aan bij de entiteit
ondersteunt de redenering
draagt bij aan unieke inzichten
vermijdt redundantie
verduidelijkt ambiguïteit

Hier begint het model een 'mentale kaart' te vormen:

wie je bent
hoe je in de categorie past
welke rol je speelt in het antwoord
of je informatie toevoegt of herhaalt

Als uw content geen nieuwe waarde toevoegt, wordt deze uitgesloten.

Fase 5: Beslissing over opname in de synthese

Ten slotte neemt het model een beslissing:

welke bronnen je moet citeren
welke je impliciet moet verwijzen
welke je gebruikt voor diepgaande redeneringen
welke je volledig uitsluit

Deze fase is meedogenloos selectief.

Slechts 3 tot 10 bronnen blijven doorgaans lang genoeg bestaan om het uiteindelijke antwoord te beïnvloeden, zelfs als het model in het begin meer dan 200 bronnen heeft gevonden.

Het generatieve antwoord wordt samengesteld uit de winnaars van deze selectieprocedure.

Deel 2: De zeven kerngedragingen die we in alle modellen hebben waargenomen

Uit 12.000 testzoekopdrachten voor meer dan 100 merken kwamen de volgende patronen herhaaldelijk naar voren.

Gedrag 1: Modellen geven de voorkeur aan 'canonieke pagina's' boven blogposts

In elke engine gaf AI consequent de voorkeur aan:

Over pagina's
Productdefinitiepagina's
Pagina's met functieverwijzingen
Officiële documentatie
Veelgestelde vragen
Prijzen
API-documentatie

Deze werden gezien als betrouwbare 'bronnen van waarheid'.

Blogposts presteerden alleen beter wanneer:

ze bevatten onderzoek uit de eerste hand
ze bevatten gestructureerde lijsten
ze verduidelijkten definities
ze boden bruikbare kaders

Anders presteerden canonieke pagina's 3:1 beter.

Gedrag 2: Zoekmachines vertrouwen merken met minder, maar betere pagina's

Grote websites presteerden vaak minder goed omdat:

de inhoud was in tegenspraak met oudere inhoud
verouderde ondersteuningspagina's stonden nog steeds hoog in de ranglijst
feiten veranderden in de loop van de tijd
productnamen veranderden
oude artikelen verminderden de duidelijkheid

Kleine, goed gestructureerde sites presteerden aanzienlijk beter.

Gedrag 3: Actualiteit is een verrassend sterke indicator

Zoekmachines verlagen onmiddellijk de ranking:

verouderde statistieken
verouderde definities
oude productbeschrijvingen
ongewijzigde pagina's
versieconflicten

Het bijwerken van één enkele canonieke feitenpagina zorgde in onze tests binnen 72 uur voor een toename van de opname in generatieve antwoorden.

Gedrag 4: Modellen geven de voorkeur aan merken met een sterke entiteitsvoetafdruk

Merken met:

een Wikipedia-pagina
een Wikidata-entiteit
consistent schema
overeenkomende beschrijvingen op verschillende websites
een uniforme merkdefinitie

werden veel vaker gekozen.

Modellen interpreteren consistentie als vertrouwen.

Gedrag 5: Modellen zijn bevooroordeeld ten gunste van primaire bronnen

Zoekmachines geven sterk de voorkeur aan:

originele studies
eigen gegevens
enquêtes
benchmarks
whitepapers
documentatie uit eerste hand

Als u originele gegevens publiceert:

Wordt u de referentie. Concurrenten worden afgeleid.

Gedrag 6: Multimodale duidelijkheid beïnvloedt de selectie

Modellen selecteren steeds vaker bronnen waarvan de visuele middelen:

begrepen
geëxtraheerd
beschreven
geverifieerd

Productschermafbeeldingen en video's zijn belangrijk. Duidelijke beelden waren in 40% van de selectiegevallen van belang.

Gedrag 7: Engines straffen ambiguïteit genadeloos

De snelste manier om uitgesloten te worden:

inconsistente productnamen
vage waardeproposities
overlappende categoriedefinities
onduidelijke positionering
meerdere mogelijke interpretaties

AI vermijdt bronnen die verwarring veroorzaken.

Deel 3: De 12 belangrijkste signalen bij de selectie van bronnen (gerangschikt op basis van waargenomen impact)

Van hoogste impact naar laagste impact.

1. Duidelijkheid van de entiteit

2. Feitelijke consistentie op het hele web

3. Actualiteit

4. Waarde van de primaire bron

5. Gestructureerde inhoudsopmaak

6. Stabiliteit van canonieke definities

7. Schone opvraging (crawlbaarheid + laadsnelheid)

8. Betrouwbaar auteurschap

9. Backlinks van hoge kwaliteit (autoriteitsgrafiek)

10. Multimodale afstemming

11. Correcte categorieplaatsing

12. Minimale ambiguïteit

Dit zijn de nieuwe 'rankingfactoren'.

Deel 4: Waarom sommige merken in elke zoekmachine verschijnen (en andere in geen enkele)

Van de meer dan 100 merken waren er een paar die consequent domineerden:

Verwarring
Claude
ChatGPT
SGE
Bing
Brave
You.com

Waarom?

Omdat deze merken beschikten over:

consistente entiteitsgrafieken
glasheldere definities
sterke canonieke hubs
originele gegevens
feitelijke productpagina's
uniforme positionering
geen tegenstrijdige claims
nauwkeurige profielen van derden
langdurige feitelijke stabiliteit

Zichtbaarheid in alle zoekmachines komt voort uit betrouwbaarheid, niet uit schaalgrootte.

Deel 5: Hoe u kunt optimaliseren voor bronselectie (de praktische GEO-methode)

Hieronder vindt u de methode die uit al het onderzoek naar voren is gekomen.

Stap 1: Maak canonieke feitenpagina's

Definitie:

wie je bent
wat je doet
hoe je werkt
wat je niet bent
productnamen en definities

Deze pagina's moeten regelmatig worden bijgewerkt.

Stap 2: Verminder interne tegenstrijdigheden

Controle:

productnamen
beschrijvingen
kenmerken
claims

Zoekmachines straffen inconsistenties streng af.

Stap 3: Publiceer kennis uit de eerste bron

Voorbeelden:

originele statistieken
jaarlijkse benchmarks voor de sector
prestatierapporten
technische analyses
onderzoeken naar gebruikersgedrag
categorie-inzichten

Dit verbetert de AI-inclusie aanzienlijk.

Stap 4: Versterk entiteitsprofielen

Update:

Wikidata
Kennisgrafiek
LinkedIn
Crunchbase
GitHub
G2
sociale biografieën
schema-markup

AI-modellen voegen deze samen tot een vertrouwensgrafiek.

Stap 5: Alles structureren

Gebruik:

opsommingstekens
korte alinea's
H2/H3/H4-koppen
definities
lijsten
vergelijkingen
Vraag-en-antwoordmodules

LLM's analyseren uw structuur direct.

Stap 6: Vernieuw belangrijke pagina's maandelijks

Actualiteit hangt samen met:

opname
nauwkeurigheid
vertrouwensgewicht
synthese waarschijnlijkheid

Verouderde pagina's zakken weg.

Stap 7: Bouw duidelijke vergelijkingspagina's

Modellen houden van:

voor- en nadelen
functie-uitsplitsingen
transparante beperkingen
duidelijkheid naast elkaar

Vergelijkingsvriendelijke content levert meer citaten op.

Stap 8: Corrigeer onnauwkeurigheden in AI

Dien correcties vroeg in.

Modellen worden snel bijgewerkt wanneer ze worden aangestuurd.

Deel 6: De toekomst van bronkeuze (voorspellingen voor 2026–2030)

Op basis van het gedrag dat in 2024–2025 is waargenomen, zijn deze trends zeker:

1. Vertrouwensgrafieken worden formele rangschikkingssystemen

Modellen zullen eigen vertrouwensscores bijhouden.

2. Eerste bronnen worden verplicht

Zoekmachines zullen stoppen met het citeren van afgeleide content.

3. Entiteitsgestuurde zoekresultaten vervangen zoekresultaten op basis van trefwoorden

Entiteiten > trefwoorden.

4. Herkomstsignaturen (C2PA) worden verplicht

Niet-ondertekende content wordt lager gerangschikt.

5. Multimodale bronselectie wordt volwassen

Afbeeldingen, video's en grafieken worden eersteklas bewijs.

6. Agenten zullen claims autonoom verifiëren

Browsing-agenten zullen je dubbel controleren.

7. Bronnenkeuze wordt een wedstrijd in duidelijkheid

Dubbelzinnigheid wordt fataal.

Conclusie: GEO gaat niet over rangschikking, maar over geselecteerd worden

Generatieve engines geven geen 'rangschikking' van pagina's. Ze kiezen bronnen om op te nemen in een redeneringsketen.

Ons onderzoek toont aan dat de selectie van bronnen afhangt van:

duidelijkheid
structuur
feitelijke stabiliteit
entiteit afstemming
origineel inzicht
recentheid
consistentie
herkomst

De merken die in generatieve antwoorden verschijnen, zijn niet de merken met de beste SEO. Het zijn de merken die zichzelf tot de veiligste, duidelijkste en meest gezaghebbende input voor AI-redeneringen maken.

GEO is het proces om die betrouwbare input te worden.