Esialgne GEO uuring: Kuidas AI mudelid valivad allikaid

Sissejuhatus

Üks levinumaid küsimusi generatiivse mootori optimeerimise (GEO) valdkonnas on petlikult lihtne:

„Kuidas AI-mudelid tegelikult valivad, milliseid allikaid kasutada?”

Mitte kuidas nad lehekülgi järjestavad. Mitte kuidas nad teavet kokku võtavad. Mitte kuidas nad hallutsinatsioone peatavad.

Kui sügavam ja strateegilisem küsimus:

Mis teeb ühe brändi või veebilehe „lisamisväärseks” ja teise nähtamatuks?

2025. aastal viisime läbi rea kontrollitud GEO-eksperimente mitmes generatiivses mootoris – Google SGE, Bing Copilot, Perplexity, ChatGPT Browsing, Claude Search, Brave Summaries ja You.com –, et analüüsida , kuidas LLM-id hindavad, filtreerivad ja valivad allikaid enne vastuse genereerimist.

Käesolev artikkel tutvustab esimest originaalset uurimust generatiivse tõendite valiku sisemise loogika kohta:

miks mudelid valivad teatud URL-id
miks mõned domeenid domineerivad tsitaatides
kuidas mootorid hindavad usaldusväärsust
millised struktuurilised signaalid on kõige olulisemad
entiteedi selguse ja faktilise stabiilsuse roll
kuidas „allika sobivus” LLM-i mõtlemises välja näeb
miks teatud tööstusharud valesti tõlgendatakse
miks mõned brändid valitakse kõikides mootorites
mis tegelikult toimub otsingu, hindamise ja sünteesi käigus

See on põhiteadmine kõigile, kes GEO-d tõsiselt võtavad.

1. osa: Viieastmeline mudeli valiku protsess (mis tegelikult toimub)

Kõik testitud generatiivsed mootorid järgivad allikate valimisel märkimisväärselt sarnast viieastmelist protsessi.

LLM-id ei „loe lihtsalt veebi”. Nad sorteerivad veebi.

Siin on protsess, mida kõik suuremad mootorid kasutavad.

1. etapp: otsinguakna loomine

Mudel kogub esialgse potentsiaalsete allikate kogumi, kasutades:

vektori sisseviimised
otsingu API-d
brauseriagendid
sisemised teadmiste graafikud
eelnevalt koolitatud veebiandmed
mitme mootoriga segatud otsing
eelmiste interaktsioonide mälu

See on kõige laiem etapp, kus enamik veebisaite filtreeritakse kohe välja.

Vaatlus: Tugev SEO ≠ tugev otsing. Mudelid valivad sageli lehekülgi, mille SEO on keskpärane, kuid semantiline struktuur tugev.

2. etapp: tõendite filtreerimine

Kui allikad on leitud, kõrvaldavad mudelid kohe need, millel puudub:

struktuuriline selgus
faktiline täpsus
usaldusväärsed autorluse märgid
järjepidev bränding
õiged mõistete määratlused
ajakohane teave

Siin kõrvaldati meie andmekogust ~60–80% sobivatest lehtedest.

Mis on siin suurim probleem? Brändi enda ökosüsteemis esinevad ebajärjekindlad või vastuolulised faktid.

3. etapp: usaldusväärsuse kaalumine

LLM-id rakendavad järelejäänud allikatele mitmeid usaldusväärsuse heuristikaid.

Me tuvastasime seitse peamist signaali, mida mootorites kasutatakse:

1. Entiteedi usaldusväärsus

Selgus selles, mis bränd on, mida ta teeb ja mida ta tähendab.

2. Veebisisene järjepidevus

Faktid peavad olema ühtsed kõikidel platvormidel (veebisait, LinkedIn, G2, Wikipedia, Crunchbase jne).

3. Päritolu ja autorlus

Kinnitatud autorid, läbipaistvus ja usaldusväärsed metaandmed.

4. Ajakohasus

Mudelid alandavad oluliselt vananenud ja hooldamata lehtede reitingut.

5. Tsitaatide ajalugu

Kui otsingumootorid on teid varem tsiteerinud, on tõenäolisem, et nad tsiteerivad teid uuesti.

6. Esmase allika eelis

Eelistatakse originaaluuringuid, andmeid või esmaseid fakte.

7. Struktureeritud andmete kvaliteet

Järjepidev skeem, kanonilised URL-id ja puhas märgistus.

Leheküljed, millel on mitu usaldusväärsuse signaali, ületasid järjekindlalt traditsioonilise SEO tugevusega lehekülgi.

4. etapp: kontekstuaalne kaardistamine

Mudel kontrollib, kas teie sisu:

vastab eesmärgile
vastab üksusele
toetab põhjenduste ahelat
annab ainulaadse ülevaate
väldib dubleerimist
selgitab ebaselgust

Siin hakkab mudel moodustama „mentaalset kaarti”:

kes sa oled
kuidas sa kategooriasse sobid
millist rolli sa vastuses mängid
kas sa lisad või kordad teavet

Kui teie sisu ei lisa uut väärtust, jäetakse see välja.

5. etapp: sünteesi kaasamise otsus

Lõpuks teeb mudel otsuse:

milliseid allikaid tsiteerida
millistele viidata kaudselt
milliseid kasutada sügavama põhjenduse jaoks
milliseid täielikult välja jätta

See etapp on halastamatult valikuline.

Tavaliselt jääb alles vaid 3–10 allikat, mis mõjutavad lõplikku vastust – isegi kui mudel leidis alguses üle 200 allika.

Genereeritud vastus koostatakse selle katsumuse võitjate põhjal.

2. osa: Seitse põhilist käitumist, mida me mudelites täheldasime

12 000 testpäringust enam kui 100 brändi kohta ilmnesid järgmised korduvad mustrid.

Käitumine 1: mudelid eelistavad blogipostitustele „kanonilisi lehekülgi”

Kõikides mootorites eelistas AI järjekindlalt:

Leheküljed
Toote määratluse leheküljed
Funktsioonide viited
Ametlik dokumentatsioon
Korduma kippuvad küsimused
Hinnad
API dokumendid

Neid peeti usaldusväärseteks „tõe allikateks”.

Blogipostitused olid paremad ainult juhul, kui:

need sisaldasid esmaseid uurimistulemusi
need sisaldasid struktureeritud loendeid
need selgitasid mõisteid
nad pakkusid rakendatavaid raamistikke

Muul juhul ületasid kanoonilised leheküljed neid 3:1.

Käitumine 2: Otsingumootorid usaldavad brände, millel on vähem, kuid paremaid lehti

Suured veebisaidid jäid sageli tulemustes alla, sest:

sisu oli vastuolus vanema sisuga
vananenud tugilehed olid endiselt reastatud
faktid muutusid aja jooksul
tootenimed muutusid
vanad artiklid vähendasid selgust

Väikesed, hästi struktureeritud saidid saavutasid oluliselt paremaid tulemusi.

Käitumine 3: värskus on üllatavalt tugev näitaja

Mootorid alandavad koheselt reitingut:

vananenud statistika
vananenud määratlused
vanad tootekirjeldused
muutumatud leheküljed
versioonide mittevastavus

Ühe kanonilise faktilehekülje uuendamine suurendas meie testides 72 tunni jooksul generatiivsetesse vastustesse kaasamist.

Käitumine 4: Mudelid eelistavad brände, millel on tugev entiteedi jalajälg

Brändid, millel on:

Wikipedia lehekülg
Wikidata entiteet
ühtne skeem
veebisisesed vastavused
ühtne brändi määratlus

valiti palju sagedamini.

Mudelid tõlgendavad järjepidevust = usaldusväärsust.

Käitumine 5: Mudelid eelistavad esmaseid allikaid

Mootorid eelistavad tugevalt:

originaaluuringud
omandatud andmed
uuringud
võrdlusalused
valge raamatud
esmane dokumentatsioon

Kui avaldate originaalandmeid:

Saate viiteallikaks. Konkurendid muutuvad tuletisteks.

Käitumine 6: Mitmemodaalne selgus mõjutab valikut

Mudelid valivad üha enam allikaid, mille visuaalsed vahendid võivad olla:

mõistetud
väljavõtted
kirjeldatud
kontrollitud

Toote ekraanipildid ja videod on olulised. Selged visuaalid olid olulised 40% valikujuhtudest.

Käitumine 7: Otsingumootorid karistavad halastamatult ebamäärasust

Kiireim viis väljajäämiseks:

ebajärjekindlad tootenimed
ebamäärane väärtuspakkumine
kattuvad kategooriate määratlused
ebaselge positsioneerimine
mitmed võimalikud tõlgendused

AI vältib allikaid, mis tekitavad segadust.

3. osa: 12 kõige olulisemat signaali allika valimisel (järjestatud täheldatud mõju järgi)

Kõrgeimast mõjust madalaimani.

1. Entiteedi selgus

2. Veebisisesed faktilised vastavused

3. Ajakohasus

4. Esmase allika väärtus

5. Struktureeritud sisu vorming

6. Kanonilise määratluse stabiilsus

7. Puhas otsing (indekseeritavus + laadimiskiirus)

8. Usaldusväärne autorlus

9. Kvaliteetsed tagasilinkid (autoriteetsusgraafik)

10. Multimodaalne ühtlustamine

11. Õige kategooria paigutus

12. Minimaalne mitmetähenduslikkus

Need on uued „reitingutegurid”.

4. osa: Miks mõned brändid ilmuvad kõikides otsingumootorites (ja teised üheski)

Üle 100 brändi seas domineerisid järjekindlalt mõned:

Segadus
Claude
ChatGPT
SGE
Bing
Brave
You.com

Miks?

Sest neil brändidel oli:

järjepidevad entiteedi graafikud
kristallselged määratlused
tugevad kanoonilised sõlmpunktid
originaalandmed
faktidele tuginevad tootelehed
ühtne positsioneerimine
ei ole vastuolulisi väiteid
täpsed kolmandate osapoolte profiilid
pikaajaline faktiline stabiilsus

Otsingumootorist sõltumatu nähtavus tuleneb usaldusväärsusest, mitte mastaabist.

5. osa: Kuidas optimeerida allika valikut (praktiline GEO-meetod)

Allpool on esitatud kõikide uuringute tulemusel välja töötatud meetod.

Samm 1: Loo kanonilised faktilehed

Määratle:

kes te olete
mida sa teed
kuidas sa töötad
mida sa ei ole
tootenimed ja määratlused

Neid lehti tuleb regulaarselt uuendada.

2. samm: vähendage sisemisi vasturääkivusi

Audit:

tootenimed
kirjeldused
omadused
väited

Otsingumootorid karistavad järjekindlusetust karmilt.

3. samm: avaldage esmase allika teadmised

Näited:

originaalstatistika
iga-aastased tööstusharu võrdlusandmed
tulemusaruanded
tehnilised analüüsid
kasutajate käitumise uuringud
kategooria ülevaated

See parandab oluliselt AI kaasatust.

4. samm: tugevda entiteetide profiile

Uuendus:

Wikidata
Teadmiste graafik
LinkedIn
Crunchbase
GitHub
G2
sotsiaalne elulugu
skeemimärgistus

AI-mudelid ühendavad need usaldusgraafikuks.

5. samm: struktureerige kõik

Kasutamine:

loetelupunktid
lühikesed lõigud
H2/H3/H4 pealkirjad
mõisted
nimekirjad
võrdlused
küsimuste ja vastuste moodulid

LLM-id analüüsivad teie struktuuri otse.

6. samm: Värskenda olulised leheküljed kord kuus

Ajakohasus korreleerub järgmisega:

kaasamine
täpsus
usaldusväärsus kaal
süntees tõenäosus

Vananenud leheküljed kaovad.

7. samm: looge selged võrdlusleheküljed

Mudelid armastavad:

plussid ja miinused
funktsioonide jaotused
läbipaistvad piirangud
kõrvuti selgus

Võrdluseks sobiv sisu teenib rohkem viiteid.

8. samm: paranda AI ebatäpsused

Esitage parandused varakult.

Mudelid uuenevad kiiresti, kui neid veidi tõugata.

6. osa: Allikavaliku tulevik (prognoosid aastateks 2026–2030)

2024–2025. aastal täheldatud käitumise põhjal on järgmised suundumused kindlad:

1. Usaldusgraafikud muutuvad ametlikeks reitingusüsteemideks

Mudelid säilitavad oma usaldusväärsuse hinded.

2. Esmane allikas muutub kohustuslikuks

Otsingumootorid lõpetavad tuletatud sisu tsiteerimise.

3. Entiteedipõhine otsing asendab märksõnapõhise otsingu

Entiteedid > märksõnad.

4. Provenance signatures (C2PA) muutuvad kohustuslikuks

Allkirjastamata sisu reiting langeb.

5. Mitmemodaalne allikavalik muutub küpsemaks

Pildid, videod ja graafikud muutuvad esmatähtsaks tõendusmaterjaliks.

6. Agendid kontrollivad väiteid iseseisvalt

Sirvimise agendid kontrollivad teid veel kord.

7. Allikate valik muutub selguse võistluseks

Ebaselgus muutub saatuslikuks.

Järeldus: GEO ei tegele reitinguga – see tegeleb valikuga

Generatiivsed mootorid ei „reastata” lehekülgi. Nad valivad allikad, mis lisatakse põhjenduste ahelasse.

Meie uuringud näitavad, et allikate valik sõltub järgmistest teguritest:

selgus
struktuur
faktiline stabiilsus
entiteedi ühtlustamine
originaalne arusaam
ajakohasus
järjepidevus
päritolu

Generatiivsetes vastustes esinevad brändid ei ole need, millel on parim SEO. Need on need, mis muudavad end AI põhjenduste jaoks kõige turvalisemaks, selgemaks ja autoriteetsemaks sisendiks.

GEO on protsess, mille käigus muututakse usaldusväärseks sisendiks.