Originalūs GEO tyrimai: Kaip dirbtinio intelekto modeliai renkasi šaltinius

Įvadas

Vienas iš dažniausiai užduodamų klausimų generatyvinės variklio optimizacijos (GEO) srityje yra apgaulingai paprastas:

„Kaip AI modeliai iš tikrųjų pasirenka, kuriuos šaltinius naudoti?“

Ne kaip jie reitinguoja puslapius. Ne kaip jie apibendrina informaciją. Ne kaip jie sustabdo haliucinacijas.

Bet gilesnis, strategiškesnis klausimas:

Kas daro vieną prekės ženklą ar tinklalapį „vertą įtraukimo“, o kitą – nematomą?

2025 m. mes atlikome seriją kontroliuojamų GEO eksperimentų su keliais generatyviniais varikliais – „Google SGE“, „Bing Copilot“, „Perplexity“, „ChatGPT Browsing“, „Claude Search“, „Brave Summaries“ ir „You.com“ – siekdami išanalizuoti , kaip LLM vertina, filtruoja ir atrenka šaltinius prieš generuodami atsakymą.

Šiame straipsnyje pateikiami pirmieji originalūs generatyvinės įrodymų atrankos vidinės logikos tyrimai:

kodėl modeliai pasirenka tam tikrus URL
kodėl kai kurie domenai dominuoja citatose
kaip varikliai vertina patikimumą
kurie struktūriniai signalai yra svarbiausi
entiteto aiškumo ir faktinio stabilumo vaidmuo
kaip „šaltinio tinkamumas“ atrodo LLM mąstyme
kodėl tam tikros pramonės šakos yra klaidingai interpretuojamos
kodėl kai kurios prekės ženklai pasirenkami visose paieškos sistemose
kas iš tiesų vyksta paieškos, vertinimo ir sintezės metu

Tai yra pagrindinės žinios visiems, kurie rimtai domisi GEO.

1 dalis: Penkių etapų modelių atrankos procesas (kas iš tiesų vyksta)

Kiekvienas išbandytas generatyvinis variklis, atrenkant šaltinius, laikosi labai panašaus penkių etapų proceso.

LLM ne tik „skaito internetą“. Jie atlieka interneto triažą.

Čia pateikiamas procesas, kurį naudoja visi pagrindiniai varikliai.

1 etapas: paieškos lango kūrimas

Modelis surenka pradinį potencialių šaltinių rinkinį naudodamas:

vektorių įterpimai
paieškos API
naršymo agentai
vidiniai žinių grafikai
iš anksto apmokyti žiniatinklio duomenys
daugiakryptis paieškos derinys
ankstesnių sąveikų atmintis

Tai plačiausias etapas, kurio metu dauguma tinklalapių yra iškart atmetami.

Pastaba: Stiprus SEO ≠ stiprus paieškos rezultatas. Modeliai dažnai atrenka puslapius su vidutiniu SEO, bet stipria semantine struktūra.

2 etapas: įrodymų filtravimas

Kai šaltiniai surenkami, modeliai iš karto pašalina tuos, kuriems trūksta:

struktūrinis aiškumas
faktų tikslumas
patikimų autorių signalai
nuoseklusis prekės ženklo kūrimas
teisingi subjektų apibrėžimai
aktuali informacija

Čia mūsų duomenų rinkinyje buvo atmesta ~60–80 % tinkamų puslapių.

Kas čia yra didžiausias žudikas? Nesuderinami arba prieštaringi faktai visoje prekės ženklo ekosistemoje.

3 etapas: Pasitikėjimo svorio nustatymas

LLM taiko kelis patikimumo euristikos metodus likusiems šaltiniams.

Mes nustatėme septynis pagrindinius signalus, naudojamus visose sistemose:

1. Entiteto pasitikėjimas

Aiškumas, kas yra prekės ženklas, ką jis daro ir ką reiškia.

2. Nuoseklumas visame internete

Faktai turi sutapti visose platformose (svetainėje, „LinkedIn“, „G2“, „Wikipedia“, „Crunchbase“ ir kt.).

3. Kilmė ir autorystė

Patikrinti autoriai, skaidrumas ir patikimi metaduomenys.

4. Aktualumas

Modeliai smarkiai sumažina pasenusių, neprižiūrimų puslapių reitingą.

5. Citavimo istorija

Jei paieškos sistemos jau yra citavusios jus anksčiau, tikėtina, kad citatų skaičius padidės.

6. Pirminio šaltinio pranašumas

Pirminiai tyrimai, duomenys ar pirminiai faktai yra labai vertinami.

7. Struktūrizuotų duomenų kokybė

Nuosekli schema, kanoniniai URL ir švarus žymėjimas.

Puslapiai su keliais patikimumo ženklais nuosekliai pranoko tuos, kurie buvo optimizuoti pagal tradicinius SEO principus.

4 etapas: kontekstinis žemėlapis

Modelis patikrina, ar jūsų turinys:

atitinka tikslą
atitinka subjektą
remia argumentacijos grandinę
suteikia unikalią įžvalgą
vengia pasikartojimų
paaiškina dviprasmiškumą

Čia modelis pradeda formuoti „mentalinį žemėlapį“:

kas jūs esate
kaip jūs atitinkate kategoriją
koks yra jūsų vaidmuo atsakyme
ar jūs papildote ar kartojate informaciją

Jei jūsų turinys neprideda naujos vertės, jis yra pašalinamas.

5 etapas: sintezės įtraukimo sprendimas

Galiausiai modelis priima sprendimą:

kuriuos šaltinius cituoti
kuriuos nurodyti netiesiogiai
kuriuos naudoti giluminiam mąstymui
kuriuos visiškai atmesti

Šis etapas yra negailestingai selektyvus.

Paprastai tik 3–10 šaltinių išlieka pakankamai ilgai, kad galėtų paveikti galutinį atsakymą, net jei modelis iš pradžių surinko daugiau nei 200.

Generatyvus atsakymas sudaromas iš šio išbandymo nugalėtojų.

2 dalis: Septyni pagrindiniai elgesio modeliai, kuriuos stebėjome visose modeliuose

Iš 12 000 bandomųjų užklausų, susijusių su daugiau nei 100 prekių ženklų, pakartotinai išryškėjo šie modeliai.

Elgesys 1: modeliai teikia pirmenybę „kanoninėms puslapiams“ prieš tinklaraščio įrašus

Visose paieškos sistemose AI nuosekliai teikė pirmenybę:

Apie puslapius
Produktų apibrėžimų puslapiai
Funkcijų nuorodų puslapiai
Oficialūs dokumentai
Dažnai užduodami klausimai
Kainos
API dokumentai

Tai buvo laikoma patikimais „tiesos šaltinio“ artefaktais.

Tinklaraščio įrašai pasirodė geriau tik tada, kai:

juose buvo pateikti pirminiai tyrimai
juose buvo pateikti struktūrizuoti sąrašai
jie paaiškino apibrėžimus
jie pateikė praktinius metodus

Kitais atvejais kanoninės puslapiai juos pranoko 3:1.

Elgesys 2: Paieškos sistemos pasitiki prekių ženklais, turinčiais mažiau, bet geresnių puslapių

Didelės svetainės dažnai pasiekdavo prastesnius rezultatus, nes:

turinys prieštaravo senesniam turiniui
pasenusios pagalbos puslapiai vis dar buvo reitinguojami
faktai laikui bėgant pasikeitė
pasikeitė produktų pavadinimai
senieji straipsniai sumažino aiškumą

Mažos, gerai struktūrizuotos svetainės pasiekė žymiai geresnius rezultatus.

Elgsena 3: naujumas yra stebėtinai stiprus rodiklis

Paieškos sistemos iš karto sumažina reitingą:

pasenusi statistika
pasenę apibrėžimai
seni produktų aprašymai
nepakeistos puslapiai
versijų neatitikimai

Atnaujinus vieną kanoninę faktų puslapį, per 72 valandas mūsų testuose padidėjo įtraukimas į generatyvinius atsakymus.

Elgsena 4: modeliai teikia pirmenybę prekių ženklams, turintiems stiprų įtakos pėdsaką

Prekės ženklai su:

Vikipedijos puslapis
Wikidata entitetas
nuosekli schema
atitinkantys aprašymai visame tinkle
vieninga prekės ženklo apibrėžtis

buvo pasirenkami daug dažniau.

Modeliai nuoseklumą interpretuoja kaip pasitikėjimą.

Elgesys 5: Modeliai yra šališki pirminių šaltinių atžvilgiu

Paieškos sistemos teikia didelę pirmenybę:

originalios studijos
nuosavybės duomenys
apklausos
etalonai
baltosios knygos
pirminiai dokumentai

Jei skelbiate originalius duomenis:

Jūs tampate etalonu. Konkurentai tampa antriniais.

Elgesys 6: Daugiakryptis aiškumas daro įtaką pasirinkimui

Modeliai vis dažniau renkasi šaltinius, kurių vizualiniai elementai gali būti:

suprantami
išgauta
aprašyti
patikrinta

Svarbūs produkto ekrano kopijos ir vaizdo įrašai. 40 % atrankos atvejų svarbūs buvo aiškūs vaizdai.

Elgesys 7: Paieškos sistemos negailestingai baudžia dviprasmiškumą

Greičiausias būdas būti pašalintam:

neatitinkantys produkto pavadinimai
neaiškios vertės pasiūlymai
sutampantys kategorijų apibrėžimai
neaiškus pozicionavimas
daug galimų interpretacijų

AI vengia šaltinių, kurie kelia painiavą.

3 dalis: 12 svarbiausių signalų šaltinio pasirinkime (surūšiuoti pagal pastebėtą poveikį)

Nuo didžiausio poveikio iki mažiausio.

1. Entiteto aiškumas

2. Faktų nuoseklumas visame internete

3. Aktualumas

4. Pirminio šaltinio vertė

5. Struktūrizuotas turinio formatavimas

6. Kanoninės apibrėžties stabilumas

7. Švarus paieškos rezultatas (indeksavimo galimybė + įkėlimo greitis)

8. Patikimas autorystė

9. Aukštos kokybės atgalinės nuorodos (autoriteto grafikas)

10. Daugiakryptis suderinimas

11. Teisingas kategorijos priskyrimas

12. Minimalus dviprasmiškumas

Tai yra nauji „reitingavimo veiksniai“.

4 dalis: Kodėl kai kurios prekės ženklai rodomi visose paieškos sistemose (o kiti – nė vienoje)

Iš daugiau nei 100 prekių ženklų keletas nuolat dominavo:

Sunkumai
Claude
ChatGPT
SGE
Bing
Brave
You.com

Kodėl?

Nes šie prekių ženklai turėjo:

nuoseklūs objektų grafikai
kristalai aiškūs apibrėžimai
stiprūs kanoniniai centrai
originalius duomenis
faktų atžvilgiu stabilūs produktų puslapiai
vieningas pozicionavimas
jokių prieštaringų teiginių
tikslūs trečiųjų šalių profiliai
ilgalaikis faktų stabilumas

Paieškos sistemų nepriklausomas matomumas kyla iš patikimumo, o ne iš masto.

5 dalis: Kaip optimizuoti šaltinio pasirinkimą (praktinis GEO metodas)

Žemiau pateikiamas iš visų tyrimų išgrynintas metodas.

1 žingsnis: Sukurkite kanonines faktų puslapius

Apibrėžkite:

kas jūs esate
ką darote
kaip dirbate
kas jūs nesate
produktų pavadinimai ir apibrėžimai

Šie puslapiai turi būti reguliariai atnaujinami.

2 žingsnis: sumažinkite vidinius prieštaravimus

Auditas:

produktų pavadinimai
aprašymai
savybės
teiginiai

Paieškos sistemos griežtai baudžia nenuoseklumą.

3 žingsnis: skelbkite pirminio šaltinio žinias

Pavyzdžiai:

originalios statistikos
metiniai pramonės rodikliai
veiklos ataskaitos
techninės analizės
vartotojų elgsenos tyrimai
kategorijų įžvalgos

Tai žymiai pagerina AI įtrauktį.

4 žingsnis: sustiprinti subjektų profilius

Atnaujinimas:

Wikidata
Žinių grafika
„LinkedIn
Crunchbase
GitHub
G2
social bios
schemos žymėjimas

AI modeliai sujungia juos į pasitikėjimo grafiką.

5 žingsnis: viską struktūrizuoti

Naudojimas:

sąrašai
trumpi paragrafai
H2/H3/H4 antraštės
apibrėžimai
sąrašai
palyginimai
Klausimų ir atsakymų moduliai

LLM tiesiogiai analizuoja jūsų struktūrą.

6 žingsnis: kas mėnesį atnaujinkite pagrindinius puslapius

Aktualumas koreliuoja su:

įtraukimas
tikslumas
pasitikėjimo svoris
sintezė tikimybė

Pasenusios puslapiai nuskęsta.

7 žingsnis: Sukurkite aiškius palyginimo puslapius

Modeliai mėgsta:

privalumai ir trūkumai
funkcijų išskaidymas
skaidrūs apribojimai
aiškumas

Palyginimui palankus turinys sulaukia daugiau citatų.

8 žingsnis: ištaisykite AI netikslumus

Pateikite pataisymus kuo anksčiau.

Modeliai greitai atnaujinami, kai juos paskatina.

6 dalis: Šaltinių atrankos ateitis (2026–2030 m. prognozės)

Remiantis 2024–2025 m. stebėtu elgesiu, šios tendencijos yra neabejotinos:

1. Pasitikėjimo grafikai tampa oficialiomis reitingų sistemomis

Modeliai išlaikys nuosavybės teise priklausančius pasitikėjimo balus.

2. Pirminio šaltinio turinys tampa privalomas

Paieškos sistemos nustos cituoti išvestinį turinį.

3. Entitetais pagrįstas paieškos būdas pakeis raktažodžiais pagrįstą paieškos būdą

Entitetai > raktažodžiai.

4. Taps privalomi kilmės parašai (C2PA)

Nepasirašytas turinys bus žemiau reitinguojamas.

5. Daugiafunkcinis šaltinių pasirinkimas tampa brandus

Vaizdai, vaizdo įrašai, diagramos tampa pirmos klasės įrodymais.

6. Agentai savarankiškai tikrins teiginius

Naršymo agentai jus patikrins dar kartą.

7. Šaltinių atranka tampa aiškumo konkursu

Dviprasmiškumas tampa lemiamu.

Išvada: GEO nėra susijęs su reitingavimu – jis susijęs su atranka

Generatyviniai varikliai nesudaro puslapių „reitingo“. Jie renkasi šaltinius, kuriuos įtraukti į mąstymo grandinę.

Mūsų tyrimai rodo, kad šaltinio pasirinkimas priklauso nuo:

aiškumas
struktūra
faktinis stabilumas
subjektų suderinimas
originali įžvalga
aktualumas
nuoseklumas
kilmė

Generatyviniuose atsakymuose pasirodantys prekių ženklai nėra tie, kurie turi geriausią SEO. Tai yra tie, kurie tampa saugiausiais, aiškiausiais ir autoritetingiausiais įvesties šaltiniais AI mąstymui.

GEO yra procesas, kurio metu šie šaltiniai tampa patikimais.