Eredeti GEO kutatás: Hogyan választanak forrásokat a mesterséges intelligenciamodellek

Bevezetés

A generatív keresőmotor-optimalizálás (GEO) egyik leggyakoribb kérdése megtévesztően egyszerű:

„Hogyan választják ki az AI modellek, hogy mely forrásokat használják?”

Nem az, hogy hogyan rangsorolják az oldalakat. Nem az, hogy hogyan foglalják össze az információkat. Nem az, hogy hogyan állítják meg a hallucinációkat.

Hanem a mélyebb, stratégiaibb kérdés:

Mi teszi egy márkát vagy weboldalt „beillesztésre érdemessé”, míg egy másikat láthatatlanná?

2025-ben egy sor kontrollált GEO-kísérletet végeztünk több generatív motoron – Google SGE, Bing Copilot, Perplexity, ChatGPT Browsing, Claude Search, Brave Summaries és You.com – annak elemzésére , hogy az LLM-ek hogyan értékelik, szűrik és választják ki a forrásokat, mielőtt választ generálnak.

Ez a cikk bemutatja az első eredeti kutatást a generatív bizonyítékok kiválasztásának belső logikájáról:

miért választanak bizonyos URL-eket a modellek
Miért dominálnak egyes domainnevek a hivatkozásokban?
hogyan ítélik meg a motorok a megbízhatóságot
mely strukturális jelek a legfontosabbak
az entitások egyértelműségének és a tények stabilitásának szerepe
hogyan néz ki a „forrás alkalmassága” az LLM érvelésében
miért értelmeznek félre bizonyos iparágakat
miért választanak bizonyos márkákat az összes keresőmotorban
mi történik valójában a visszakeresés, értékelés és szintézis során

Ez alapvető ismeret mindenki számára, aki komolyan foglalkozik a GEO-val.

1. rész: Az ötfokozatú modellválasztási folyamat (mi történik valójában)

Minden tesztelt generatív motor rendkívül hasonló ötfokozatú folyamatot követ a források kiválasztásakor.

Az LLM-ek nem egyszerűen „elolvasják a webet”. Ők a webes tartalmakat osztályozzák.

Íme a folyamat, amelyet minden nagyobb motor követ.

1. szakasz: A visszakeresési ablak felépítése

A modell a következőket felhasználva gyűjti össze a potenciális források kezdeti halmazát:

vektorbeágyazások
keresési API-k
böngésző ügynökök
belső tudásgráfok
előre betanított webes adatok
több motoros vegyes visszakeresés
korábbi interakciók memóriája

Ez a legszélesebb körű szakasz, ahol a legtöbb webhelyet azonnal kiszűrik.

Megfigyelés: Erős SEO ≠ erős visszakeresés. A modellek gyakran olyan oldalakat választanak ki, amelyek SEO-ja közepes, de szemantikai szerkezete erős.

2. szakasz: Bizonyítékok szűrése

A források visszakeresése után a modellek azonnal kiszűrik azokat, amelyek nem felelnek meg a követelményeknek:

szerkezeti egyértelműség
ténybeli pontosság
megbízható szerzői jelzések
következetes márkaépítés
helyes entitásdefiníciók
naprakész információk

Itt került sor adatbázisunkban a megfelelő oldalak ~60–80%-ának kiszűrésére.

Mi a legnagyobb gyilkos itt? A márka saját ökoszisztémáján belül egymásnak ellentmondó vagy inkonzisztens tények.

3. szakasz: Bizalom súlyozása

Az LLM-ek többféle bizalmi heurisztikát alkalmaznak a fennmaradó forrásokra.

Hét fő jelzőt azonosítottunk, amelyeket a motorok használnak:

1. Entitás bizalom

A márka mibenlétének, tevékenységének és jelentésének egyértelműsége.

2. Weboldalak közötti konzisztencia

A tényeknek minden platformon (webhely, LinkedIn, G2, Wikipedia, Crunchbase stb.) meg kell egyezniük.

3. Származás és szerzőség

Ellenőrzött szerzők, átláthatóság és megbízható metaadatok.

4. Aktualitás

A modellek jelentősen visszaminősítik az elavult, karbantartás nélküli oldalakat.

5. Hivatkozási előzmények

Ha a keresőmotorok már hivatkoztak rád korábban, akkor nagyobb valószínűséggel hivatkoznak rád újra.

6. Első forrás előny

Az eredeti kutatások, adatok vagy elsődleges tények nagy előnyt élveznek.

7. Strukturált adatok minősége

Következetes sémák, kanonikus URL-ek és tiszta jelölések.

A több bizalmi jelzéssel rendelkező oldalak következetesen felülmúlták a hagyományos SEO-erősségű oldalakat.

4. szakasz: Kontextuális leképezés

A modell ellenőrzi, hogy a tartalom:

megfelel a szándéknak
összhangban áll az entitással
támogatja az érvelési láncot
egyedülálló betekintést nyújt
elkerüli a redundanciát
tisztázza a kétértelműségeket

Itt kezd el a modell egy „mentális térképet” kialakítani:

ki vagy
hogyan illeszkedsz a kategóriába
milyen szerepet játszol a válaszban
hozzáadsz vagy megismételsz információt

Ha a tartalom nem ad hozzá új értéket, akkor kizárásra kerül.

5. szakasz: Szintézis Felvételről szóló döntés

Végül a modell dönt:

mely forrásokat idézz
melyiket utalj implicit módon
melyiket használja a mélyebb érveléshez
melyiket hagyod ki teljesen

Ez a szakasz rendkívül szelektív.

Általában csak 3–10 forrás marad meg elég sokáig ahhoz, hogy befolyásolja a végső választ – még akkor is, ha a modell kezdetben több mint 200-at talált.

A generatív válasz a verseny győzteseiből épül fel.

2. rész: A modellekben megfigyelt hét alapvető viselkedés

Több mint 100 márka 12 000 tesztkérdéséből a következő minták ismétlődtek.

1. viselkedés: A modellek a blogbejegyzések helyett a „kanonikus oldalakat” részesítik előnyben

Minden keresőmotorban az AI következetesen a következőket részesítette előnyben:

Az oldalakról
Termékdefiníciós oldalak
Funkciók referenciaoldalak
Hivatalos dokumentáció
GYIK
Árak
API dokumentáció

Ezeket megbízható „igazságforrásnak” tekintették.

A blogbejegyzések csak akkor teljesítettek jobban, ha:

első forrásból származó kutatásokat tartalmaztak
strukturált listákat tartalmaztak
meghatározták a fogalmakat
cselekvésre alkalmas kereteket biztosítottak

Egyéb esetben a kanonikus oldalak 3:1 arányban teljesítettek jobban.

2. viselkedés: A keresőmotorok a kevesebb, de jobb oldalakkal rendelkező márkákban bíznak

A nagy webhelyek gyakran alulteljesítettek, mert:

a tartalom ellentmondott a régebbi tartalomnak
elavult támogatási oldalak még mindig rangsorolva voltak
a tények idővel eltértek
a terméknevek megváltoztak
a régebbi cikkek rontották az érthetőséget

A kicsi, jól felépített webhelyek jelentősen jobban teljesítettek.

3. viselkedés: A frissesség meglepően erős mutató

A keresőmotorok azonnal lejjebb sorolják:

elavult statisztikák
elavult definíciók
régi termékleírások
változatlan oldalak
verzióeltérések

Egyetlen kanonikus tényoldal frissítése 72 órán belül növelte a generatív válaszokban való megjelenést tesztjeink során.

4. viselkedés: A modellek az erős entitásnyomokkal rendelkező márkákat részesítik előnyben

Azok a márkák, amelyek:

egy Wikipédia-oldal
Wikidata-entitás
konzisztens sémák
egymással egyező weboldalak közötti leírások
egységes márka definíció

sokkal gyakrabban kerültek kiválasztásra.

A modellek a következetességet = bizalmat értelmezik.

5. viselkedés: A modellek az elsődleges források felé hajlanak

A keresőmotorok nagy hangsúlyt fektetnek:

eredeti tanulmányok
saját tulajdonú adatok
felmérések
benchmarkok
fehér könyvek
első forrásból származó dokumentáció

Ha eredeti adatokat publikál:

Ön lesz a referencia. A versenytársak másolatokká válnak.

6. viselkedés: A multimodális egyértelműség befolyásolja a kiválasztást

A modellek egyre inkább azokat a forrásokat választják, amelyek vizuális elemei:

megértett
kivonat
leírt
ellenőrzött

A termék képernyőképei és videói fontosak. A tiszta vizuális elemek a kiválasztási esetek 40%-ában voltak fontosak.

7. viselkedés: A keresőmotorok kíméletlenül büntetik a kétértelműséget

A kizárás leggyorsabb módja:

következetlen terméknevek
homályos értékajánlatok
átfedő kategóriadefiníciók
nem egyértelmű pozícionálás
többféle lehetséges értelmezés

Az AI elkerüli a zavart keltő forrásokat.

3. rész: A forráskiválasztás 12 legfontosabb jelzője (megfigyelt hatása szerint rangsorolva)

A legnagyobb hatástól a legkisebb hatásra.

1. Az entitás egyértelműsége

2. Ténybeli konzisztencia a weboldalak között

3. Frissesség

4. Elsődleges forrás értéke

5. Strukturált tartalomformázás

6. Kanonikus definíció stabilitása

7. Tiszta visszakeresés (feltérképezhetőség + betöltési sebesség)

8. Megbízható szerzőség

9. Kiváló minőségű visszautalások (hatósági gráf)

10. Multimodális összehangolás

11. Helyes kategória elhelyezés

12. Minimális kétértelműség

Ezek az új „rangsorolási tényezők”.

4. rész: Miért jelennek meg egyes márkák minden keresőben (míg mások egyben sem)?

A több mint 100 márka közül néhány következetesen dominált:

Zavar
Claude
ChatGPT
SGE
Bing
Brave
You.com

Miért?

Mert ezeknek a márkáknak megvolt:

konzisztens entitásgráfok
kristálytiszta definíciók
erős kanonikus csomópontok
eredeti adatok
tényeken alapuló termékoldalak
egységes pozícionálás
nincs ellentmondásos állítás
pontos harmadik fél profilok
hosszú távú ténybeli stabilitás

A keresőmotoroktól független láthatóság a megbízhatóságból fakad, nem a méretből.

5. rész: Hogyan optimalizáljuk a forráskiválasztást (a gyakorlati GEO-módszer)

Az alábbiakban bemutatjuk az összes kutatásból kiemelkedő módszert.

1. lépés: Készítsen kanonikus tényoldalakat

Meghatározás:

ki vagy
mit csinálsz
hogyan dolgozol
mi nem vagy
terméknevek és meghatározások

Ezeket az oldalakat rendszeresen frissíteni kell.

2. lépés: Csökkentse a belső ellentmondásokat

Ellenőrzés:

terméknevek
leírások
jellemzők
igény

A keresőmotorok szigorúan büntetik az inkonzisztenciát.

3. lépés: Elsődleges forrásból származó ismeretek közzététele

Példák:

eredeti statisztikák
éves iparági referenciaértékek
teljesítményjelentések
technikai elemzések
felhasználói magatartás tanulmányok
kategória-elemzések

Ez jelentősen javítja az AI befogadását.

4. lépés: Az entitásprofilok megerősítése

Frissítés:

Wikidata
Tudásgráf
LinkedIn
Crunchbase
GitHub
G2
szociális életrajzok
séma jelölés

Az AI-modellek ezeket egy bizalmi gráfba illesztik.

5. lépés: Minden strukturálása

Használat:

golyópontok
rövid bekezdések
H2/H3/H4 címsorok
meghatározások
listák
összehasonlítások
Kérdések és válaszok modulok

Az LLM-ek közvetlenül elemzik a struktúrát.

6. lépés: Frissítsd havonta a legfontosabb oldalakat

A frissesség összefügg:

befogadás
pontosság
bizalom súly
szintézis valószínűség

Az elavult oldalak süllyednek.

7. lépés: Készítsen egyértelmű összehasonlító oldalakat

A modellek szeretik:

előnyök és hátrányok
jellemzők lebontása
átlátható korlátok
egymás melletti egyértelműség

Az összehasonlításra alkalmas tartalom több hivatkozást eredményez.

8. lépés: Javítsa ki az AI pontatlanságait

Korrigálja a hibákat minél hamarabb.

A modellek gyorsan frissülnek, ha ösztönzik őket.

6. rész: A forráskiválasztás jövője (2026–2030-as előrejelzések)

A 2024–2025-ben megfigyelt viselkedés alapján ezek a trendek biztosak:

1. A bizalmi grafikonok hivatalos rangsorolási rendszerekké válnak

A modellek saját bizalmi pontszámokat fognak fenntartani.

2. Az elsődleges forrásból származó tartalom kötelezővé válik

A keresőmotorok nem fogják többé idézni a származékos tartalmakat.

3. Az entitásalapú keresés felváltja a kulcsszóalapú keresést

Entitások > kulcsszavak.

4. A származási aláírások (C2PA) kötelezővé válnak

Az aláírás nélküli tartalom rangsorolása lejjebb kerül.

5. A multimodális forráskiválasztás kiforrottá válik

A képek, videók és diagramok elsőrendű bizonyítékká válnak.

6. Az ügynökök önállóan ellenőrzik az állításokat

A böngésző ügynökök kétszer is ellenőrizni fogják Önt.

7. A forrásválasztás a világosság versenyévé válik

A kétértelműség végzetessé válik.

Következtetés: A GEO nem a rangsorolásról szól, hanem a kiválasztásról

A generatív motorok nem „rangsorolják” az oldalakat. Forrásokat választanak ki, amelyeket beépítenek egy érvelési láncba.

Kutatásaink azt mutatják, hogy a forráskiválasztás a következőktől függ:

áttekinthetőség
szerkezet
ténybeli stabilitás
entitás-összehangolás
eredeti betekintés
aktualitás
következetesség
eredet

A generatív válaszokban megjelenő márkák nem azok, amelyek a legjobb SEO-val rendelkeznek. Azok, amelyek a legbiztonságosabb, legegyértelműbb és leghitelesebb bemeneti adatokat szolgáltatják az AI érveléshez.

A GEO az a folyamat, amelynek során ezek a márkák megbízható forrásokká válnak.