Hogyan LLMs Crawl és Index a Web másképp, mint a Google

Bevezetés

A Google 25 évet töltött egy alapvető rendszer tökéletesítésével:

feltérképezés → indexelés → rangsorolás → kiszolgálás

A modern mesterséges intelligencia alapú keresőmotorok – ChatGPT Search, Perplexity, Gemini, Copilot – azonban teljesen más architektúrán működnek:

feltérképezés → beágyazás → visszakeresés → szintetizálás

Ezek a rendszerek nem klasszikus értelemben vett keresőmotorok. Nem rangsorolják a dokumentumokat. Nem értékelik a kulcsszavakat. Nem számolják ki a PageRank-et.

Ehelyett az LLM-ek a webes tartalmat jelentéssé tömörítik, ezeket a jelentéseket vektorokként tárolják, majd a következőkre alapozva rekonstruálják a válaszokat:

szemantikai megértés
konszenzus jelek
bizalmi minták
visszakeresési pontszám
kontextuális érvelés
entitás egyértelműség
eredet

Ez azt jelenti, hogy a marketingeseknek alapvetően át kell gondolniuk, hogyan strukturálják a tartalmat, határozzák meg az entitásokat és építik fel a tekintélyüket.

Ez az útmutató bemutatja, hogyan „feltérképezik” az LLM-ek a webet, hogyan „indexelik” azt, és miért nem hasonlít a folyamatuk a Google hagyományos keresési folyamatához.

1. A Google folyamatai és az LLM-ek folyamatai

Hasonlítsuk össze a két rendszert a lehető legegyszerűbb módon.

Google folyamat (hagyományos keresés)

A Google egy előre jelezhető, négylépéses architektúrát követ:

1. Bejárás

A Googlebot lekérdezi az oldalakat.

2. Indexelés

A Google elemzi a szöveget, tárolja a tokeneket, kivonja a kulcsszavakat, alkalmazza a pontozási jeleket.

3. Rangsor

Algoritmusok (PageRank, BERT, értékelői irányelvek stb.) határozzák meg, mely URL-ek jelennek meg.

4. Szolgáltatás

A felhasználó a rangsorolt URL-ek listáját látja.

Ez a rendszer URL-first, document-first és keyword-first.

LLM Pipeline (AI keresés + modell érvelés)

Az LLM-ek teljesen más stacket használnak:

1. Crawl

Az AI-ügynökök tartalmat gyűjtenek a nyílt webről és megbízható forrásokból.

2. Beágyazás

A tartalom vektoros beágyazásokká (sűrű jelentésábrázolásokká) alakul át.

3. Visszakeresés

Amikor egy lekérdezés érkezik, a szemantikai keresőrendszer a legjobban illeszkedő vektorokat, nem pedig URL-eket hívja le.

4. Szintézis

Az LLM az információkat narratív válaszként egyesíti, opcionálisan hivatkozva a forrásokra.

Ez a rendszer jelentés-először, entitás-először és kontextus-először működik.

Az LLM-alapú keresésben a relevanciát kapcsolatok, nem pedig rangsorok alapján számítják ki.

2. Hogyan működik valójában az LLM-alapú feltérképezés (egyáltalán nem úgy, mint a Google)

Az LLM-rendszerek nem egyetlen monolitikus keresővel működnek. Hibrid keresési rétegeket használnak:

1. réteg – Képzési adatok feltérképezése (hatalmas, lassú, alapvető)

Ez a következőket tartalmazza:

Common Crawl
Wikipedia
kormányzati adatkészletek
referenciaanyagok
könyvek
hírarchívumok
magas tekintélyű webhelyek
Kérdések és válaszok webhelyek
akadémiai források
licencelt tartalom

Ez a feltérképezés hónapokig, néha évekig tart, és létrehozza az alapmodellt.

Ebbe a feltérképezésbe nem lehet „SEO” segítségével bejutni. A következőképpen lehet befolyásolni:

hivatkozások tekintélyes webhelyekről
erős entitásdefiníciók
széles körű említések
következetes leírások

Itt alakulnak ki először az entitásbeágyazások.

2. réteg – Valós idejű visszakeresési keresők (gyors, gyakori, szűk)

A ChatGPT Search, a Perplexity és a Gemini élő feltérképezési rétegekkel rendelkezik:

valós idejű letöltők
igény szerinti botok
friss tartalomdetektorok
kanonikus URL-feloldók
idézetkeresők

Ezek másképp viselkednek, mint a Googlebot:

✔ Sokkal kevesebb oldalt töltenek be
✔ Elsőbbséget adnak a megbízható forrásoknak
✔ Csak a legfontosabb szakaszokat elemzik
✔ Szemantikai összefoglalókat készítenek, nem kulcsszóindexeket
✔ Beágyazásokat tárolnak, nem tokeneket

Egy oldalnak nem kell „rangsorolnia” — csak annyit kell tennie, hogy a modell könnyen ki tudja belőle vonni a jelentést.

3. réteg – RAG (visszakereséssel kiegészített generálás) folyamatok

Sok AI keresőmotor mini-keresőmotorokként működő RAG rendszereket használ:

saját beágyazásokat hoznak létre
saját szemantikai indexeket tartanak karban
ellenőrzik a tartalom frissességét
strukturált összefoglalókat részesítenek előnyben
a dokumentumokat az AI alkalmasság alapján értékelik

Ez a réteg elsősorban géppel olvasható – a szerkezet fontosabb, mint a kulcsszavak.

4. réteg – Belső modell-feltérképezés („Soft Crawling”)

Még akkor is, ha az LLM-ek nem indexelik a webet, „indexelik” a saját tudásukat:

beágyazások
klaszterek
entitásgráfok
konszenzusos minták

Amikor tartalmat publikálsz, az LLM-ek értékelik:

ez megerősíti a meglévő tudást?
ellentmond-e a konszenzusnak?
tisztázza-e a kétértelmű entitásokat?
javítja a tények megbízhatóságát?

Ez a soft crawl az, ahol az LLMO a legfontosabb.

3. Hogyan „indexelik” az LLM-ek a webet (teljesen másképp, mint a Google)

A Google indexe a következőket tárolja:

jelölők
kulcsszavak
invertált indexek
oldal metaadatok
linkgráfok
frissességi jelek

Az LLM-ek tárolják:

✔ vektorok (sűrű jelentés)
✔ szemantikai klaszterek
✔ entitáskapcsolatok
✔ fogalomtérképek
✔ konszenzusos ábrázolások
✔ ténybeli valószínűségi súlyok
✔ eredetjelzések

Ezt a különbséget nem lehet eléggé hangsúlyozni:

**A Google dokumentumokat indexel.

Az LLM-ek a jelentést indexelik.**

Nem az indexeléshez optimalizálsz, hanem a megértéshez.

4. Az LLM „indexelés” hat szakasza

Amikor egy LLM beolvassa az oldalát, a következő történik:

1. szakasz – Darabolás

Az oldalát jelentésblokkokra (nem bekezdésekre) osztja.

Jól strukturált tartalom = előre jelezhető darabok.

2. szakasz – Beágyazás

Minden darabot vektorrá alakítanak – ez a jelentés matematikai ábrázolása.

Gyenge vagy nem egyértelmű írás = zajos beágyazások.

3. szakasz – Entitáskivonás

Az LLM-ek azonosítják az olyan entitásokat, mint:

Ranktracker
kulcsszó kutatás
visszalinkelés-elemzés
AIO
SEO eszközök
versenytársak nevei

Ha az entitások instabilak → az indexelés sikertelen.

4. szakasz – Szemantikai összekapcsolás

Az LLM-ek összekapcsolják a tartalmát a következőkkel:

kapcsolódó fogalmak
kapcsolódó márkák
klaszter témák
kanonikus definíciók

Gyenge klaszterek = gyenge szemantikai összekapcsolás.

5. szakasz – Konszenzusos összehangolás

Az LLM-ek összehasonlítják a tényeket a következőkkel:

Wikipedia
kormányzati források
magas tekintélyű webhelyek
bevált definíciók

Ellentmondások = büntetés.

6. szakasz – Bizalomértékelés

Az LLM-ek valószínűségi súlyokat rendelnek a tartalmához:

Mennyire megbízható?
Mennyire konzisztens?
Mennyire eredeti?
Mennyire egyezik a hiteles forrásokkal?
Mennyire stabil az időben?

Ezek a pontszámok határozzák meg, hogy felhasználják-e Önt generatív válaszokban.

5. Miért teszi az LLM „indexelés” a SEO-taktikákat elavulttá?

Néhány fontos következmény:

❌ A kulcsszavak nem határozzák meg a relevanciát.

A relevancia a szemantikai jelentésből származik, nem a karakterláncok egyezéséből.

❌ A linkek jelentőségükben eltérőek.

A visszautalások az entitás stabilitását és konszenzusát erősítik, nem a PageRank-et.

❌ A gyenge tartalom azonnal figyelmen kívül marad.

Ha nem tud stabil beágyazásokat létrehozni → akkor haszontalan.

❌ A duplikált tartalom rombolja a bizalmat.

Az LLM-ek csökkentik a ismétlődő minták és a nem eredeti szövegek súlyát.

❌ Az E-A-T a származási helyre terjed ki.

Már nem a „szakértői jelekről” van szó — hanem a nyomon követhető hitelességről és megbízhatóságról.

❌ A tartalomfarmok összeomlanak.

Az LLM-ek elnyomják az alacsony eredetiségű, alacsony származású oldalakat.

❌ Rangsor nem létezik – idézetek viszont igen.

Láthatóság = kiválasztás a szintézis során.

6. Mit preferálnak az LLM-ek a webes tartalmakban (az új rangsorolási tényezők)

Az LLM-ek által legfontosabbnak tartott tulajdonságok:

✔ egyértelmű definíciók
✔ stabil entitások
✔ strukturált tartalom
✔ konszenzusos összehangoltság
✔ erős tematikus mélység
✔ sémák
✔ eredeti betekintés
✔ szerzői jogok
✔ alacsony kétértelműség
✔ konzisztens klaszterek
✔ magas tekintélyű források
✔ reprodukálható tények
✔ logikus formázás

Ha a tartalom mindegyiknek megfelel → „LLM-preferált” lesz.

Ha nem → akkor láthatatlanná válik.

7. Gyakorlati különbségek, amelyekhez a marketingeseknek alkalmazkodniuk kell

**A Google jutalmazza a kulcsszavakat.

Az LLM-ek a világosságot jutalmazzák.**

**A Google a visszalinkeléseket jutalmazza.

Az LLM-ek a konszenzust jutalmazzák.**

**A Google a relevanciát jutalmazza.

Az LLM-ek a szemantikai tekintélyt jutalmazzák.**

**A Google rangsorolja a dokumentumokat.

Az LLM-ek kiválasztják az információkat.**

**A Google indexeli az oldalakat.

Az LLM-ek beágyaznak jelentést.**

Ezek nem kis különbségek. Az egész tartalmi stratégia átalakítását igénylik.

Záró gondolat:

Nem a keresőrobotok számára optimalizálsz, hanem egy intelligencia rendszer számára

A Googlebot gyűjtő. Az LLM-ek tolmácsok.

A Google adatokat tárol. Az LLM-ek jelentést tárolnak.

A Google rangsorolja az URL-eket. Az LLM-ek a tudás alapján érvelnek.

Ez a változás új megközelítést igényel, amely a következőkre épül:

entitás stabilitás
kanonikus definíciók
strukturált tartalom
szemantikai klaszterek
források közötti konszenzus
eredet
megbízhatóság
egyértelműség

Ez nem a SEO evolúciója — hanem a keresőrendszer cseréje.

Ha 2025-ben és azután is látható akar lenni, akkor az AI webes látásmódjához kell optimalizálnia, nem a Google webes látásmódjához.

Hogyan LLMs Crawl és Index a Web másképp, mint a Google

Bevezetés

feltérképezés → indexelés → rangsorolás → kiszolgálás

feltérképezés → beágyazás → visszakeresés → szintetizálás

1. A Google folyamatai és az LLM-ek folyamatai

Google folyamat (hagyományos keresés)

1. Bejárás

2. Indexelés

3. Rangsor

4. Szolgáltatás

LLM Pipeline (AI keresés + modell érvelés)

1. Crawl

2. Beágyazás

3. Visszakeresés

4. Szintézis

2. Hogyan működik valójában az LLM-alapú feltérképezés (egyáltalán nem úgy, mint a Google)

1. réteg – Képzési adatok feltérképezése (hatalmas, lassú, alapvető)

2. réteg – Valós idejű visszakeresési keresők (gyors, gyakori, szűk)

3. réteg – RAG (visszakereséssel kiegészített generálás) folyamatok

4. réteg – Belső modell-feltérképezés („Soft Crawling”)

3. Hogyan „indexelik” az LLM-ek a webet (teljesen másképp, mint a Google)

**A Google dokumentumokat indexel.

4. Az LLM „indexelés” hat szakasza

1. szakasz – Darabolás

2. szakasz – Beágyazás

3. szakasz – Entitáskivonás

4. szakasz – Szemantikai összekapcsolás

5. szakasz – Konszenzusos összehangolás

6. szakasz – Bizalomértékelés

5. Miért teszi az LLM „indexelés” a SEO-taktikákat elavulttá?

6. Mit preferálnak az LLM-ek a webes tartalmakban (az új rangsorolási tényezők)

7. Gyakorlati különbségek, amelyekhez a marketingeseknek alkalmazkodniuk kell

**A Google jutalmazza a kulcsszavakat.

**A Google a visszalinkeléseket jutalmazza.

**A Google a relevanciát jutalmazza.

**A Google rangsorolja a dokumentumokat.

**A Google indexeli az oldalakat.

Záró gondolat:

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Hogyan LLMs Crawl és Index a Web másképp, mint a Google

Bevezetés

feltérképezés → indexelés → rangsorolás → kiszolgálás

feltérképezés → beágyazás → visszakeresés → szintetizálás

1. A Google folyamatai és az LLM-ek folyamatai

Google folyamat (hagyományos keresés)

1. Bejárás

2. Indexelés

3. Rangsor

4. Szolgáltatás

LLM Pipeline (AI keresés + modell érvelés)

1. Crawl

2. Beágyazás

3. Visszakeresés

4. Szintézis

2. Hogyan működik valójában az LLM-alapú feltérképezés (egyáltalán nem úgy, mint a Google)

1. réteg – Képzési adatok feltérképezése (hatalmas, lassú, alapvető)

2. réteg – Valós idejű visszakeresési keresők (gyors, gyakori, szűk)

3. réteg – RAG (visszakereséssel kiegészített generálás) folyamatok

4. réteg – Belső modell-feltérképezés („Soft Crawling”)

3. Hogyan „indexelik” az LLM-ek a webet (teljesen másképp, mint a Google)

**A Google dokumentumokat indexel.

4. Az LLM „indexelés” hat szakasza

1. szakasz – Darabolás

2. szakasz – Beágyazás

3. szakasz – Entitáskivonás

4. szakasz – Szemantikai összekapcsolás

5. szakasz – Konszenzusos összehangolás

6. szakasz – Bizalomértékelés

5. Miért teszi az LLM „indexelés” a SEO-taktikákat elavulttá?

6. Mit preferálnak az LLM-ek a webes tartalmakban (az új rangsorolási tényezők)

7. Gyakorlati különbségek, amelyekhez a marketingeseknek alkalmazkodniuk kell

**A Google jutalmazza a kulcsszavakat.

**A Google a visszalinkeléseket jutalmazza.

**A Google a relevanciát jutalmazza.

**A Google rangsorolja a dokumentumokat.

**A Google indexeli az oldalakat.

Záró gondolat:

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Kezdje el használni a Ranktracker-t... Ingyen!