• LLM

Hogyan LLMs Crawl és Index a Web másképp, mint a Google

  • Felix Rose-Collins
  • 5 min read

Bevezetés

A Google 25 évet töltött egy alapvető rendszer tökéletesítésével:

feltérképezés → indexelés → rangsorolás → kiszolgálás

A modern mesterséges intelligencia alapú keresőmotorok – ChatGPT Search, Perplexity, Gemini, Copilot – azonban teljesen más architektúrán működnek:

feltérképezés → beágyazás → visszakeresés → szintetizálás

Ezek a rendszerek nem klasszikus értelemben vett keresőmotorok. Nem rangsorolják a dokumentumokat. Nem értékelik a kulcsszavakat. Nem számolják ki a PageRank-et.

Ehelyett az LLM-ek a webes tartalmat jelentéssé tömörítik, ezeket a jelentéseket vektorokként tárolják, majd a következőkre alapozva rekonstruálják a válaszokat:

  • szemantikai megértés

  • konszenzus jelek

  • bizalmi minták

  • visszakeresési pontszám

  • kontextuális érvelés

  • entitás egyértelműség

  • eredet

Ez azt jelenti, hogy a marketingeseknek alapvetően át kell gondolniuk, hogyan strukturálják a tartalmat, határozzák meg az entitásokat és építik fel a tekintélyüket.

Ez az útmutató bemutatja, hogyan „feltérképezik” az LLM-ek a webet, hogyan „indexelik” azt, és miért nem hasonlít a folyamatuk a Google hagyományos keresési folyamatához.

1. A Google folyamatai és az LLM-ek folyamatai

Hasonlítsuk össze a két rendszert a lehető legegyszerűbb módon.

Google folyamat (hagyományos keresés)

A Google egy előre jelezhető, négylépéses architektúrát követ:

1. Bejárás

A Googlebot lekérdezi az oldalakat.

2. Indexelés

A Google elemzi a szöveget, tárolja a tokeneket, kivonja a kulcsszavakat, alkalmazza a pontozási jeleket.

3. Rangsor

Algoritmusok (PageRank, BERT, értékelői irányelvek stb.) határozzák meg, mely URL-ek jelennek meg.

4. Szolgáltatás

A felhasználó a rangsorolt URL-ek listáját látja.

Ez a rendszer URL-first, document-first és keyword-first.

LLM Pipeline (AI keresés + modell érvelés)

Az LLM-ek teljesen más stacket használnak:

1. Crawl

Az AI-ügynökök tartalmat gyűjtenek a nyílt webről és megbízható forrásokból.

2. Beágyazás

A tartalom vektoros beágyazásokká (sűrű jelentésábrázolásokká) alakul át.

3. Visszakeresés

Amikor egy lekérdezés érkezik, a szemantikai keresőrendszer a legjobban illeszkedő vektorokat, nem pedig URL-eket hívja le.

4. Szintézis

Az LLM az információkat narratív válaszként egyesíti, opcionálisan hivatkozva a forrásokra.

Ez a rendszer jelentés-először, entitás-először és kontextus-először működik.

Az LLM-alapú keresésben a relevanciát kapcsolatok, nem pedig rangsorok alapján számítják ki.

2. Hogyan működik valójában az LLM-alapú feltérképezés (egyáltalán nem úgy, mint a Google)

Az LLM-rendszerek nem egyetlen monolitikus keresővel működnek. Hibrid keresési rétegeket használnak:

1. réteg – Képzési adatok feltérképezése (hatalmas, lassú, alapvető)

Ez a következőket tartalmazza:

  • Common Crawl

  • Wikipedia

  • kormányzati adatkészletek

  • referenciaanyagok

  • könyvek

  • hírarchívumok

  • magas tekintélyű webhelyek

  • Kérdések és válaszok webhelyek

  • akadémiai források

  • licencelt tartalom

Ez a feltérképezés hónapokig, néha évekig tart, és létrehozza az alapmodellt.

Ismerje meg a Ranktracker-t

Az All-in-One platform a hatékony SEO-hoz

Minden sikeres vállalkozás mögött egy erős SEO kampány áll. De a számtalan optimalizálási eszköz és technika közül lehet választani, ezért nehéz lehet tudni, hol kezdjük. Nos, ne félj tovább, mert van egy ötletem, ami segíthet. Bemutatom a Ranktracker all-in-one platformot a hatékony SEO-ért.

Végre megnyitottuk a Ranktracker regisztrációt teljesen ingyenesen!

Ingyenes fiók létrehozása

Vagy Jelentkezzen be a hitelesítő adatokkal

Ebbe a feltérképezésbe nem lehet „SEO” segítségével bejutni. A következőképpen lehet befolyásolni:

  • hivatkozások tekintélyes webhelyekről

  • erős entitásdefiníciók

  • széles körű említések

  • következetes leírások

Itt alakulnak ki először az entitásbeágyazások.

2. réteg – Valós idejű visszakeresési keresők (gyors, gyakori, szűk)

A ChatGPT Search, a Perplexity és a Gemini élő feltérképezési rétegekkel rendelkezik:

  • valós idejű letöltők

  • igény szerinti botok

  • friss tartalomdetektorok

  • kanonikus URL-feloldók

  • idézetkeresők

Ezek másképp viselkednek, mint a Googlebot:

  • ✔ Sokkal kevesebb oldalt töltenek be

  • ✔ Elsőbbséget adnak a megbízható forrásoknak

  • ✔ Csak a legfontosabb szakaszokat elemzik

  • ✔ Szemantikai összefoglalókat készítenek, nem kulcsszóindexeket

  • ✔ Beágyazásokat tárolnak, nem tokeneket

Egy oldalnak nem kell „rangsorolnia” — csak annyit kell tennie, hogy a modell könnyen ki tudja belőle vonni a jelentést.

3. réteg – RAG (visszakereséssel kiegészített generálás) folyamatok

Sok AI keresőmotor mini-keresőmotorokként működő RAG rendszereket használ:

  • saját beágyazásokat hoznak létre

  • saját szemantikai indexeket tartanak karban

  • ellenőrzik a tartalom frissességét

  • strukturált összefoglalókat részesítenek előnyben

  • a dokumentumokat az AI alkalmasság alapján értékelik

Ez a réteg elsősorban géppel olvasható – a szerkezet fontosabb, mint a kulcsszavak.

4. réteg – Belső modell-feltérképezés („Soft Crawling”)

Még akkor is, ha az LLM-ek nem indexelik a webet, „indexelik” a saját tudásukat:

  • beágyazások

  • klaszterek

  • entitásgráfok

  • konszenzusos minták

Amikor tartalmat publikálsz, az LLM-ek értékelik:

  • ez megerősíti a meglévő tudást?

  • ellentmond-e a konszenzusnak?

  • tisztázza-e a kétértelmű entitásokat?

  • javítja a tények megbízhatóságát?

Ez a soft crawl az, ahol az LLMO a legfontosabb.

3. Hogyan „indexelik” az LLM-ek a webet (teljesen másképp, mint a Google)

A Google indexe a következőket tárolja:

  • jelölők

  • kulcsszavak

  • invertált indexek

  • oldal metaadatok

  • linkgráfok

  • frissességi jelek

Az LLM-ek tárolják:

  • ✔ vektorok (sűrű jelentés)

  • ✔ szemantikai klaszterek

  • ✔ entitáskapcsolatok

  • ✔ fogalomtérképek

  • ✔ konszenzusos ábrázolások

  • ✔ ténybeli valószínűségi súlyok

  • ✔ eredetjelzések

Ezt a különbséget nem lehet eléggé hangsúlyozni:

**A Google dokumentumokat indexel.

Az LLM-ek a jelentést indexelik.**

Nem az indexeléshez optimalizálsz, hanem a megértéshez.

4. Az LLM „indexelés” hat szakasza

Amikor egy LLM beolvassa az oldalát, a következő történik:

1. szakasz – Darabolás

Az oldalát jelentésblokkokra (nem bekezdésekre) osztja.

Jól strukturált tartalom = előre jelezhető darabok.

2. szakasz – Beágyazás

Minden darabot vektorrá alakítanak – ez a jelentés matematikai ábrázolása.

Gyenge vagy nem egyértelmű írás = zajos beágyazások.

3. szakasz – Entitáskivonás

Az LLM-ek azonosítják az olyan entitásokat, mint:

  • Ranktracker

  • kulcsszó kutatás

  • visszalinkelés-elemzés

  • AIO

  • SEO eszközök

  • versenytársak nevei

Ha az entitások instabilak → az indexelés sikertelen.

4. szakasz – Szemantikai összekapcsolás

Az LLM-ek összekapcsolják a tartalmát a következőkkel:

  • kapcsolódó fogalmak

  • kapcsolódó márkák

  • klaszter témák

  • kanonikus definíciók

Gyenge klaszterek = gyenge szemantikai összekapcsolás.

5. szakasz – Konszenzusos összehangolás

Az LLM-ek összehasonlítják a tényeket a következőkkel:

  • Wikipedia

  • kormányzati források

  • magas tekintélyű webhelyek

  • bevált definíciók

Ellentmondások = büntetés.

6. szakasz – Bizalomértékelés

Az LLM-ek valószínűségi súlyokat rendelnek a tartalmához:

  • Mennyire megbízható?

  • Mennyire konzisztens?

  • Mennyire eredeti?

  • Mennyire egyezik a hiteles forrásokkal?

  • Mennyire stabil az időben?

Ezek a pontszámok határozzák meg, hogy felhasználják-e Önt generatív válaszokban.

5. Miért teszi az LLM „indexelés” a SEO-taktikákat elavulttá?

Néhány fontos következmény:

  • ❌ A kulcsszavak nem határozzák meg a relevanciát.

A relevancia a szemantikai jelentésből származik, nem a karakterláncok egyezéséből.

  • ❌ A linkek jelentőségükben eltérőek.

A visszautalások az entitás stabilitását és konszenzusát erősítik, nem a PageRank-et.

  • ❌ A gyenge tartalom azonnal figyelmen kívül marad.

Ha nem tud stabil beágyazásokat létrehozni → akkor haszontalan.

  • ❌ A duplikált tartalom rombolja a bizalmat.

Az LLM-ek csökkentik a ismétlődő minták és a nem eredeti szövegek súlyát.

  • ❌ Az E-A-T a származási helyre terjed ki.

Már nem a „szakértői jelekről” van szó — hanem a nyomon követhető hitelességről és megbízhatóságról.

  • ❌ A tartalomfarmok összeomlanak.

Az LLM-ek elnyomják az alacsony eredetiségű, alacsony származású oldalakat.

  • ❌ Rangsor nem létezik – idézetek viszont igen.

Láthatóság = kiválasztás a szintézis során.

6. Mit preferálnak az LLM-ek a webes tartalmakban (az új rangsorolási tényezők)

Az LLM-ek által legfontosabbnak tartott tulajdonságok:

  • ✔ egyértelmű definíciók

  • ✔ stabil entitások

  • ✔ strukturált tartalom

  • ✔ konszenzusos összehangoltság

  • ✔ erős tematikus mélység

  • ✔ sémák

  • ✔ eredeti betekintés

  • ✔ szerzői jogok

  • ✔ alacsony kétértelműség

  • ✔ konzisztens klaszterek

  • ✔ magas tekintélyű források

  • ✔ reprodukálható tények

  • ✔ logikus formázás

Ha a tartalom mindegyiknek megfelel → „LLM-preferált” lesz.

Ha nem → akkor láthatatlanná válik.

7. Gyakorlati különbségek, amelyekhez a marketingeseknek alkalmazkodniuk kell

**A Google jutalmazza a kulcsszavakat.

Az LLM-ek a világosságot jutalmazzák.**

**A Google a visszalinkeléseket jutalmazza.

Az LLM-ek a konszenzust jutalmazzák.**

**A Google a relevanciát jutalmazza.

Az LLM-ek a szemantikai tekintélyt jutalmazzák.**

**A Google rangsorolja a dokumentumokat.

Az LLM-ek kiválasztják az információkat.**

**A Google indexeli az oldalakat.

Az LLM-ek beágyaznak jelentést.**

Ezek nem kis különbségek. Az egész tartalmi stratégia átalakítását igénylik.

Záró gondolat:

Nem a keresőrobotok számára optimalizálsz, hanem egy intelligencia rendszer számára

Ismerje meg a Ranktracker-t

Az All-in-One platform a hatékony SEO-hoz

Minden sikeres vállalkozás mögött egy erős SEO kampány áll. De a számtalan optimalizálási eszköz és technika közül lehet választani, ezért nehéz lehet tudni, hol kezdjük. Nos, ne félj tovább, mert van egy ötletem, ami segíthet. Bemutatom a Ranktracker all-in-one platformot a hatékony SEO-ért.

Végre megnyitottuk a Ranktracker regisztrációt teljesen ingyenesen!

Ingyenes fiók létrehozása

Vagy Jelentkezzen be a hitelesítő adatokkal

A Googlebot gyűjtő. Az LLM-ek tolmácsok.

Ismerje meg a Ranktracker-t

Az All-in-One platform a hatékony SEO-hoz

Minden sikeres vállalkozás mögött egy erős SEO kampány áll. De a számtalan optimalizálási eszköz és technika közül lehet választani, ezért nehéz lehet tudni, hol kezdjük. Nos, ne félj tovább, mert van egy ötletem, ami segíthet. Bemutatom a Ranktracker all-in-one platformot a hatékony SEO-ért.

Végre megnyitottuk a Ranktracker regisztrációt teljesen ingyenesen!

Ingyenes fiók létrehozása

Vagy Jelentkezzen be a hitelesítő adatokkal

A Google adatokat tárol. Az LLM-ek jelentést tárolnak.

A Google rangsorolja az URL-eket. Az LLM-ek a tudás alapján érvelnek.

Ez a változás új megközelítést igényel, amely a következőkre épül:

  • entitás stabilitás

  • kanonikus definíciók

  • strukturált tartalom

  • szemantikai klaszterek

  • források közötti konszenzus

  • eredet

  • megbízhatóság

  • egyértelműség

Ez nem a SEO evolúciója — hanem a keresőrendszer cseréje.

Ha 2025-ben és azután is látható akar lenni, akkor az AI webes látásmódjához kell optimalizálnia, nem a Google webes látásmódjához.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Kezdje el használni a Ranktracker-t... Ingyen!

Tudja meg, hogy mi akadályozza a weboldalát a rangsorolásban.

Ingyenes fiók létrehozása

Vagy Jelentkezzen be a hitelesítő adatokkal

Different views of Ranktracker app