• LLM

LLM이 Google과 다르게 웹을 크롤링하고 색인을 생성하는 방법

  • Felix Rose-Collins
  • 4 min read

소개

구글은 25년 동안 하나의 핵심 시스템을 완성해 왔습니다:

크롤링 → 색인화 → 순위 매기기 → 서비스 제공

그러나 현대 AI 검색 엔진 — ChatGPT Search, Perplexity, Gemini, Copilot —은 완전히 다른 아키텍처로 작동합니다:

크롤링 → 임베딩 → 검색 → 합성

이러한 시스템은 전통적인 의미의 검색 엔진이 아닙니다. 문서를 순위 매기지 않습니다. 키워드를 평가하지 않습니다. 페이지랭크를 계산하지 않습니다.

대신 대규모 언어 모델(LLM)은 웹을 의미로 압축하고, 그 의미를 벡터로 저장한 후 다음을 기반으로 답변을 재구성합니다:

  • 의미론적 이해

  • 합의 신호

  • 신뢰 패턴

  • 검색 점수

  • 문맥적 추론

  • 엔티티 명확성

  • 출처

이는 마케터들이 콘텐츠 구조화, 엔티티 정의, 권위 구축 방식을 근본적으로 재고해야 함을 의미합니다.

이 가이드는 LLM이 웹을 '크롤링'하는 방식, '색인화'하는 방식, 그리고 그 과정이 구글의 기존 검색 파이프라인과 전혀 다른 이유를 분석합니다.

1. 구글의 파이프라인 vs. LLM 파이프라인

두 시스템을 가능한 한 간단하게 비교해 보겠습니다.

구글 파이프라인 (기존 검색)

구글은 예측 가능한 4단계 아키텍처를 따릅니다:

1. 크롤링

Googlebot이 페이지를 가져옵니다.

2. 색인화

Google은 텍스트를 분석하고, 토큰을 저장하며, 키워드를 추출하고, 점수화 신호를 적용합니다.

3. 순위 매기기

알고리즘(페이지랭크, BERT, 평가자 가이드라인 등)이 표시될 URL을 결정합니다.

4. 제공

사용자는 순위별 URL 목록을 확인합니다.

이 시스템은 URL 우선, 문서 우선, 키워드 우선입니다.

LLM 파이프라인 (AI 검색 + 모델 추론)

LLM은 완전히 다른 스택을 사용합니다:

1. 크롤링

AI 에이전트가 공개 웹과 신뢰도 높은 출처에서 콘텐츠를 가져옵니다.

2. 임베딩

콘텐츠는 벡터 임베딩(고밀도 의미 표현)으로 변환됩니다.

3. 검색

쿼리가 도착하면 의미 검색 시스템이 URL이 아닌 가장 잘 일치하는 벡터를 추출합니다.

4. 합성

LLM은 정보를 서사적 답변으로 통합하며, 선택적으로 출처를 인용합니다.

이 시스템은 의미 우선, 엔티티 우선, 컨텍스트 우선입니다.

LLM 기반 검색에서는 관련성이 순위(ranking)가 아닌 관계(relationship)를 통해 계산됩니다.

2. LLM 크롤링의 실제 작동 방식 (구글과는 전혀 다름)

LLM 시스템은 단일 통합 크롤러로 운영되지 않습니다. 하이브리드 크롤링 계층을 사용합니다:

레이어 1 — 훈련 데이터 크롤링 (대규모, 느림, 기초)

여기에는 다음이 포함됩니다:

  • 커먼 크롤

  • 위키백과

  • 정부 데이터 세트

  • 참고 자료

  • 도서

  • 뉴스 아카이브

  • 권위 있는 사이트

  • Q&A 사이트

  • 학술 자료

  • 라이선스 콘텐츠

이 크롤링은 수개월에서 수년이 소요되며 기초 모델을 생성합니다.

랭크트래커를 만나보세요

효과적인 SEO를 위한 올인원 플랫폼

모든 성공적인 비즈니스의 배후에는 강력한 SEO 캠페인이 있습니다. 하지만 선택할 수 있는 최적화 도구와 기법이 무수히 많기 때문에 어디서부터 시작해야 할지 알기 어려울 수 있습니다. 이제 걱정하지 마세요. 제가 도와드릴 수 있는 방법이 있으니까요. 효과적인 SEO를 위한 Ranktracker 올인원 플랫폼을 소개합니다.

드디어 랭크트래커에 무료로 등록할 수 있게 되었습니다!

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

이 크롤링에 'SEO'로 접근할 수 없습니다. 다음과 같은 방식으로 영향을 미칠 수 있습니다:

  • 권위 있는 사이트의 백링크

  • 강력한 엔티티 정의

  • 광범위한 언급

  • 일관된 설명

엔티티 임베딩이 처음 형성되는 단계입니다.

레이어 2 — 실시간 검색 크롤러 (빠름, 빈번함, 좁음)

ChatGPT Search, Perplexity, Gemini에는 실시간 크롤링 레이어가 있습니다:

  • 실시간 페쳐

  • 주문형 봇

  • 최신 콘텐츠 감지기

  • 표준 URL 해결기

  • 인용 크롤러

이들은 Googlebot과 다르게 동작합니다:

  • ✔ 훨씬 적은 수의 페이지를 수집합니다

  • ✔ 신뢰할 수 있는 출처를 우선시합니다

  • ✔ 핵심 섹션만 파싱합니다

  • ✔ 키워드 색인이 아닌 의미론적 요약 생성

  • ✔ 토큰이 아닌 임베딩을 저장합니다

페이지가 "순위"를 매길 필요는 없습니다 — 모델이 의미를 추출하기만 하면 됩니다.

레이어 3 — RAG(검색 강화 생성) 파이프라인

많은 AI 검색 엔진은 미니 검색 엔진처럼 작동하는 RAG 시스템을 사용합니다:

  • 자체 임베딩을 구축합니다

  • 그들은 자체 의미론적 색인을 유지합니다

  • 콘텐츠의 최신성을 확인합니다

  • 구조화된 요약본을 선호합니다

  • 문서를 AI 적합성에 따라 점수화합니다

이 계층은 기계가 먼저 읽을 수 있도록 설계됩니다 — 키워드보다 구조가 더 중요합니다.

레이어 4 — 내부 모델 크롤링("소프트 크롤링")

LLM이 웹을 크롤링하지 않을 때도 자체 지식을 "크롤링"합니다:

  • 임베딩

  • 클러스터

  • 엔티티 그래프

  • 합의 패턴

콘텐츠를 게시하면 LLM은 다음을 평가합니다:

  • 이는 기존 지식을 강화하는가?

  • 이는 합의와 모순되는가?

  • 모호한 엔티티를 명확히 하는가?

  • 사실에 대한 확신을 높이는가?

이 소프트 크롤링에서 LLM의 역량이 가장 중요하게 작용합니다.

3. LLM이 웹을 "색인화"하는 방식 (구글과 완전히 다름)

구글의 인덱스는 저장합니다:

  • 토큰

  • 키워드

  • 역방향 인덱스

  • 페이지 메타데이터

  • 링크 그래프

  • 신선도 신호

LLM은 저장합니다:

  • ✔ 벡터 (밀집형 의미)

  • ✔ 의미적 클러스터

  • ✔ 엔티티 관계

  • ✔ 개념 지도

  • ✔ 합의 표현

  • ✔ 사실적 확률 가중치

  • ✔ 출처 신호

이 차이는 아무리 강조해도 지나치지 않습니다:

**구글은 문서를 색인합니다.

LLM은 의미를 색인합니다.**

색인화를 위해 최적화하지 마십시오 — 이해를 위해 최적화하십시오.

4. LLM "색인화"의 6단계

LLM이 페이지를 처리할 때 발생하는 과정은 다음과 같습니다:

1단계 — 분할

페이지가 의미 블록(단락이 아님)으로 분할됩니다.

잘 구조화된 콘텐츠 = 예측 가능한 청크.

2단계 — 임베딩

각 청크는 벡터(의미를 수학적으로 표현한 형태)로 변환됩니다.

약하거나 불분명한 글 = 잡음이 많은 임베딩.

3단계 — 엔티티 추출

LLM은 다음과 같은 엔티티를 식별합니다:

  • 랭크트래커

  • 키워드 연구

  • 백링크 분석

  • AIO

  • SEO 도구

  • 경쟁사 이름

엔티티가 불안정하면 → 인덱싱 실패.

4단계 — 의미적 연결

LLM은 콘텐츠를 다음과 연결합니다:

  • 관련 개념

  • 관련 브랜드

  • 클러스터 주제

  • 표준 정의

약한 클러스터 = 약한 의미적 연결.

5단계 — 합의 정렬

LLM은 사실들을 다음과 비교합니다:

  • 위키백과

  • 정부 출처

  • 권위 있는 사이트

  • 확립된 정의

모순 = 페널티.

6단계 — 신뢰도 점수 부여

LLM은 콘텐츠에 확률 가중치를 부여합니다:

  • 신뢰도는 어느 정도인가?

  • 일관성은 어느 정도인가?

  • 얼마나 독창적인가?

  • 권위 있는 출처와 얼마나 일치하는가?

  • 시간에 따른 안정성은 어느 정도인가?

이 점수는 생성형 답변에 사용될지 여부를 결정합니다.

5. LLM "인덱싱"이 SEO 전략을 쓸모없게 만드는 이유

몇 가지 주요 결과:

  • ❌ 키워드가 관련성을 결정하지 않습니다.

관련성은 문자열 일치가 아닌 의미론적 의미에서 비롯됩니다.

  • ❌ 링크의 중요도는 다릅니다.

백링크는 페이지랭크가 아닌 엔티티 안정성과 합의도를 강화합니다.

  • ❌ 빈약한 콘텐츠는 즉시 무시됩니다.

안정적인 임베딩을 구축할 수 없다면 → 무용지물입니다.

  • ❌ 중복 콘텐츠는 신뢰를 파괴합니다.

LLM은 반복 패턴과 비독창적 텍스트의 가중치를 낮춥니다.

  • ❌ E-A-T는 출처(provenance)로 진화합니다.

더 이상 "전문성 신호"가 중요한 것이 아닙니다 — 추적 가능한 진정성과 신뢰성이 핵심입니다.

  • ❌ 콘텐츠 팜은 붕괴됩니다.

LLM은 독창성과 출처가 낮은 페이지를 억제합니다.

  • ❌ 순위는 존재하지 않는다 — 인용이 존재한다.

가시성 = 합성 과정에서 선택되는 것.

6. 웹 콘텐츠에서 LLM이 선호하는 요소 (새로운 순위 결정 요소)

LLM이 최우선으로 고려하는 특성:

  • ✔ 명확한 정의

  • ✔ 안정적인 엔티티

  • ✔ 구조화된 콘텐츠

  • ✔ 합의된 정렬

  • ✔ 강력한 주제 깊이

  • ✔ 스키마

  • ✔ 독창적인 통찰력

  • ✔ 저자 귀속

  • ✔ 낮은 모호성

  • ✔ 일관된 클러스터

  • ✔ 권위 있는 출처

  • ✔ 재현 가능한 사실

  • ✔ 논리적인 서식

콘텐츠가 이 모든 조건을 충족하면 → "LLM 선호" 콘텐츠가 됩니다.

그렇지 않다면 → 가시성이 사라집니다.

7. 마케터가 적응해야 할 실질적 차이점

**구글은 키워드를 보상합니다.

LLM은 명확성을 보상합니다.**

**구글은 백링크를 보상합니다.

LLM은 합의점을 보상합니다.**

**구글은 관련성을 보상합니다.

LLM은 의미적 권위를 보상합니다.**

**구글은 문서를 순위 매깁니다.

LLM은 정보를 선택합니다.**

**구글은 페이지를 색인합니다.

LLM은 의미를 내포합니다.**

이는 사소한 차이가 아닙니다. 전체 콘텐츠 전략을 재구축해야 합니다.

마지막으로:

크롤러를 위한 최적화가 아닙니다 — 지능형 시스템을 위한 최적화입니다

랭크트래커를 만나보세요

효과적인 SEO를 위한 올인원 플랫폼

모든 성공적인 비즈니스의 배후에는 강력한 SEO 캠페인이 있습니다. 하지만 선택할 수 있는 최적화 도구와 기법이 무수히 많기 때문에 어디서부터 시작해야 할지 알기 어려울 수 있습니다. 이제 걱정하지 마세요. 제가 도와드릴 수 있는 방법이 있으니까요. 효과적인 SEO를 위한 Ranktracker 올인원 플랫폼을 소개합니다.

드디어 랭크트래커에 무료로 등록할 수 있게 되었습니다!

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

Googlebot은 수집가입니다. LLM은 해석자입니다.

랭크트래커를 만나보세요

효과적인 SEO를 위한 올인원 플랫폼

모든 성공적인 비즈니스의 배후에는 강력한 SEO 캠페인이 있습니다. 하지만 선택할 수 있는 최적화 도구와 기법이 무수히 많기 때문에 어디서부터 시작해야 할지 알기 어려울 수 있습니다. 이제 걱정하지 마세요. 제가 도와드릴 수 있는 방법이 있으니까요. 효과적인 SEO를 위한 Ranktracker 올인원 플랫폼을 소개합니다.

드디어 랭크트래커에 무료로 등록할 수 있게 되었습니다!

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

구글은 데이터를 저장합니다. LLM은 의미를 저장합니다.

구글은 URL을 순위 매깁니다. LLM은 지식으로 추론합니다.

이러한 변화는 새로운 접근법을 요구합니다 — 다음을 기반으로 구축된 접근법입니다:

  • 엔티티 안정성

  • 정식 정의

  • 구조화된 콘텐츠

  • 의미 클러스터

  • 크로스 소스 합의

  • 출처

  • 신뢰성

  • 명확성

이는 SEO의 진화가 아닙니다 — 검색 시스템의 대체입니다.

2025년 이후에도 가시성을 확보하려면, 구글이 웹을 보는 방식이 아닌 AI가 웹을 인식하는 방식에 맞춰 최적화해야 합니다.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

랭크트래커 사용 시작하기... 무료로!

웹사이트의 순위를 떨어뜨리는 요인이 무엇인지 알아보세요.

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

Different views of Ranktracker app