• GEO

제너레이티브 모델을 위한 크롤링 및 렌더링

  • Felix Rose-Collins
  • 5 min read

소개

생성형 엔진은 기존 검색 크롤러와 동일한 방식으로 웹사이트를 발견하거나 읽거나 해석하지 않습니다.

GoogleBot, BingBot 및 클래식 SEO 시대의 크롤러는 다음에 집중했습니다:

  • URL

  • 링크

  • HTML

  • 메타데이터

  • 색인 가능성

  • 정규화

그러나 생성형 엔진은 다음에 집중합니다:

  • 콘텐츠 가시성

  • 구조적 명확성

  • 렌더링 완성도

  • JavaScript 호환성

  • 청크 분할

  • 의미적 경계

  • 엔티티 감지

  • 정의 추출

LLM 기반 크롤러가 콘텐츠를 완전히 크롤링하고 렌더링하지 못하면 정보는 다음과 같이 변합니다:

  • 부분적으로 수집됨

  • 잘못 분할됨

  • 불완전하게 임베딩됨

  • 잘못 분류됨

  • 요약에서 제외됨

이 글은 GEO 시대의 크롤링 가능성과 렌더링에 관한 새로운 규칙과 AI 기반 정보 수집을 위해 사이트를 준비하는 방법을 설명합니다.

1부: SEO보다 LLM에 크롤링 가능성과 렌더링이 더 중요한 이유

기존 SEO가 중시했던 요소:

  • “Google이 HTML에 접근할 수 있나요?”

  • “콘텐츠가 로드될 수 있나요?”

  • “검색 엔진이 페이지를 색인할 수 있나요?”

생성형 엔진은 훨씬 더 많은 것을 요구합니다:

  • 완전히 렌더링된 페이지 콘텐츠

  • 방해받지 않는 DOM

  • 예측 가능한 구조

  • 안정적인 의미론적 레이아웃

  • 추출 가능한 단락

  • 서버 접근 가능한 텍스트

  • 저잡음 HTML

  • 모호하지 않은 엔티티

차이는 간단합니다:

검색 엔진은 페이지를 색인화합니다. LLM은 의미를 해석합니다.

페이지가 부분적으로 렌더링되면 크롤러는 의미의 일부만 파악합니다. 크롤러가 의미의 일부만 파악하면 AI는 부정확하거나 불완전한 요약문을 생성합니다.

크롤링 가능성은 접근성을 결정합니다. 렌더링은 이해도를 결정합니다. 이 둘이 결합되어 생성형 가시성을 결정합니다.

2부: 생성 모델이 웹사이트를 크롤링하는 방식

생성형 크롤러는 다단계 파이프라인을 사용합니다:

1단계: 가져오기

엔진은 다음을 가져오려 시도합니다:

  • HTML

  • CSS

  • JS

  • 메타데이터

응답이 차단되거나 지연되거나 조건부인 경우 페이지 수집이 실패합니다.

2단계: 렌더링

엔진은 브라우저 환경을 시뮬레이션하여 완전한 DOM을 생성합니다.

페이지에 다음이 필요한 경우:

  • 여러 JS 이벤트

  • 사용자 상호 작용

  • 하이드레이션

  • 복잡한 클라이언트 측 렌더링

…크롤러가 핵심 콘텐츠를 누락할 수 있습니다.

3단계: 추출

렌더링 후 엔진은 다음을 추출합니다:

  • 단락

  • 제목

  • 목록

  • FAQ 블록

  • 스키마

  • 의미적 경계

추출은 청크 품질을 결정합니다.

4단계: 분할

텍스트는 임베딩을 위해 의미가 순수한 작은 블록으로 분할됩니다.

랭크트래커를 만나보세요

효과적인 SEO를 위한 올인원 플랫폼

모든 성공적인 비즈니스의 배후에는 강력한 SEO 캠페인이 있습니다. 하지만 선택할 수 있는 최적화 도구와 기법이 무수히 많기 때문에 어디서부터 시작해야 할지 알기 어려울 수 있습니다. 이제 걱정하지 마세요. 제가 도와드릴 수 있는 방법이 있으니까요. 효과적인 SEO를 위한 Ranktracker 올인원 플랫폼을 소개합니다.

드디어 랭크트래커에 무료로 등록할 수 있게 되었습니다!

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

렌더링 품질이 낮으면 세그먼트 형식이 손상됩니다.

5단계: 임베딩

모델은 각 청크를 벡터로 변환하여:

  • 분류

  • 클러스터링

  • 생성적 추론

챕터가 불완전하면 임베딩이 약해집니다.

제3부: 생성 모델의 크롤링 가능성 요구사항

생성 모델은 검색 엔진보다 훨씬 엄격한 크롤링 요구사항을 가집니다. 핵심 기술적 규칙은 다음과 같습니다.

요구 사항 1: 자바스크립트 뒤에 숨겨진 콘텐츠 금지

주요 콘텐츠가 다음을 통해 로드되는 경우:

  • 클라이언트 측 렌더링(CSR)

  • 무거운 JS 주입

  • 로드 후 하이드레이션

  • 사용자 상호작용이 필요한 프레임워크

AI 크롤러는 아무것도 보지 못하거나 부분적인 조각만 볼 수 있습니다.

사용 방법:

  • SSR (서버 측 렌더링)

  • SSG(정적 생성)

  • 콘텐츠 로드 하이드레이션

주요 콘텐츠에 클라이언트 측 렌더링을 절대 사용하지 마십시오.

요구 사항 2: 무한 스크롤 또는 스크롤 시 로드되는 콘텐츠 피하기

생성형 크롤러는 다음을 시뮬레이션하지 않습니다:

  • 스크롤링

  • 클릭

  • UI 상호 작용

스크롤 후에만 표시되는 콘텐츠는 AI가 인식하지 못합니다.

요구 사항 3: 렌더링 차단 스크립트 제거

무거운 스크립트는 다음과 같은 문제를 일으킬 수 있습니다:

  • 타임아웃

  • 부분 DOM 로드

  • 불완전한 렌더 트리

생성형 봇은 페이지를 부분적으로만 접근 가능한 것으로 간주합니다.

요구 사항 4: 상호작용 없이 모든 핵심 콘텐츠를 가시화하세요

피해야 할 사항:

  • 어코디언

  • "클릭하여 표시" 텍스트

  • 호버 텍스트 블록

  • JS로 트리거되는 FAQ 섹션

AI 크롤러는 UX 구성 요소와 상호작용하지 않습니다.

중요 콘텐츠는 초기 DOM에 포함되어야 합니다.

요구 사항 5: 깔끔하고 최소한의 HTML 사용

생성형 렌더링 시스템은 다음 사항에 어려움을 겪습니다:

  • div가 많은 구조

  • 중첩된 래퍼 컴포넌트

  • 과도한 aria 속성

  • 복잡한 섀도우 DOM

간결한 HTML은 더 깔끔한 청크와 더 나은 엔티티 감지를 가능하게 합니다.

요구 사항 6: JS가 많이 사용되는 요소에 대해 NoScript 대체 기능을 보장하십시오

콘텐츠 일부에 JS가 필요한 경우:

<noscript> 대체 콘텐츠를 제공하십시오.

이를 통해 모든 생성 엔진이 핵심 의미를 접근할 수 있습니다.

요구 사항 7: FAQ, 목록, 정의에 대한 직접 HTML 접근 제공

AI 엔진은 다음을 우선시합니다:

  • Q&A 블록

  • 글머리 기호

  • 단계

  • 마이크로 정의

이러한 요소는 JS로 생성된 것이 아닌 원시 HTML에서 직접 확인 가능해야 합니다.

4부: 생성 모델의 렌더링 요구 사항

렌더링 품질은 AI가 추출할 수 있는 의미의 양을 결정합니다.

규칙 1: 사용자 상호작용 전에 전체 콘텐츠 렌더링

LLM 크롤러의 경우 콘텐츠는 반드시 렌더링되어야 합니다:

  • 즉시

  • 완전히

  • 사용자 입력 없이

사용:

  • SSR

  • 사전 렌더링

  • 정적 HTML 스냅샷

  • 폴백 기능이 있는 하이브리드 렌더링

의미를 드러내기 위해 사용자 행동을 요구하지 마십시오.

규칙 2: 렌더링 안정적인 레이아웃 제공

AI 엔진은 요소가 예측 불가능하게 이동하거나 로드될 때 실패합니다.

SSR + 하이드레이션이 이상적입니다. 폴백 없는 CSR은 생성적 죽음입니다.

규칙 3: 렌더링 깊이를 얕게 유지하라

깊은 DOM 중첩은 청크 혼란을 증가시킵니다.

랭크트래커를 만나보세요

효과적인 SEO를 위한 올인원 플랫폼

모든 성공적인 비즈니스의 배후에는 강력한 SEO 캠페인이 있습니다. 하지만 선택할 수 있는 최적화 도구와 기법이 무수히 많기 때문에 어디서부터 시작해야 할지 알기 어려울 수 있습니다. 이제 걱정하지 마세요. 제가 도와드릴 수 있는 방법이 있으니까요. 효과적인 SEO를 위한 Ranktracker 올인원 플랫폼을 소개합니다.

드디어 랭크트래커에 무료로 등록할 수 있게 되었습니다!

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

이상적인 깊이: 5~12단계, 30단계 이상은 피하세요.

규칙 4: 주요 텍스트에는 섀도우 DOM과 웹 컴포넌트 사용을 피하라

섀도 DOM은 크롤러로부터 콘텐츠를 숨깁니다.

생성형 크롤러는 사용자 정의 요소를 안정적으로 탐색하지 못합니다.

텍스트를 숨기는 프레임워크는 피하십시오.

규칙 5: 표준 의미론적 요소 사용

사용:

  • <h1>–<h4>

  • <p>

  • <ul>

  • <ol>

  • <li>

  • <section>

  • <article>

AI 모델은 분할을 위해 이들에 크게 의존합니다.

규칙 6: 스키마가 서버 측에서 렌더링되도록 하십시오

JS를 통해 렌더링된 스키마는 종종:

  • 놓친

  • 부분적으로 파싱됨

  • 일관성 없는 크롤링

서버 렌더링된 HTML에 JSON-LD를 포함하세요.

파트 5: 생성형 크롤링을 위한 사이트 아키텍처 규칙

사이트 구조는 LLM의 정보 흡수를 방해하지 않고 지원해야 합니다.

1. 평면 구조가 계층 구조보다 우수함

LLM은 SEO 크롤러보다 적은 계층을 탐색합니다.

사용:

  • 얕은 폴더 깊이

  • 깨끗한 URL

  • 논리적 최상위 카테고리

중요한 페이지를 계층 구조 깊숙이 묻지 마십시오.

2. 모든 핵심 페이지는 JS 없이도 탐색 가능해야 함

탐색 구조는 다음과 같아야 합니다:

  • 순수 HTML

  • 크롤링 가능

  • 원본 소스에서 가시적

JS 네비게이션 → 부분적 발견 가능.

3. 내부 링크는 일관적이고 빈번해야 합니다

내부 링크는 AI가 다음을 이해하는 데 도움이 됩니다:

  • 엔티티 관계

  • 클러스터 멤버십

  • 카테고리 배치

약한 링크 = 약한 클러스터링.

4. 고아 페이지를 완전히 제거하세요

생성형 엔진은 내부 경로가 없는 페이지를 거의 크롤링하지 않습니다.

모든 페이지는 다음에서 링크를 받아야 합니다:

  • 상위 클러스터 페이지

  • 용어집

  • 관련 기사

  • 필러 콘텐츠

파트 6: 생성형 크롤링 가능성 테스트

페이지가 생성형 검색 엔진에 적합한지 확인하려면:

테스트 1: 기본 사용자 에이전트로 가져오기 및 렌더링

cURL 또는 최소한의 크롤러를 사용하여 로드되는 내용을 확인합니다.

테스트 2: JS 비활성화 후 핵심 콘텐츠 확인

콘텐츠가 사라지면 → 생성형 콘텐츠로 읽을 수 없음.

테스트 3: HTML 스냅샷 사용

중요한 모든 요소가 원시 HTML에 존재하는지 확인합니다.

테스트 4: LLM "이 페이지에 무엇이 있나요?" 테스트

URL을 다음에 붙여넣기:

  • ChatGPT

  • Claude

  • Gemini

  • 퍼플렉시티

모델이:

  • 오독

  • 내용 누락

  • 의미를 가정하다

  • 환각된 부분들

렌더링이 불완전합니다.

테스트 5: 청크 경계 테스트

LLM에게 질문하세요:

"이 URL의 주요 섹션을 나열하세요."

랭크트래커를 만나보세요

효과적인 SEO를 위한 올인원 플랫폼

모든 성공적인 비즈니스의 배후에는 강력한 SEO 캠페인이 있습니다. 하지만 선택할 수 있는 최적화 도구와 기법이 무수히 많기 때문에 어디서부터 시작해야 할지 알기 어려울 수 있습니다. 이제 걱정하지 마세요. 제가 도와드릴 수 있는 방법이 있으니까요. 효과적인 SEO를 위한 Ranktracker 올인원 플랫폼을 소개합니다.

드디어 랭크트래커에 무료로 등록할 수 있게 되었습니다!

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

실패할 경우, 제목이나 HTML 구조가 불분명합니다.

파트 7: 크롤링 가능성 + 렌더링 청사진 (복사/붙여넣기)

GEO 기술적 준비를 위한 최종 체크리스트는 다음과 같습니다:

크롤링 가능성

  • JS 불필요 콘텐츠

  • SSR 또는 정적 HTML 사용

  • 무한 스크롤 없음

  • 최소한의 스크립트

  • 상호작용이 필요한 컴포넌트 없음

  • 원시 HTML에서 콘텐츠 가시성

  • 고아 페이지 없음

렌더링

  • 전체 콘텐츠 즉시 로드

  • 레이아웃 이동 없음

  • 주요 콘텐츠에 대한 섀도 DOM 없음

  • 스키마는 서버 렌더링됨

  • 의미론적 HTML 구조

  • 깔끔한 H1–H4 계층 구조

  • 짧은 단락 및 추출 가능한 블록

아키텍처

  • 얕은 폴더 깊이

  • 크롤링 가능한 HTML 네비게이션

  • 강력한 내부 링크

  • 사이트 전반에 걸친 명확한 엔티티 클러스터링

이 청사진은 생성형 엔진이 콘텐츠를 정확하게 크롤링, 렌더링, 세분화 및 수집할 수 있도록 보장합니다.

결론: 크롤링 가능성과 렌더링은 GEO의 숨겨진 핵심 요소입니다

SEO는 크롤링 가능성 = 색인 가능성을 가르쳐 주었습니다. GEO는 렌더링 가능성 = 이해 가능성을 가르쳐 줍니다.

사이트가 다음 조건을 충족하지 못하면:

  • 완전히 크롤링 가능

  • 완전히 렌더링 가능

  • 구조적으로 명확함

  • 일관된 링크 구조

  • 의미론적으로 조직화됨

  • JS 선택적

  • 정의 중심적

…생성형 엔진이 의미를 추출할 수 없으며, 결과적으로 가시성을 잃게 됩니다.

크롤링 가능성은 AI의 접근을 허용합니다. 렌더링은 AI의 이해를 가능하게 합니다. 이 둘이 결합되어 생성적 가시성을 제공합니다.

GEO 시대에 사이트는 단순히 로드되는 것 이상이어야 합니다. AI가 읽을 수 있는 방식으로 로드되어야 합니다 .

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

랭크트래커 사용 시작하기... 무료로!

웹사이트의 순위를 떨어뜨리는 요인이 무엇인지 알아보세요.

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

Different views of Ranktracker app