Penelitian GEO asli: Bagaimana Model AI Memilih Sumber

Pengantar

Salah satu pertanyaan paling umum dalam Optimasi Mesin Generatif (GEO) tampak sederhana, namun sebenarnya rumit:

“Bagaimana model AI sebenarnya memilih sumber mana yang akan digunakan?”

Bukan bagaimana mereka menentukan peringkat halaman. Bukan bagaimana mereka merangkum informasi. Bukan bagaimana mereka mencegah halusinasi.

Tetapi pertanyaan yang lebih dalam dan strategis:

Apa yang membuat satu merek atau halaman web “layak untuk dimasukkan,” dan yang lain tidak terlihat?

Pada tahun 2025, kami melakukan serangkaian eksperimen GEO terkontrol di berbagai mesin generatif — Google SGE, Bing Copilot, Perplexity, ChatGPT Browsing, Claude Search, Brave Summaries, dan You.com — untuk menganalisis bagaimana LLMs mengevaluasi, menyaring, dan memilih sumber sebelum menghasilkan jawaban.

Artikel ini mengungkap penelitian asli pertama tentang logika internal pemilihan bukti generatif:

mengapa model memilih URL tertentu
mengapa beberapa domain mendominasi kutipan
bagaimana mesin pencari menilai kepercayaan
sinyal struktural mana yang paling penting
peran kejelasan entitas dan stabilitas fakta
Bagaimana "kecocokan sumber" terlihat dalam penalaran LLM
Mengapa beberapa industri sering salah diartikan
Mengapa beberapa merek dipilih di semua mesin
Apa yang sebenarnya terjadi selama proses pengambilan, evaluasi, dan sintesis

Ini adalah pengetahuan dasar bagi siapa pun yang serius tentang GEO.

Bagian 1: Model Lima Tahap Proses Pemilihan Sumber (Apa yang Sebenarnya Terjadi)

Setiap mesin generatif yang diuji mengikuti alur lima tahap yang sangat mirip saat memilih sumber.

LLMs tidak sekadar “membaca web.” Mereka melakukan triase web.

Inilah alur kerja yang dibagikan oleh semua mesin utama.

Tahap 1: Pembentukan Jendela Pencarian

Model mengumpulkan kumpulan awal sumber potensial menggunakan:

embedding vektor
API pencarian
agen penjelajahan
Grafik pengetahuan internal
data web yang telah dilatih sebelumnya
pencarian gabungan multi-mesin
memori interaksi sebelumnya

Ini adalah tahap terluas — dan di sinilah sebagian besar situs web disaring secara instan.

Pengamatan: SEO yang kuat ≠ pengambilan yang kuat. Model sering memilih halaman dengan SEO yang biasa-biasa saja tetapi struktur semantik yang kuat.

Tahap 2: Penyaringan Bukti

Setelah sumber dikumpulkan, model segera mengeliminasi yang tidak memenuhi:

kejernihan struktural
ketepatan fakta
tanda keaslian penulis yang terpercaya
Branding yang konsisten
definisi entitas yang benar
informasi terkini

Di sini, sekitar 60–80% halaman yang memenuhi syarat dibuang dalam dataset kami.

Pembunuh terbesar di sini? Fakta yang tidak konsisten atau bertentangan di seluruh ekosistem merek.

Tahap 3: Penilaian Kepercayaan

LLMs menerapkan beberapa heuristik kepercayaan pada sumber yang tersisa.

Kami mengidentifikasi tujuh sinyal utama yang digunakan di berbagai mesin:

1. Kepercayaan Entitas

Kejelasan tentang apa yang dilakukan merek, apa yang diwakilinya, dan apa artinya.

2. Konsistensi Antar-Web

Fakta harus sesuai di semua platform (situs web, LinkedIn, G2, Wikipedia, Crunchbase, dll).

3. Asal Usul & Keaslian

Penulis yang terverifikasi, transparansi, dan metadata yang dapat dipercaya.

4. Keaktualan

Model menurunkan peringkat halaman yang usang dan tidak terawat secara drastis.

5. Riwayat Kutipan

Jika mesin pencari telah mengutip Anda sebelumnya, mereka lebih mungkin mengutip Anda lagi.

6. Keunggulan Sumber Asli

Penelitian asli, data, atau fakta primer sangat diutamakan.

7. Kualitas Data Terstruktur

Skema yang konsisten, URL kanonik, dan markup yang bersih.

Halaman dengan sinyal kepercayaan yang beragam secara konsisten outperformed halaman dengan kekuatan SEO tradisional.

Tahap 4: Pemetaan Kontekstual

Model memeriksa apakah konten Anda:

sesuai dengan tujuan
sesuai dengan entitas
mendukung rantai penalaran
memberikan wawasan unik
menghindari pengulangan
mengklarifikasi ambiguitas

Di sinilah model mulai membentuk "peta mental":

siapa Anda
bagaimana Anda cocok dengan kategori tersebut
peran apa yang Anda mainkan dalam jawaban
apakah Anda menambahkan atau mengulang informasi

Jika konten Anda tidak menambahkan nilai baru, maka akan dikecualikan.

Tahap 5: Keputusan Inklusi Sintesis

Akhirnya, model memutuskan:

sumber mana yang harus dikutip
mana yang harus dirujuk secara implisit
sumber mana yang digunakan untuk penalaran mendalam
sumber mana yang akan dihilangkan sepenuhnya

Tahap ini sangat selektif.

Hanya 3–10 sumber yang biasanya bertahan cukup lama untuk mempengaruhi jawaban akhir — bahkan jika model awalnya mengumpulkan lebih dari 200 sumber.

Jawaban generatif dibangun dari pemenang seleksi ini.

Bagian 2: Tujuh Perilaku Utama yang Kami Amati di Seluruh Model

Dari 12.000 kueri uji coba di lebih dari 100 merek, pola-pola berikut muncul berulang kali.

Perilaku 1: Model Lebih Memilih “Halaman Kanonik” Daripada Postingan Blog

Di setiap mesin, AI secara konsisten lebih memilih:

Halaman Tentang
Halaman definisi produk
Halaman referensi fitur
Dokumentasi resmi
Pertanyaan yang Sering Diajukan
Harga
Dokumentasi API

Hal ini dianggap sebagai artefak "sumber kebenaran" yang dapat diandalkan.

Posting blog hanya berkinerja lebih baik ketika:

mereka berisi penelitian sumber pertama
mereka mencakup daftar terstruktur
mereka menjelaskan definisi
Mereka menyediakan kerangka kerja yang dapat diterapkan

Jika tidak, halaman kanonik mengungguli mereka dengan rasio 3:1.

Perilaku 2: Mesin Pencari Mempercayai Merek dengan Halaman yang Lebih Sedikit dan Lebih Baik

Situs web besar seringkali berkinerja buruk karena:

konten bertentangan dengan konten yang lebih lama
halaman dukungan yang sudah usang masih muncul di peringkat
fakta berubah seiring waktu
nama produk telah diubah
artikel lama mengaburkan kejelasan

Situs kecil yang terstruktur dengan baik berkinerja jauh lebih baik.

Perilaku 3: Kesegaran Adalah Indikator yang Sangat Kuat

Mesin pencari langsung menurunkan peringkat:

statistik yang sudah usang
definisi yang sudah usang
Deskripsi produk lama
Halaman yang tidak diubah
ketidakcocokan versi

Memperbarui satu halaman fakta kanonik meningkatkan inklusi dalam jawaban generatif dalam 72 jam di seluruh uji coba kami.

Perilaku 4: Model Lebih Memilih Merek dengan Jejak Entitas yang Kuat

Merek dengan:

halaman Wikipedia
entitas Wikidata
skema yang konsisten
deskripsi yang sesuai di seluruh web
definisi merek yang terpadu

dipilih jauh lebih sering.

Model menginterpretasikan konsistensi = kepercayaan.

Perilaku 5: Model Memiliki Kecenderungan Terhadap Sumber Utama

Mesin pencari sangat memprioritaskan:

studi asli
data eksklusif
survei
tolok ukur
whitepaper
dokumen sumber pertama

Jika Anda mempublikasikan data asli:

Anda menjadi referensi. Pesaing menjadi turunan.

Perilaku 6: Kejelasan Multi-Modal Mempengaruhi Pemilihan

Model semakin memilih sumber yang aset visualnya dapat:

dipahami
diekstrak
dijelaskan
diverifikasi

Screenshot dan video produk penting. Visual yang bersih berperan dalam 40% kasus pemilihan.

Perilaku 7: Mesin Menerapkan Hukuman Tanpa Ampun terhadap Ketidakjelasan

Cara tercepat untuk dieliminasi:

nama produk yang tidak konsisten
proposisi nilai yang tidak jelas
definisi kategori yang tumpang tindih
posisi yang tidak jelas
berbagai interpretasi yang mungkin

AI menghindari sumber yang menimbulkan kebingungan.

Bagian 3: 12 Tanda Terpenting dalam Pemilihan Sumber (Diurutkan Berdasarkan Dampak yang Diamati)

Dari dampak tertinggi hingga terendah.

1. Kejelasan entitas

2. Konsistensi fakta lintas web

3. Kesegaran informasi

4. Nilai sumber pertama

5. Format konten terstruktur

6. Stabilitas definisi kanonik

7. Pengambilan data yang bersih (kemudahan pengindeksan + kecepatan muat)

8. Keandalan penulis

9. Tautan balik berkualitas tinggi (grafik otoritas)

10. Penyelarasan multi-modus

11. Penempatan kategori yang benar

12. Ambiguitas minimal

Inilah faktor-faktor peringkat baru.

Bagian 4: Mengapa Beberapa Merek Muncul di Semua Mesin Pencari (dan yang Lain Tidak)

Di antara lebih dari 100 merek, beberapa di antaranya secara konsisten mendominasi:

Kebingungan
Claude
ChatGPT
SGE
Bing
Brave
You.com

Mengapa?

Karena merek-merek ini memiliki:

Grafik entitas yang konsisten
definisi yang jelas dan tegas
pusat kanonik yang kuat
data asli
halaman produk yang stabil secara fakta
posisi yang terpadu
tidak ada klaim yang bertentangan
profil pihak ketiga yang akurat
stabilitas fakta jangka panjang

Visibilitas yang tidak bergantung pada mesin pencari berasal dari keandalan, bukan skala.

Bagian 5: Cara Mengoptimalkan Pemilihan Sumber (Metode GEO Praktis)

Berikut adalah metode yang disederhanakan yang muncul dari semua penelitian.

Langkah 1: Buat Halaman Fakta Kanonik

Definisikan:

siapa Anda
Apa yang Anda lakukan
bagaimana Anda bekerja
apa yang bukan Anda
nama produk dan definisinya

Halaman-halaman ini harus diperbarui secara teratur.

Langkah 2: Kurangi Kontradiksi Internal

Audit:

nama produk
deskripsi
fitur
klaim

Mesin pencari menghukum ketidakkonsistenan dengan keras.

Langkah 3: Publikasikan Pengetahuan Sumber Pertama

Contoh:

statistik asli
standar industri tahunan
laporan kinerja
analisis teknis
studi perilaku pengguna
wawasan kategori

Ini secara dramatis meningkatkan inklusi AI.

Langkah 4: Perkuat Profil Entitas

Pembaruan:

Wikidata
Grafik Pengetahuan
LinkedIn
Crunchbase
GitHub
G2
Profil Sosial
markup skema

Model AI menggabungkan ini ke dalam grafik kepercayaan.

Langkah 5: Strukturkan Segala Sesuatu

Gunakan:

poin-poin
paragraf pendek
Judul H2/H3/H4
definisi
daftar
perbandingan
Modul Tanya Jawab

LLMs menganalisis struktur Anda secara langsung.

Langkah 6: Perbarui Halaman Utama Setiap Bulan

Keterbaruan berkorelasi dengan:

inklusi
akurasi
Bobot kepercayaan
kemungkinan sintesis

Halaman yang tidak diperbarui akan tenggelam.

Langkah 7: Buat Halaman Perbandingan yang Jelas

Model menyukai:

kelebihan dan kekurangan
rincian fitur
batasan yang transparan
kejelasan perbandingan

Konten yang ramah perbandingan mendapatkan lebih banyak kutipan.

Langkah 8: Perbaiki Ketidakakuratan AI

Kirimkan koreksi sedini mungkin.

Model-model diperbarui dengan cepat saat diberi dorongan.

Bagian 6: Masa Depan Pemilihan Sumber (Prediksi 2026–2030)

Berdasarkan perilaku yang diamati selama periode 2024–2025, tren-tren berikut ini pasti terjadi:

1. Grafik kepercayaan menjadi sistem peringkat formal

Model akan mempertahankan skor kepercayaan eksklusif.

2. Konten sumber pertama menjadi wajib

Mesin pencari akan menghentikan penggunaan konten turunan.

3. Penemuan berbasis entitas menggantikan penemuan berbasis kata kunci

Entitas > kata kunci.

4. Tanda asal (C2PA) menjadi wajib

Konten yang tidak ditandatangani akan diturunkan peringkatnya.

5. Pemilihan sumber multi-moda semakin matang

Gambar, video, dan grafik menjadi bukti utama.

6. Agen akan memverifikasi klaim secara mandiri

Agen penelusuran akan memeriksa ulang klaim Anda.

7. Pemilihan sumber menjadi kompetisi kejelasan

Kekaburan menjadi fatal.

Kesimpulan: GEO Bukan Tentang Peringkat — Ini Tentang Dipilih

Mesin generatif tidak "meningkatkan peringkat" halaman. Mereka memilih sumber untuk dimasukkan ke dalam rantai penalaran.

Penelitian kami menunjukkan bahwa pemilihan sumber bergantung pada:

keterangan
struktur
stabilitas fakta
penyelarasan entitas
wawasan asli
keterbaruan
konsistensi
asal-usul

Merek yang muncul dalam jawaban generatif bukanlah yang memiliki SEO terbaik. Mereka adalah yang membuat diri mereka menjadi masukan paling aman, jelas, dan otoritatif untuk penalaran AI.

GEO adalah proses menjadi masukan yang dipercaya.