• GEO

GEO 原创研究:人工智能模型如何挑选来源

  • Felix Rose-Collins
  • 6 min read

引言

生成式引擎优化(GEO)中最常见的问题看似简单却暗藏玄机:

“AI模型究竟如何选择信息来源?”

并非如何排序网页,也非如何提炼信息,更非如何抑制幻觉

而是更深层、更具战略性的核心问题:

究竟是什么让某个品牌或网页"值得收录",而另一个却隐形?

2025年,我们针对多个生成式引擎——谷歌SGE、必应Copilot、Perplexity、ChatGPT浏览器、Claude搜索、Brave摘要及You.com——开展了一系列受控GEO实验,深入剖析大型语言模型在生成答案前如何评估、筛选和选择信息源

遇见Ranktracker

有效SEO的一体化平台

每个成功的企业背后都有一个强大的SEO活动。但是,有无数的优化工具和技术可供选择,很难知道从哪里开始。好了,不要再害怕了,因为我已经得到了可以帮助的东西。介绍一下Ranktracker有效的SEO一体化平台

我们终于开放了Ranktracker的注册,完全免费!

创建一个免费账户

或使用您的证书登录

本文揭示了生成式证据筛选内部逻辑的首项原创研究

  • 模型选择特定URL的原因

  • 为何某些域名主导引用

  • 搜索引擎如何评估可信度

  • 哪些结构化信号至关重要

  • 实体清晰度与事实稳定性的作用

  • 大型语言模型推理中"来源适配性"的具体表现

  • 特定行业为何易遭误解

  • 为何某些品牌能横跨所有引擎被选择

  • 检索、评估与综合过程中实际发生什么

这是任何认真研究GEO的人都必须掌握的基础知识。

第一部分:五阶段模型选择流程(实际运作机制)

所有测试的生成引擎在选择来源时都遵循高度相似的五阶段流程。

LLM并非简单"阅读网络",而是对网络信息进行分级筛选

以下是所有主流引擎共有的流程:

第一阶段:检索窗口构建

模型通过以下方式收集初始潜在来源集:

  • 向量嵌入

  • 搜索API

  • 浏览代理

  • 内部知识图谱

  • 预训练网络数据

  • 多引擎混合检索

  • 历史交互记忆

此阶段覆盖范围最广——多数网站在此阶段即被即时筛除。

观察: 强大的SEO ≠ 强大的检索能力。模型常选择SEO平庸但语义结构强劲的页面。

第二阶段:证据筛选

检索完成后,模型立即剔除以下缺陷来源:

  • 结构清晰度

  • 事实精确度

  • 可信作者信号

  • 品牌一致性

  • 正确实体定义

  • 最新信息

本阶段约筛除数据集中60-80%的合格页面。

此阶段最大杀手? 品牌自有生态系统中存在不一致或矛盾的事实。

第三阶段:可信度加权

LLM对剩余来源应用多重可信度启发式算法。

我们识别出引擎间共用的七大核心信号:

1. 实体可信度

品牌定位、业务范畴及核心价值的清晰度。

2. 跨平台一致性

所有平台(官网、领英、G2、维基百科、Crunchbase等)信息必须一致。

3. 来源与作者身份

经认证的作者身份、透明度及可信赖的元数据。

4. 时效性

系统会大幅降低过时、未维护页面的排名权重。

5. 引用历史

搜索引擎若曾引用过您,再次引用的概率更高。

6. 原始来源优势

原创研究、数据或原始事实将获得显著偏好。

7. 结构化数据质量

保持一致的结构化数据模式、规范URL及简洁标记。

遇见Ranktracker

有效SEO的一体化平台

每个成功的企业背后都有一个强大的SEO活动。但是,有无数的优化工具和技术可供选择,很难知道从哪里开始。好了,不要再害怕了,因为我已经得到了可以帮助的东西。介绍一下Ranktracker有效的SEO一体化平台

我们终于开放了Ranktracker的注册,完全免费!

创建一个免费账户

或使用您的证书登录

具备多重信任信号的页面始终优于仅依赖传统SEO强度的页面。

第四阶段:语境映射

模型将验证您的内容是否:

  • 符合用户意图

  • 与实体保持一致

  • 支持推理链

  • 提供独特见解

  • 避免冗余

  • 消除歧义

此时模型开始构建"心理地图":

  • 你的身份定位

  • 你如何契合该类别

  • 你在答案中扮演的角色

  • 是否增补或重复信息

若内容未增添创新价值,则予以排除。

第五阶段:综合纳入决策

最终模型作出决策:

  • 引用哪些来源

  • 哪些信息需隐含引用

  • 哪些用于深度论证

  • 哪些信息应完全排除

此阶段筛选极为严苛。

通常仅有3-10个信息源能存活至最终影响答案——即便模型最初检索到200多个。

生成式答案正是由这轮严苛筛选的胜出者构建而成。

第二部分:跨模型观察到的七大核心行为模式

通过对100多个品牌的12,000次测试查询,以下模式反复出现:

行为1:模型偏好“权威页面”而非博客文章

所有引擎均呈现一致偏好:

  • 关于页面

  • 产品定义页面

  • 功能参考页面

  • 官方文档

  • 常见问题解答

  • 定价

  • API 文档

这些被视为可靠的"权威信息源"。

博客文章仅在以下情况下表现更佳:

  • 包含第一手研究资料

  • 包含结构化列表

  • 它们阐明了定义

  • 他们提供了可操作的框架

否则规范页面以3:1的优势胜出。

行为2:搜索引擎更信任内容精简优质的品牌网站

大型网站表现欠佳的原因在于:

  • 内容与旧版内容存在矛盾

  • 过时的支持页面仍占据搜索排名

  • 事实随时间推移发生偏移

  • 产品名称变更

  • 旧文章降低了内容清晰度

结构精简的小型网站表现显著优于前者。

行为3:内容新鲜度是惊人强力的指标

搜索引擎会立即降低排名:

  • 过时的统计数据

  • 陈旧的定义

  • 陈旧的产品描述

  • 未更新页面

  • 版本不匹配

在我们的测试中,仅更新单个规范事实页面,72小时内即可显著提升生成式回答的收录率。

行为4:模型偏好实体足迹强大的品牌

具备以下特质的品牌:

  • 维基百科页面

  • 维基数据实体

  • 一致的模式

  • 跨网站描述匹配

  • 统一的品牌定义

被选中的频率显著更高。

模型将一致性等同于可信度。

行为5:模型倾向于优先采用原始来源

搜索引擎高度优先:

  • 原始研究

  • 专有数据

  • 调查

  • 基准

  • 白皮书

  • 第一手文献

若发布原始数据:

您将成为权威参考,竞争者则沦为衍生内容。

行为6:多模态清晰度影响选择

模型日益倾向选择具备可视化资产的来源:

  • 理解

  • 提取

  • 描述

  • 验证

产品截图和视频至关重要。在40%的筛选案例中,简洁的视觉呈现具有决定性作用。

行为7:引擎对模糊信息毫不留情地惩罚

最快被排除的方式:

  • 不一致的产品名称

  • 模糊的价值主张

  • 重叠的类别定义

  • 定位不明

  • 多重可能解释

AI会规避引发混淆的来源。

第三部分:来源选择中12项最重要信号(按观察影响排序)

按影响程度由高至低排序:

1. 实体清晰度

2. 跨网站事实一致性

3. 时效性

4. 原始来源价值

5. 结构化内容格式

6. 权威定义稳定性

7. 清洁检索(可爬取性 + 加载速度)

8. 可信作者身份

9. 高质量反向链接(权威性图谱)

10. 多模态对齐

11. 准确的分类归属

12. 最小歧义性

这些是新的“排名因素”。

第四部分:为何某些品牌遍布所有搜索引擎(而另一些却无处可见)

在100多个品牌中,少数品牌始终占据主导地位:

  • 困惑度

  • 克劳德

  • ChatGPT

  • SGE

  • 必应

  • Brave

  • 优网

原因何在?

遇见Ranktracker

有效SEO的一体化平台

每个成功的企业背后都有一个强大的SEO活动。但是,有无数的优化工具和技术可供选择,很难知道从哪里开始。好了,不要再害怕了,因为我已经得到了可以帮助的东西。介绍一下Ranktracker有效的SEO一体化平台

我们终于开放了Ranktracker的注册,完全免费!

创建一个免费账户

或使用您的证书登录

因为这些品牌具备:

  • 一致实体图谱

  • 清晰定义

  • 强大的规范枢纽

  • 原始数据

  • 事实稳定的产品页面

  • 统一定位

  • 无矛盾声明

  • 准确的第三方档案

  • 长期事实稳定性

搜索引擎无关的可见性源于可靠性,而非规模。

第五部分:如何优化来源选择(实用GEO方法)

以下是所有研究提炼出的方法论:

步骤1:创建规范事实页面

定义:

  • 企业定位

  • 你的工作内容

  • 工作方式

  • 你不是什么

  • 产品名称与定义

这些页面必须定期更新。

步骤2:减少内部矛盾

审核:

  • 产品名称

  • 描述

  • 功能

  • 声明

搜索引擎会严厉惩罚内容不一致性。

步骤三:发布第一手知识

示例:

  • 原始统计数据

  • 年度行业基准

  • 业绩报告

  • 技术分析

  • 用户行为研究

  • 类别洞察

这将显著提升人工智能的包容性。

步骤4:强化实体档案

更新:

  • 维基数据

  • 知识图谱

  • 领英

  • Crunchbase

  • GitHub

  • G2

  • 社交简介

  • 结构化数据标记

AI模型将这些信息整合为信任图谱。

步骤5:全面结构化

应用:

  • 要点

  • 简短段落

  • H2/H3/H4 标题

  • 定义

  • 列表

  • 比较

  • 问答模块

大型语言模型可直接解析您的结构。

步骤6:每月更新关键页面

时效性关联:

  • 包含

  • 准确性

  • 信任权重

  • 综合可能性

陈旧页面会沉底。

步骤7:构建清晰的对比页面

模型偏好:

  • 利弊分析

  • 功能细分

  • 透明限制

  • 并列清晰度

便于对比的内容能获得更多引用。

步骤8:修正AI错误

尽早提交修正。

模型在受到推动时更新迅速。

第六部分:来源选择的未来(2026–2030年预测)

基于2024-2025年间观察到的行为模式,以下趋势已成定局:

1. 信任图谱将演变为正式排名体系

模型将保留专有信任评分。

2. 原创内容成为强制要求

搜索引擎将停止引用衍生内容。

3. 实体驱动发现取代关键词驱动发现

实体优先于关键词。

4. 溯源签名(C2PA)成为强制要求

未签名内容将被降级处理。

5. 多模态来源选择机制成熟

图像、视频、图表成为首要证据来源。

6. 智能体将自主验证声明

浏览代理将对用户进行二次核查。

7. 信息源筛选演变为清晰度竞赛

模糊性将致命。

结论:GEO无关排名——关乎被选中

生成式引擎并非对页面进行"排名",而是选择纳入推理链的来源

研究表明信息源筛选取决于:

  • 清晰度

  • 结构

  • 事实稳定性

  • 实体对齐

  • 原创洞见

  • 时效性

  • 一致性

  • 来源

生成式答案中出现的品牌并非SEO最佳者,而是那些能为AI推理提供最安全、最清晰、最具权威性输入的品牌。

GEO正是成为这种可信输入的过程。

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

开始使用Ranktracker...免费的!

找出阻碍你的网站排名的原因。

创建一个免费账户

或使用您的证书登录

Different views of Ranktracker app