论文 · 生态

GEO: Generative Engine Optimization (Aggarwal et al. 2024)

速览要点

作者: Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan, Ameet Deshpande
发表会议: KDD 2024 (Proc. 30th ACM SIGKDD)
年份: 2024
DOI: 10.1145/3637528.3671900
链接: https://arxiv.org/abs/2311.09735
可复现性: code-and-data

通俗摘要

Aggarwal 等人提出了一个当时全新的问题：如果 AI 搜索引擎直接写出答案、而不是罗列链接，你的内容要怎样才能进入那段答案？他们把这件事形式化为「生成式引擎优化」，构建了 GEO-bench（横跨 25 个领域的 1 万条查询）来度量它，并测试了九种内容改写。结果是：补充引用、补充统计数据、补充引述，能稳定提升一个页面在合成答案中的显著程度，在其实验设置下最高可达 40%；而关键词堆砌这一 SEO 惯性动作则没有效果。

关键发现

内容层面的改写（补引用、补统计、补引述）在论文的 Position-Adjusted Word Count 指标上最高带来约 40% 的可见度提升。
「最高 40%」是特定方法、特定领域下的上界，而非平均效应；这一标题数字在从业者写作中被普遍过度泛化。
方法效果取决于领域与引擎：Cite Sources 在事实型查询上最优，Authoritative 在辩论与历史类最优，Statistics Addition 在法律与观点类最优。
关键词堆砌这一传统 SEO 惯性动作没有帮助、甚至可能有害，这是 GEO 并非 SEO 手法换名的早期证据。
排名靠后的页面收益最大（Cite Sources 让排在第 5 位的页面提升 +115.1%），说明 GEO 在一定程度上重新平衡了搜索中的既有位次优势。
效果在真实引擎（Perplexity.ai，最高约 22%）上仍成立，但明显小于内部引擎的数字，外部效度有边界。

1. 这篇论文是什么，为什么它奠定了整个领域

这个领域的名字就出自这篇论文。GEO: Generative Engine Optimization（Aggarwal et al., KDD 2024）是 GEO 一词的学术来源。

它最关键的一步，是把一个含糊的从业者直觉（「让我的内容进入 AI 答案」）变成了一个可度量的优化问题，并配上一套公开基准。

论文给出的定义是狭义的，只在它自己的基准之内成立，研究对象是针对一个固定评测装置所做的内容改写；「GEO」一词后来才被从业者拿去指代整个学科。

属性	内容
作者	Aggarwal, Murahari, Rajpurohit, Kalyan, Narasimhan, Deshpande
发表	KDD 2024（Proc. 30th ACM SIGKDD）
标识	arXiv 2311.09735 · DOI 10.1145/3637528.3671900
产出物	代码 + GEO-bench 数据，Apache-2.0

2. 它形式化了什么问题

论文立论的起点是一处结构性断裂：结果页过去是一列排序链接，生成式引擎返回的却是单一合成答案。可见度（visibility）不再等同于排名。

论文有意把建模简化到最少：

生成式引擎是一个黑箱：内容创作者无法改动模型，只能改动作为输入的网页内容。
目标是最大化内容在合成答案中的可见度，而非它在链接列表中的排名。
因此，成功取决于答案如何使用你的文本。论文之所以要另立一个新指标（见 §4），而不沿用排名，根源正在这里。

支撑这一切的，是检索（retrieval）与采信（grounding）机制：引擎为何抽取某些来源，又如何据以生成答案。这是论文的前提，answer loop 有详述，Gao et al. 2023 也对其做过综述。本论文把这套机制当作已知，只在它之上提出优化问题。

3. 方法学：GEO 框架与 GEO-bench

论文评估了九种内容优化方法，每一种都是对候选网页来源所做的一类改写：

#	方法	一句话意图
1	Authoritative	以更具权威性的语气改写
2	Statistics Addition	补充相关的量化数据
3	Keyword Stuffing	增加查询关键词（SEO 惯性动作）
4	Cite Sources	增加对可信来源的引用
5	Quotation Addition	增加相关引述
6	Easy-to-Understand	简化语言
7	Fluency Optimization	提升流畅度
8	Unique Words	增加不常见或独特的词汇
9	Technical Terms	增加领域技术术语

基准 GEO-bench 的构建方式：

1 万条查询，划分为 8K 训练、1K 验证、1K 测试。
取自 9 个数据集：MS MARCO、ORCAS-I、Natural Questions、AllSouls、LIMA、Davinci-Debate、Perplexity.ai Discover、ELI5，以及 GPT-4 生成的查询。
25 个领域（如 Arts、Health、Games），配七种归类方式。
每条查询附带其 Google 前 5 条结果，作为候选来源集。

实验在两个引擎上进行：一个是内部搭建的生成式引擎（GPT-3.5-turbo，在 Google 前 5 条结果上加提示），另一个是已经上线的 Perplexity.ai，用来在真实环境里做一次对照验证。

4. 「印象」指标：论文被引用最多的贡献

这篇论文里被反复沿用的，不是某个具体做法，而是一个指标。它把引用与提及这组非此即彼的划分，改写成一个连续、且随位置变化的量。

论文提出两个可见度度量：

Position-Adjusted Word Count (Imp_pwc)：
  对被引用句子 s 求和：|s| · e^(-pos(s)/|S|)
  再除以回答总词数

= 你被引用句子的词数，按其在答案中
  出现的早晚做指数衰减。

Subjective Impression：
  由 GPT-3.5 在 7 个子维度上评分的综合指标：
  相关性 · 影响力 · 独特性 · 主观位置 ·
  主观计数 · 点击可能性 · 多样性

比起「有没有被引用」这种是非判断，它衡量的是一个来源在多大程度上塑造了答案，而这恰恰是可引用性（citability）真正要优化的对象。后来多数厂商的 KPI 与 GEO 度量框架，都沿用了这一按位置加权的思路。

5. 主要发现

标题数字如下，更要紧的是它的适用边界：

发现	细节
标题提升	GEO 方法在 Position-Adjusted Word Count 上把可见度最高提升约 40%
最优方法	Quotation Addition +41%（PAWC）；Statistics Addition +37%（Subjective）；Cite Sources +30%（PAWC）
并非平均	「最高 40%」是按方法、按领域计的上界，不能当作一律可指望的预期增益
取决于领域	Cite Sources → 事实型查询；Authoritative → 辩论 / 历史；Statistics → 法律与观点
SEO 惯性失效	Keyword Stuffing 没有帮助，且可能有害
重新平衡位次	排名第 5 的页面收益最大，Cite Sources 给它们带来 +115.1%
真实引擎校验	在 Perplexity.ai 上提升最高约 22%，小于内部引擎

把「SEO 惯性失效」和「真实引擎校验」这两条放到一起看，可以得出一条该做的事和一条该警惕的事：该做的是让内容实质胜过关键词技巧；该警惕的是这个百分比只是上限，并不是可以指望的常规值。

6. GEO Wiki 评估

先充分肯定它的贡献。这三项贡献确实是奠基性的，至今依然立得住：

命名与界定。把「进入 AI 答案」转化为一个黑箱优化问题，是整个领域据以建立的那一步。
印象指标。位置调整后的连续可见度是正确的计量单位，并被广泛沿用。
公开基准。GEO-bench 让这一主张变得可以检验，后续的批判之所以能成立，前提恰恰在此。

接下来是四点有边界的批判：

外部效度。受测引擎停留在 2023–24 年的形态，即一个内部 GPT-3.5 装置加 Perplexity.ai。今天的 ChatGPT Search、Gemini 与 Google AI Overviews 在检索与合成上都已不同，论文的结论既覆盖不到它们，引用时也不该假定已经涵盖。
基准漂移。GEO-bench 的语料与引擎都会老化。「40%」只是 2024 年某个时点的快照，不能跨时间当作常数搬用。
复现结果指向相反方向。Puerto 等人的 C-SEO Bench（NeurIPS 2025 Datasets & Benchmarks）发现，一旦多方针对同一引擎同时优化，许多对话式 SEO 改写就会失效，甚至适得其反。本论文测得的提升只反映单一行为者的情形，是上界，并不代表多方博弈后的均衡。
标题数字的表述。「最高 40%」在从业者写作中被传成「约 40%」。准确的说法是：这是一个按方法、按领域计的最大值，在真实引擎上已缩到约 22%，并可能在竞争与可信度过滤（E-E-A-T 压力）下进一步缩小。

GEO Wiki 的判定是：奠基不等于可以直接照搬。值得沿用的是它指出的方向，即内容实质（来源、统计、引述）胜过关键词操纵；不值得沿用的是那个具体数字，不要把它当作规划依据。

7. 可复现性

以下状态在撰稿时（2026-05-17）逐项实地核实过，并非凭推测：

产出物	状态
源代码	公开：`github.com/GEO-optim/GEO`（`run_geo.py`、`geo_functions.py`）
基准数据	公开：HuggingFace `GEO-optim/geo-bench`
许可	Apache-2.0
项目页	`generative-engines.com/GEO/`

字段取值：code-and-data。方法实现与 GEO-bench 均开放可得，因此标题实验可被独立复现。相对于这一领域的多数论文，这是一个实在的优点。

8. 它对从业者意味着什么

哪些可以拿来用，哪些不能：

可以用：内容实质类的改写。补充可信的引用、具体的统计数据、相关的引述，这个方向经过反复验证，也最经得起时间。
可以用：以度量的方式去看待它。持续追踪一个来源的显著程度，而不是把引用看成非黑即白的两种状态，并把它接入 AI 引用追踪。
不要用：那个具体百分比，以及任何跨引擎、跨领域的外推。同一处改写在 ChatGPT Search 与 Perplexity.ai 上的表现并不一致。
不要默认：单一行为者拿到的收益，在竞争者也开始优化之后还能保持（见 §6，C-SEO Bench）。

9. 延伸阅读

Gao et al. 2023 — RAG: A Survey：本论文据以建立的检索 / 采信机制。
C-SEO Bench (Puerto et al. 2025)：关键的复制反向证据，建议与 §6 对照阅读。
生成式引擎优化：被扩展的从业者用法与这一狭义学术来源之间的关系。

References

Aggarwal, Murahari, Rajpurohit, Kalyan, Narasimhan, Deshpande — GEO: Generative Engine Optimization, KDD 2024. arXiv:2311.09735 · DOI:10.1145/3637528.3671900
GEO — official code & experiments: github.com/GEO-optim/GEO
GEO-bench dataset: huggingface.co/datasets/GEO-optim/geo-bench
GEO project page: generative-engines.com/GEO
Gao et al. — Retrieval-Augmented Generation for LLMs: A Survey, 2023. arXiv:2312.10997
Puerto, Gubri, Green, Oh, Yun — C-SEO Bench: Does Conversational SEO Work?, NeurIPS 2025 D&B. arXiv:2506.11097
Liu, Zhang, Liang — Evaluating Verifiability in Generative Search Engines, Findings of EMNLP 2023. arXiv:2304.09848

批评与局限

论文的三项贡献（为问题命名、提出印象/可见度指标、发布首个公开的 GEO-bench）确实成立，并支撑起整个领域。理解时需要划清边界：标题上的 40% 是针对 2023–24 年形态引擎（一个内部 GPT-3.5 评测装置加 Perplexity.ai）测得的、按方法与领域计的上界，不应跨时间、跨引擎、跨领域当作恒定预期搬用。最有力的反向证据是 Puerto 等人的 C-SEO Bench（NeurIPS 2025 D&B），它发现许多对话式 SEO 改写在竞争条件下无效甚至适得其反。奠基不等于可直接照搬：可取的是方向（内容实质优于关键词技巧）；那个具体百分比则不应当作可指望的常规值。

常见问题

「GEO 论文」指的是哪篇，为什么重要？

Aggarwal 等人，GEO: Generative Engine Optimization（KDD 2024）。它是 GEO 一词的学术来源：第一篇把「为 AI 合成答案优化内容」形式化的论文，并配有公开基准（GEO-bench）与一个可见度指标。

它提出的印象 / 可见度指标是什么？

两个指标：Position-Adjusted Word Count（被引用句子的词数，按其在答案中出现的位置做衰减），以及 Subjective Impression（由 GPT-3.5 在相关性、影响力、独特性等七个子维度上评分的综合指标）。

「最高 40%」这个数字今天还成立吗？

应当把它当作有边界的上界估计，而非保证。它是针对 2023–24 年形态引擎、按方法与领域计的最大值；在真实引擎（Perplexity.ai）上提升最高约 22%，而后续工作（C-SEO Bench）发现许多此类改写在竞争下会失效。

论文对 GEO 与 SEO 的关系怎么说？

关键词堆砌这一经典 SEO 惯性动作没有提升可见度、甚至可能降低它；而内容实质类改写（补引用、补统计）则有效。这是 GEO 并非传统 SEO 手法换名的早期证据。

代码和基准是否可获取？

是。代码在 github.com/GEO-optim/GEO，GEO-bench 在 HuggingFace（GEO-optim/geo-bench），Apache-2.0 许可，因此标题实验可被独立复现。

参考来源

一手来源

GEO: Generative Engine Optimization (Aggarwal et al., KDD 2024) · arXiv / KDD '24 · 2024-08-25
GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25
GEO — official code & experiments repository · GEO-optim
GEO-bench dataset (HuggingFace) · HuggingFace
GEO project page · GEO-optim
Retrieval-Augmented Generation for LLMs: A Survey (Gao et al. 2023) · arXiv · 2023-12-18

二手来源

C-SEO Bench: Does Conversational SEO Work? (Puerto et al. 2025) · arXiv / NeurIPS '25 D&B
Evaluating Verifiability in Generative Search Engines (Liu et al. 2023) · arXiv / EMNLP '23 Findings