GEO: Generative Engine Optimization (Aggarwal et al. 2024)
速览要点
- 作者
- Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan, Ameet Deshpande
- 发表会议
- KDD 2024 (Proc. 30th ACM SIGKDD)
- 年份
- 2024
- DOI
- 10.1145/3637528.3671900
- 链接
- https://arxiv.org/abs/2311.09735
- 可复现性
- code-and-data
通俗摘要
Aggarwal 等人提出了一个当时全新的问题:如果 AI 搜索引擎直接写出答案、而不是罗列链接,你的内容要怎样才能进入那段答案?他们把这件事形式化为「生成式引擎优化」,构建了 GEO-bench(横跨 25 个领域的 1 万条查询)来度量它,并测试了九种内容改写。结果是:补充引用、补充统计数据、补充引述,能稳定提升一个页面在合成答案中的显著程度,在其实验设置下最高可达 40%;而关键词堆砌这一 SEO 惯性动作则没有效果。
关键发现
- 内容层面的改写(补引用、补统计、补引述)在论文的 Position-Adjusted Word Count 指标上最高带来约 40% 的可见度提升。
- 「最高 40%」是特定方法、特定领域下的上界,而非平均效应;这一标题数字在从业者写作中被普遍过度泛化。
- 方法效果取决于领域与引擎:Cite Sources 在事实型查询上最优,Authoritative 在辩论与历史类最优,Statistics Addition 在法律与观点类最优。
- 关键词堆砌这一传统 SEO 惯性动作没有帮助、甚至可能有害,这是 GEO 并非 SEO 手法换名的早期证据。
- 排名靠后的页面收益最大(Cite Sources 让排在第 5 位的页面提升 +115.1%),说明 GEO 在一定程度上重新平衡了搜索中的既有位次优势。
- 效果在真实引擎(Perplexity.ai,最高约 22%)上仍成立,但明显小于内部引擎的数字,外部效度有边界。
1. 这篇论文是什么,为什么它奠定了整个领域
这个领域的名字就出自这篇论文。GEO: Generative Engine Optimization(Aggarwal et al., KDD 2024)是 GEO 一词的学术来源。
它最关键的一步,是把一个含糊的从业者直觉(「让我的内容进入 AI 答案」)变成了一个可度量的优化问题,并配上一套公开基准。
论文给出的定义是狭义的,只在它自己的基准之内成立,研究对象是针对一个固定评测装置所做的内容改写;「GEO」一词后来才被从业者拿去指代整个学科。
| 属性 | 内容 |
|---|---|
| 作者 | Aggarwal, Murahari, Rajpurohit, Kalyan, Narasimhan, Deshpande |
| 发表 | KDD 2024(Proc. 30th ACM SIGKDD) |
| 标识 | arXiv 2311.09735 · DOI 10.1145/3637528.3671900 |
| 产出物 | 代码 + GEO-bench 数据,Apache-2.0 |
2. 它形式化了什么问题
论文立论的起点是一处结构性断裂:结果页过去是一列排序链接,生成式引擎返回的却是单一合成答案。可见度(visibility)不再等同于排名。
论文有意把建模简化到最少:
- 生成式引擎是一个黑箱:内容创作者无法改动模型,只能改动作为输入的网页内容。
- 目标是最大化内容在合成答案中的可见度,而非它在链接列表中的排名。
- 因此,成功取决于答案如何使用你的文本。论文之所以要另立一个新指标(见 §4),而不沿用排名,根源正在这里。
支撑这一切的,是检索(retrieval)与采信(grounding)机制:引擎为何抽取某些来源,又如何据以生成答案。这是论文的前提,answer loop 有详述,Gao et al. 2023 也对其做过综述。本论文把这套机制当作已知,只在它之上提出优化问题。
3. 方法学:GEO 框架与 GEO-bench
论文评估了九种内容优化方法,每一种都是对候选网页来源所做的一类改写:
| # | 方法 | 一句话意图 |
|---|---|---|
| 1 | Authoritative | 以更具权威性的语气改写 |
| 2 | Statistics Addition | 补充相关的量化数据 |
| 3 | Keyword Stuffing | 增加查询关键词(SEO 惯性动作) |
| 4 | Cite Sources | 增加对可信来源的引用 |
| 5 | Quotation Addition | 增加相关引述 |
| 6 | Easy-to-Understand | 简化语言 |
| 7 | Fluency Optimization | 提升流畅度 |
| 8 | Unique Words | 增加不常见或独特的词汇 |
| 9 | Technical Terms | 增加领域技术术语 |
基准 GEO-bench 的构建方式:
- 1 万条查询,划分为 8K 训练、1K 验证、1K 测试。
- 取自 9 个数据集:MS MARCO、ORCAS-I、Natural Questions、AllSouls、LIMA、Davinci-Debate、Perplexity.ai Discover、ELI5,以及 GPT-4 生成的查询。
- 25 个领域(如 Arts、Health、Games),配七种归类方式。
- 每条查询附带其 Google 前 5 条结果,作为候选来源集。
实验在两个引擎上进行:一个是内部搭建的生成式引擎(GPT-3.5-turbo,在 Google 前 5 条结果上加提示),另一个是已经上线的 Perplexity.ai,用来在真实环境里做一次对照验证。
4. 「印象」指标:论文被引用最多的贡献
这篇论文里被反复沿用的,不是某个具体做法,而是一个指标。它把 引用与提及 这组非此即彼的划分,改写成一个连续、且随位置变化的量。
论文提出两个可见度度量:
Position-Adjusted Word Count (Imp_pwc):
对被引用句子 s 求和:|s| · e^(-pos(s)/|S|)
再除以回答总词数
= 你被引用句子的词数,按其在答案中
出现的早晚做指数衰减。
Subjective Impression:
由 GPT-3.5 在 7 个子维度上评分的综合指标:
相关性 · 影响力 · 独特性 · 主观位置 ·
主观计数 · 点击可能性 · 多样性
比起「有没有被引用」这种是非判断,它衡量的是一个来源在多大程度上塑造了答案,而这恰恰是 可引用性(citability) 真正要优化的对象。后来多数厂商的 KPI 与 GEO 度量框架,都沿用了这一按位置加权的思路。
5. 主要发现
标题数字如下,更要紧的是它的适用边界:
| 发现 | 细节 |
|---|---|
| 标题提升 | GEO 方法在 Position-Adjusted Word Count 上把可见度最高提升约 40% |
| 最优方法 | Quotation Addition +41%(PAWC);Statistics Addition +37%(Subjective);Cite Sources +30%(PAWC) |
| 并非平均 | 「最高 40%」是按方法、按领域计的上界,不能当作一律可指望的预期增益 |
| 取决于领域 | Cite Sources → 事实型查询;Authoritative → 辩论 / 历史;Statistics → 法律与观点 |
| SEO 惯性失效 | Keyword Stuffing 没有帮助,且可能有害 |
| 重新平衡位次 | 排名第 5 的页面收益最大,Cite Sources 给它们带来 +115.1% |
| 真实引擎校验 | 在 Perplexity.ai 上提升最高约 22%,小于内部引擎 |
把「SEO 惯性失效」和「真实引擎校验」这两条放到一起看,可以得出一条该做的事和一条该警惕的事:该做的是让内容实质胜过关键词技巧;该警惕的是这个百分比只是上限,并不是可以指望的常规值。
6. GEO Wiki 评估
先充分肯定它的贡献。这三项贡献确实是奠基性的,至今依然立得住:
- 命名与界定。把「进入 AI 答案」转化为一个黑箱优化问题,是整个领域据以建立的那一步。
- 印象指标。位置调整后的连续可见度是正确的计量单位,并被广泛沿用。
- 公开基准。GEO-bench 让这一主张变得可以检验,后续的批判之所以能成立,前提恰恰在此。
接下来是四点有边界的批判:
- 外部效度。受测引擎停留在 2023–24 年的形态,即一个内部 GPT-3.5 装置加 Perplexity.ai。今天的 ChatGPT Search、Gemini 与 Google AI Overviews 在检索与合成上都已不同,论文的结论既覆盖不到它们,引用时也不该假定已经涵盖。
- 基准漂移。GEO-bench 的语料与引擎都会老化。「40%」只是 2024 年某个时点的快照,不能跨时间当作常数搬用。
- 复现结果指向相反方向。Puerto 等人的 C-SEO Bench(NeurIPS 2025 Datasets & Benchmarks)发现,一旦多方针对同一引擎同时优化,许多对话式 SEO 改写就会失效,甚至适得其反。本论文测得的提升只反映单一行为者的情形,是上界,并不代表多方博弈后的均衡。
- 标题数字的表述。「最高 40%」在从业者写作中被传成「约 40%」。准确的说法是:这是一个按方法、按领域计的最大值,在真实引擎上已缩到约 22%,并可能在竞争与可信度过滤(E-E-A-T 压力)下进一步缩小。
GEO Wiki 的判定是:奠基不等于可以直接照搬。值得沿用的是它指出的方向,即内容实质(来源、统计、引述)胜过关键词操纵;不值得沿用的是那个具体数字,不要把它当作规划依据。
7. 可复现性
以下状态在撰稿时(2026-05-17)逐项实地核实过,并非凭推测:
| 产出物 | 状态 |
|---|---|
| 源代码 | 公开:github.com/GEO-optim/GEO(run_geo.py、geo_functions.py) |
| 基准数据 | 公开:HuggingFace GEO-optim/geo-bench |
| 许可 | Apache-2.0 |
| 项目页 | generative-engines.com/GEO/ |
字段取值:code-and-data。方法实现与 GEO-bench 均开放可得,因此标题实验可被独立复现。相对于这一领域的多数论文,这是一个实在的优点。
8. 它对从业者意味着什么
哪些可以拿来用,哪些不能:
- 可以用:内容实质类的改写。补充可信的 引用、具体的统计数据、相关的引述,这个方向经过反复验证,也最经得起时间。
- 可以用:以度量的方式去看待它。持续追踪一个来源的显著程度,而不是把引用看成非黑即白的两种状态,并把它接入 AI 引用追踪。
- 不要用:那个具体百分比,以及任何跨引擎、跨领域的外推。同一处改写在 ChatGPT Search 与 Perplexity.ai 上的表现并不一致。
- 不要默认:单一行为者拿到的收益,在竞争者也开始优化之后还能保持(见 §6,C-SEO Bench)。
9. 延伸阅读
- Gao et al. 2023 — RAG: A Survey:本论文据以建立的检索 / 采信机制。
- C-SEO Bench (Puerto et al. 2025):关键的复制反向证据,建议与 §6 对照阅读。
- 生成式引擎优化:被扩展的从业者用法与这一狭义学术来源之间的关系。
References
- Aggarwal, Murahari, Rajpurohit, Kalyan, Narasimhan, Deshpande — GEO: Generative Engine Optimization, KDD 2024. arXiv:2311.09735 · DOI:10.1145/3637528.3671900
- GEO — official code & experiments: github.com/GEO-optim/GEO
- GEO-bench dataset: huggingface.co/datasets/GEO-optim/geo-bench
- GEO project page: generative-engines.com/GEO
- Gao et al. — Retrieval-Augmented Generation for LLMs: A Survey, 2023. arXiv:2312.10997
- Puerto, Gubri, Green, Oh, Yun — C-SEO Bench: Does Conversational SEO Work?, NeurIPS 2025 D&B. arXiv:2506.11097
- Liu, Zhang, Liang — Evaluating Verifiability in Generative Search Engines, Findings of EMNLP 2023. arXiv:2304.09848
批评与局限
论文的三项贡献(为问题命名、提出印象/可见度指标、发布首个公开的 GEO-bench)确实成立,并支撑起整个领域。理解时需要划清边界:标题上的 40% 是针对 2023–24 年形态引擎(一个内部 GPT-3.5 评测装置加 Perplexity.ai)测得的、按方法与领域计的上界,不应跨时间、跨引擎、跨领域当作恒定预期搬用。最有力的反向证据是 Puerto 等人的 C-SEO Bench(NeurIPS 2025 D&B),它发现许多对话式 SEO 改写在竞争条件下无效甚至适得其反。奠基不等于可直接照搬:可取的是方向(内容实质优于关键词技巧);那个具体百分比则不应当作可指望的常规值。
常见问题
「GEO 论文」指的是哪篇,为什么重要?
它提出的印象 / 可见度指标是什么?
「最高 40%」这个数字今天还成立吗?
论文对 GEO 与 SEO 的关系怎么说?
代码和基准是否可获取?
相关工作
参考来源
一手来源
- GEO: Generative Engine Optimization (Aggarwal et al., KDD 2024) · arXiv / KDD '24 · 2024-08-25
- GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25
- GEO — official code & experiments repository · GEO-optim
- GEO-bench dataset (HuggingFace) · HuggingFace
- GEO project page · GEO-optim
- Retrieval-Augmented Generation for LLMs: A Survey (Gao et al. 2023) · arXiv · 2023-12-18
二手来源
- C-SEO Bench: Does Conversational SEO Work? (Puerto et al. 2025) · arXiv / NeurIPS '25 D&B
- Evaluating Verifiability in Generative Search Engines (Liu et al. 2023) · arXiv / EMNLP '23 Findings