跳到正文
论文 · 生态

GEO: Generative Engine Optimization (Aggarwal et al. 2024)

速览要点

作者
Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan, Ameet Deshpande
发表会议
KDD 2024 (Proc. 30th ACM SIGKDD)
年份
2024
DOI
10.1145/3637528.3671900
链接
https://arxiv.org/abs/2311.09735
可复现性
code-and-data

通俗摘要

Aggarwal 等人提出了一个当时全新的问题:如果 AI 搜索引擎直接写出答案、而不是罗列链接,你的内容要怎样才能进入那段答案?他们把这件事形式化为「生成式引擎优化」,构建了 GEO-bench(横跨 25 个领域的 1 万条查询)来度量它,并测试了九种内容改写。结果是:补充引用、补充统计数据、补充引述,能稳定提升一个页面在合成答案中的显著程度,在其实验设置下最高可达 40%;而关键词堆砌这一 SEO 惯性动作则没有效果。

关键发现

  • 内容层面的改写(补引用、补统计、补引述)在论文的 Position-Adjusted Word Count 指标上最高带来约 40% 的可见度提升。
  • 「最高 40%」是特定方法、特定领域下的上界,而非平均效应;这一标题数字在从业者写作中被普遍过度泛化。
  • 方法效果取决于领域与引擎:Cite Sources 在事实型查询上最优,Authoritative 在辩论与历史类最优,Statistics Addition 在法律与观点类最优。
  • 关键词堆砌这一传统 SEO 惯性动作没有帮助、甚至可能有害,这是 GEO 并非 SEO 手法换名的早期证据。
  • 排名靠后的页面收益最大(Cite Sources 让排在第 5 位的页面提升 +115.1%),说明 GEO 在一定程度上重新平衡了搜索中的既有位次优势。
  • 效果在真实引擎(Perplexity.ai,最高约 22%)上仍成立,但明显小于内部引擎的数字,外部效度有边界。

1. 这篇论文是什么,为什么它奠定了整个领域

这个领域的名字就出自这篇论文。GEO: Generative Engine Optimization(Aggarwal et al., KDD 2024)是 GEO 一词的学术来源。

它最关键的一步,是把一个含糊的从业者直觉(「让我的内容进入 AI 答案」)变成了一个可度量的优化问题,并配上一套公开基准。

论文给出的定义是狭义的,只在它自己的基准之内成立,研究对象是针对一个固定评测装置所做的内容改写;「GEO」一词后来才被从业者拿去指代整个学科。

属性内容
作者Aggarwal, Murahari, Rajpurohit, Kalyan, Narasimhan, Deshpande
发表KDD 2024(Proc. 30th ACM SIGKDD)
标识arXiv 2311.09735 · DOI 10.1145/3637528.3671900
产出物代码 + GEO-bench 数据,Apache-2.0

2. 它形式化了什么问题

论文立论的起点是一处结构性断裂:结果页过去是一列排序链接,生成式引擎返回的却是单一合成答案。可见度(visibility)不再等同于排名。

论文有意把建模简化到最少:

  • 生成式引擎是一个黑箱:内容创作者无法改动模型,只能改动作为输入的网页内容。
  • 目标是最大化内容在合成答案中的可见度,而非它在链接列表中的排名。
  • 因此,成功取决于答案如何使用你的文本。论文之所以要另立一个新指标(见 §4),而不沿用排名,根源正在这里。

支撑这一切的,是检索(retrieval)与采信(grounding)机制:引擎为何抽取某些来源,又如何据以生成答案。这是论文的前提,answer loop 有详述,Gao et al. 2023 也对其做过综述。本论文把这套机制当作已知,只在它之上提出优化问题。

3. 方法学:GEO 框架与 GEO-bench

论文评估了九种内容优化方法,每一种都是对候选网页来源所做的一类改写:

#方法一句话意图
1Authoritative以更具权威性的语气改写
2Statistics Addition补充相关的量化数据
3Keyword Stuffing增加查询关键词(SEO 惯性动作)
4Cite Sources增加对可信来源的引用
5Quotation Addition增加相关引述
6Easy-to-Understand简化语言
7Fluency Optimization提升流畅度
8Unique Words增加不常见或独特的词汇
9Technical Terms增加领域技术术语

基准 GEO-bench 的构建方式:

  • 1 万条查询,划分为 8K 训练、1K 验证、1K 测试。
  • 取自 9 个数据集:MS MARCO、ORCAS-I、Natural Questions、AllSouls、LIMA、Davinci-Debate、Perplexity.ai Discover、ELI5,以及 GPT-4 生成的查询。
  • 25 个领域(如 Arts、Health、Games),配七种归类方式。
  • 每条查询附带其 Google 前 5 条结果,作为候选来源集。

实验在两个引擎上进行:一个是内部搭建的生成式引擎(GPT-3.5-turbo,在 Google 前 5 条结果上加提示),另一个是已经上线的 Perplexity.ai,用来在真实环境里做一次对照验证。

4. 「印象」指标:论文被引用最多的贡献

这篇论文里被反复沿用的,不是某个具体做法,而是一个指标。它把 引用与提及 这组非此即彼的划分,改写成一个连续、且随位置变化的量。

论文提出两个可见度度量:

Position-Adjusted Word Count (Imp_pwc):
  对被引用句子 s 求和:|s| · e^(-pos(s)/|S|)
  再除以回答总词数

= 你被引用句子的词数,按其在答案中
  出现的早晚做指数衰减。
Subjective Impression:
  由 GPT-3.5 在 7 个子维度上评分的综合指标:
  相关性 · 影响力 · 独特性 · 主观位置 ·
  主观计数 · 点击可能性 · 多样性

比起「有没有被引用」这种是非判断,它衡量的是一个来源在多大程度上塑造了答案,而这恰恰是 可引用性(citability) 真正要优化的对象。后来多数厂商的 KPI 与 GEO 度量框架,都沿用了这一按位置加权的思路。

5. 主要发现

标题数字如下,更要紧的是它的适用边界:

发现细节
标题提升GEO 方法在 Position-Adjusted Word Count 上把可见度最高提升约 40%
最优方法Quotation Addition +41%(PAWC);Statistics Addition +37%(Subjective);Cite Sources +30%(PAWC)
并非平均「最高 40%」是按方法、按领域计的上界,不能当作一律可指望的预期增益
取决于领域Cite Sources → 事实型查询;Authoritative → 辩论 / 历史;Statistics → 法律与观点
SEO 惯性失效Keyword Stuffing 没有帮助,且可能有害
重新平衡位次排名第 5 的页面收益最大,Cite Sources 给它们带来 +115.1%
真实引擎校验在 Perplexity.ai 上提升最高约 22%,小于内部引擎

把「SEO 惯性失效」和「真实引擎校验」这两条放到一起看,可以得出一条该做的事和一条该警惕的事:该做的是让内容实质胜过关键词技巧;该警惕的是这个百分比只是上限,并不是可以指望的常规值。

6. GEO Wiki 评估

先充分肯定它的贡献。这三项贡献确实是奠基性的,至今依然立得住:

  1. 命名与界定。把「进入 AI 答案」转化为一个黑箱优化问题,是整个领域据以建立的那一步。
  2. 印象指标。位置调整后的连续可见度是正确的计量单位,并被广泛沿用。
  3. 公开基准。GEO-bench 让这一主张变得可以检验,后续的批判之所以能成立,前提恰恰在此。

接下来是四点有边界的批判:

  1. 外部效度。受测引擎停留在 2023–24 年的形态,即一个内部 GPT-3.5 装置加 Perplexity.ai。今天的 ChatGPT Search、Gemini 与 Google AI Overviews 在检索与合成上都已不同,论文的结论既覆盖不到它们,引用时也不该假定已经涵盖。
  2. 基准漂移。GEO-bench 的语料与引擎都会老化。「40%」只是 2024 年某个时点的快照,不能跨时间当作常数搬用。
  3. 复现结果指向相反方向。Puerto 等人的 C-SEO Bench(NeurIPS 2025 Datasets & Benchmarks)发现,一旦多方针对同一引擎同时优化,许多对话式 SEO 改写就会失效,甚至适得其反。本论文测得的提升只反映单一行为者的情形,是上界,并不代表多方博弈后的均衡。
  4. 标题数字的表述。「最高 40%」在从业者写作中被传成「约 40%」。准确的说法是:这是一个按方法、按领域计的最大值,在真实引擎上已缩到约 22%,并可能在竞争与可信度过滤(E-E-A-T 压力)下进一步缩小。

GEO Wiki 的判定是:奠基不等于可以直接照搬。值得沿用的是它指出的方向,即内容实质(来源、统计、引述)胜过关键词操纵;不值得沿用的是那个具体数字,不要把它当作规划依据。

7. 可复现性

以下状态在撰稿时(2026-05-17)逐项实地核实过,并非凭推测:

产出物状态
源代码公开:github.com/GEO-optim/GEOrun_geo.pygeo_functions.py
基准数据公开:HuggingFace GEO-optim/geo-bench
许可Apache-2.0
项目页generative-engines.com/GEO/

字段取值:code-and-data。方法实现与 GEO-bench 均开放可得,因此标题实验可被独立复现。相对于这一领域的多数论文,这是一个实在的优点。

8. 它对从业者意味着什么

哪些可以拿来用,哪些不能:

  • 可以用:内容实质类的改写。补充可信的 引用、具体的统计数据、相关的引述,这个方向经过反复验证,也最经得起时间。
  • 可以用:以度量的方式去看待它。持续追踪一个来源的显著程度,而不是把引用看成非黑即白的两种状态,并把它接入 AI 引用追踪
  • 不要用:那个具体百分比,以及任何跨引擎、跨领域的外推。同一处改写在 ChatGPT SearchPerplexity.ai 上的表现并不一致。
  • 不要默认:单一行为者拿到的收益,在竞争者也开始优化之后还能保持(见 §6,C-SEO Bench)。

9. 延伸阅读

References

  1. Aggarwal, Murahari, Rajpurohit, Kalyan, Narasimhan, Deshpande — GEO: Generative Engine Optimization, KDD 2024. arXiv:2311.09735 · DOI:10.1145/3637528.3671900
  2. GEO — official code & experiments: github.com/GEO-optim/GEO
  3. GEO-bench dataset: huggingface.co/datasets/GEO-optim/geo-bench
  4. GEO project page: generative-engines.com/GEO
  5. Gao et al. — Retrieval-Augmented Generation for LLMs: A Survey, 2023. arXiv:2312.10997
  6. Puerto, Gubri, Green, Oh, Yun — C-SEO Bench: Does Conversational SEO Work?, NeurIPS 2025 D&B. arXiv:2506.11097
  7. Liu, Zhang, Liang — Evaluating Verifiability in Generative Search Engines, Findings of EMNLP 2023. arXiv:2304.09848

批评与局限

论文的三项贡献(为问题命名、提出印象/可见度指标、发布首个公开的 GEO-bench)确实成立,并支撑起整个领域。理解时需要划清边界:标题上的 40% 是针对 2023–24 年形态引擎(一个内部 GPT-3.5 评测装置加 Perplexity.ai)测得的、按方法与领域计的上界,不应跨时间、跨引擎、跨领域当作恒定预期搬用。最有力的反向证据是 Puerto 等人的 C-SEO Bench(NeurIPS 2025 D&B),它发现许多对话式 SEO 改写在竞争条件下无效甚至适得其反。奠基不等于可直接照搬:可取的是方向(内容实质优于关键词技巧);那个具体百分比则不应当作可指望的常规值。

常见问题

「GEO 论文」指的是哪篇,为什么重要?
Aggarwal 等人,GEO: Generative Engine Optimization(KDD 2024)。它是 GEO 一词的学术来源:第一篇把「为 AI 合成答案优化内容」形式化的论文,并配有公开基准(GEO-bench)与一个可见度指标。
它提出的印象 / 可见度指标是什么?
两个指标:Position-Adjusted Word Count(被引用句子的词数,按其在答案中出现的位置做衰减),以及 Subjective Impression(由 GPT-3.5 在相关性、影响力、独特性等七个子维度上评分的综合指标)。
「最高 40%」这个数字今天还成立吗?
应当把它当作有边界的上界估计,而非保证。它是针对 2023–24 年形态引擎、按方法与领域计的最大值;在真实引擎(Perplexity.ai)上提升最高约 22%,而后续工作(C-SEO Bench)发现许多此类改写在竞争下会失效。
论文对 GEO 与 SEO 的关系怎么说?
关键词堆砌这一经典 SEO 惯性动作没有提升可见度、甚至可能降低它;而内容实质类改写(补引用、补统计)则有效。这是 GEO 并非传统 SEO 手法换名的早期证据。
代码和基准是否可获取?
是。代码在 github.com/GEO-optim/GEO,GEO-bench 在 HuggingFace(GEO-optim/geo-bench),Apache-2.0 许可,因此标题实验可被独立复现。

相关工作

参考来源

一手来源

  1. GEO: Generative Engine Optimization (Aggarwal et al., KDD 2024) · arXiv / KDD '24 · 2024-08-25
  2. GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25
  3. GEO — official code & experiments repository · GEO-optim
  4. GEO-bench dataset (HuggingFace) · HuggingFace
  5. GEO project page · GEO-optim
  6. Retrieval-Augmented Generation for LLMs: A Survey (Gao et al. 2023) · arXiv · 2023-12-18

二手来源

  1. C-SEO Bench: Does Conversational SEO Work? (Puerto et al. 2025) · arXiv / NeurIPS '25 D&B
  2. Evaluating Verifiability in Generative Search Engines (Liu et al. 2023) · arXiv / EMNLP '23 Findings
最近更新: 2026-05-17 作者: Ray Yang 主题: 生态