操作手册 · 实践

GEO 审计

速览要点

难度: 高级
预计耗时: 首次完整审计约 1–2 天，复审约半天
前置条件: GEO 指标、生成式引擎优化（GEO）
这是什么: 对全站内容做一次周期性体检：按依赖顺序走完 GEO 阶梯，逐条发现定级，最后出一份报告
六层阶梯: 从底往上：访问、渲染、结构、内容、站外权威、结果
评分方式: 真正用来驱动行动的是按层划分的严重级别清单；0–100 综合分要么连加权算法一起给，要么干脆不给
投入: 首次完整审计约 1 到 2 天，复审约半天

1. 一次完整 GEO 审计要做什么

一次完整 GEO 审计，是对全站内容做一次周期性体检：把决定 AI 引擎能否抓到、解析、采信、引用你页面的每一层挨个查一遍。每一层各成一门，都有自己的专条：可引用性、爬虫访问审计、Schema 实施、llms.txt 部署、为 AI 引用而写、引用追踪。审计要做的，是按依赖顺序把它们走一遍，给每条发现定一个严重级别，最后出一份报告。

六层，从底往上：访问 → 渲染 → 结构 → 内容 → 站外权威 → 结果。 顺序至关重要：下层没过，上层的发现就毫无意义（见 §3）。

审计夹在另外两条工作线中间：

持续监测：AI 引用追踪不间断地拍下引擎实际行为的快照；审计拿这份快照作输入，诊断为什么会这样；
前进方向：GEO 成熟度模型把诊断结果转成一条可落地的改进路径。

关于命名说一句：「GEO 审计」是行业通行的说法；下面这套六层依赖阶梯，是 GEO Wiki 整理内容的方式，并不是任何公认标准。之所以用它，是因为这个先后顺序至关重要（见 §3），不是因为它得到过谁的背书。

2. 开始审计前：范围、输入、触发条件

下面四个决定，会一路框死之后每一条发现该怎么解读。任何一项定错，整份报告就解读不了，和引用追踪手册开篇强调的「先定好口径，再开始度量」是同一个道理。

决策	选项	经验法则
范围	整个域名／某个语言版本／某个子目录／关键模板	一次只审一个内聚的对象；范围一混，得出来的发现就用不上
引擎集	写明受众真正在用的那几个，不要笼统一句「AI」就带过	选了哪几个引擎，这件事本身就是一个需要在报告开头交代清楚的变量
竞品集	不设，或指定一组作为可选叠加项	竞品类发现是相对结论，绝不能和绝对结论混在一起。口径定义见 GEO 指标
基线	首次审计／与上一次审计或追踪日志做差值对比	没有基线，拿到的只是一张快照，不是一条趋势；报告里要写明属于哪一种

多久审一次。 以季度为固定节奏，再叠加触发事件：站点迁移、改版或 SSR／渲染方式改动、robots.txt 变更、大批内容上线，或者已知的引擎模型与检索更新。固定节奏抓的是慢慢累积的渐变，触发事件抓的是突如其来的剧变。

开始前先把这几样备齐： 生产环境的抓取权限、线上的 robots.txt、XML sitemap、一个能抓取并渲染（不只是查源码）的工具，以及最近一次引用追踪日志（如果有）。没有追踪日志也能审，见 §4.6。

3. 审计阶梯：为什么顺序至关重要

先说一个基本认识：GEO 就绪度是一层压一层的依赖，不是一张可以平铺勾选的清单。下层没过，上层的发现就毫无意义。

AI 爬虫在门口就被挡住，Schema 写得再完美也是白写。
抓取这一关过不去，内容写得再好也没人看得见。

所以查的时候要从最底层往上，先把最硬的那道关攻下来；而报告和优先级则按严重级别排，不按层次排（见 §5 至 §6）：

#	层	它回答什么	关卡行为	对应专条
1	访问与可抓取性	AI 到底抓不抓得到你？	不过 → 到此为止，上面几层全都不用再查	AI 爬虫访问审计
2	渲染与交付	抓取这一关，主体内容过得去吗？	不过 → 上层量到的只是一具空壳	面向 AI 爬虫的 SSR · Sitemap 与 IndexNow
3	结构与机器可读性	抓到之后，机器能不能解析？	弱 → 抽取代价大幅抬高，但不会被完全挡住	Schema 实施 · llms.txt 部署
4	内容与可信度	读到之后，值不值得被引用？	弱 → 被读到，却不被引用	可引用性 · 为 AI 引用而写
5	站外权威	这个实体在站外有没有被印证？	薄 → 站内做得再干净，引用也上不去	品牌提及追踪
6	结果核对	引擎实际上怎么做的？	不再设关卡向上拦，而是把整条闭环对齐	AI 引用追踪

每一层的发现都要做到一屏读完、能切成段落，整份报告才便于被引用、被抽取。

4. 沿阶梯逐层审

按 1 到 6 的顺序审。下面每一层都用同一张四行表：这一层回答什么、决定放行还是向上拦截的关卡信号、最能拉开优劣的 2 到 3 项检查，以及对应专条的链接。

4.1 第 1 层：访问与可抓取性


问题	主流 AI 用户代理（user-agent，UA）到底抓不抓得到你的页面？
关卡	被封禁或被硬限流 → 到此为止。第 2 到 6 层全部不用再查。这是最硬的一道关。
重点检查	（1）`robots.txt` 对各 AI UA 的规则，含 `Google-Extended`；（2）服务器／CDN／WAF 这一层的 UA 封禁或机器人验证拦截页；（3）软封锁：返回 200，但对非浏览器客户端实际返回的是一个验证页
怎么做 →	AI 爬虫访问审计；UA 对照见 AI 爬虫

权威的 UA 清单和 robots.txt 令牌行为，见 Google 常见爬虫文档。这一层只有两种结果：要么抓得到，要么就是一条第 1 层的阻断级发现，没有中间地带。

4.2 第 2 层：渲染与交付


问题	经过这一次抓取，主体内容还在不在？
关卡	主体内容靠爬虫不会执行的客户端 JS 渲染 → 它看到的就是一具空壳。
重点检查	（1）主体内容是 SSR/SSG 还是 CSR（测抓到的 HTML，不是渲染后的 DOM）；（2）sitemap 覆盖度与 `lastmod` 新鲜度；（3）有没有通过 IndexNow 或 ping 做变更通知
怎么做 →	面向 AI 爬虫的 SSR · Sitemap 与 IndexNow

IndexNow 协议参考见 indexnow.org/documentation。一个返回 200、但在禁用 JS 的抓取下渲染成空白的页面，属于第 2 层的发现，不是第 4 层的内容问题；要在这一层归位，不然就会被错记到上层去。

4.3 第 3 层：结构与机器可读性


问题	机器能不能稳定地解析它抓到的东西，并归到正确的实体上？
关卡	结构化数据缺失或无效 → 实体解析和答案抽取双双变差（是抬高门槛，不是直接挡住）。
重点检查	（1）关键模板上的 Schema.org 覆盖度与有效性；（2）`llms.txt` 在不在、对不对；（3）语义化标题结构与内容块边界
怎么做 →	Schema 实施 · llms.txt 部署；概念见面向 AI 的 Schema.org

校验用 Google 结构化数据入门、Rich Results Test 和 schema.org 的 Schema Markup Validator；llms.txt 则对照提案规范。注意 Google 明确说过，AI 功能不需要任何专门的 Schema，所以结构化数据的着力点在于把实体讲清楚，不是把它当成进入 AI 的准入开关（见 AI features and your site）。

4.4 第 4 层：内容与可信度


问题	读到之后，内容值不值得被引用，可不可信？
关卡	切不成内容块，或可信信号薄 → 被读到，但不被引用。
重点检查	（1）论断能抽取、能独立成段、能切块（见可引用性）；（2）E-E-A-T 信号；（3）时效性页面的新鲜度与衰减
怎么做 →	可引用性 · 为 AI 引用而写；概念见 E-E-A-T · 内容新鲜度

这一层手头已发表的因果证据最多：Aggarwal et al. 2024 发现，在内容层面动手改写（加引文、加统计数据、加引述），能把内容在答案里的呈现度最多提升约 40%。这是一个方向性的结论，不是一个能直接拿去套用的精确数字（见 §8）。

4.5 第 5 层：站外权威


问题	这个实体在你自己域名之外有没有被印证？
关卡	站外存在感薄 → 站内做得再完美，引用也封顶。
重点检查	（1）在引擎常引用的那类来源里，品牌提及的数量和情感倾向；（2）知识图谱里的实体存在与消歧
怎么做 →	品牌提及追踪；概念见品牌提及 · 知识图谱存在度 · 实体识别

这一层从业者最常跳过，但它常常才是真正的瓶颈：站内功夫做到极致，引用仍有一个上限，这个上限取决于实体在站外被识别、被印证到什么程度。

4.6 第 6 层：结果核对


问题	引擎实际有没有引用你，跟第 1 到 5 层推出的结论合不合得上？
关卡	不再设关卡向上拦，而是把整条闭环对齐：用第 1 到 5 层推出的「按理该被引用」，去核对「实际被引用」。
重点检查	（1）按已声明的每个引擎，各取最近一次引用追踪快照；（2）站内已经干净、引用却仍然缺位的那种落差 → 问题大多出在站外或引擎行为上
怎么做 →	AI 引用追踪：取最近一次快照作输入

最近一次追踪快照就是第 6 层的输入；追踪本身怎么搭，见 AI 引用追踪手册。如果根本没有追踪日志，第 6 层就只剩一条发现：先把追踪搭起来。 各引擎行为不同，要分头去核对 Perplexity AI、ChatGPT Search 和 Google AI Overviews；最后一个没有逐条引用的 API，它的结果层注定要粗一些。

5. 评分：一套立得住的严重级别模型

每一条发现都要给一个严重级别（severity），而级别取决于它落在哪一层。一条第 1 层的访问失败，要压过第 4 层任何幅度的精修：访问没修好，再多精修也看不出效果。

严重级别	含义	通常落在哪一层
阻断级（Blocker）	直接卡住引用；上层根本量不出来	第 1 层、第 2 层
重大级（Major）	明显压低抽取或引用；当下就能测出来	第 3 层、第 4 层
次要级（Minor）	有真实影响但幅度有限；属于优化，不是关卡	第 4 层的精修、第 5 层的长尾

0 到 100 的综合分（composite score）是可选项，而且被有意摆在次要位置。它只指方向，不是绝对值：只有连加权算法一起，才能拿出来对外报。这和 GEO 指标对每一个对外数字的口径要求是一致的：一个不附加权算法的孤立分数，只是个说法，不是结果。

6. 排优先级：从问题清单到排好序的行动计划

严重级别不等于优先级。一条又便宜、又有十足把握能修掉的重大级发现，应当排在要花半年做迁移的阻断级前面。把已经标好级别的发现，按影响 × 把握 × 难易（ICE）重新排一遍，让报告以一份排好次序的行动清单收尾，而不是罗列一堆没梳理过的问题。

发现	层	严重级别	影响	把握	难易	ICE	排名
robots.txt 里 `Google-Extended` 被 disallow	1	阻断级	9	9	9	729	1
关键模板完全没有 Schema	3	重大级	7	8	6	336	2
定价页是纯 CSR	2	阻断级	8	7	3	168	3
作者与 E-E-A-T 信号薄	4	重大级	6	5	5	150	4

这份排好次序的计划，是路线图的输入，不是路线图本身：你现在站在什么位置，由这次审计回答；接下来该往哪走，见 GEO 成熟度模型。

7. 审计报告交付物

每一次都要交付的内容：

开头与口径：审计日期、范围、声明的引擎集，以及取用的追踪日志版本（见 §4.6）。不交代口径的报告，和下一份没法比较。
阶梯结果，从底往上：第 1 到 6 层，每层通过与否都附上证据。
按严重级别排序的发现，再接上按 ICE 排好优先级的行动计划。
基线差值：如果已经做过上一次审计，写清什么变了；变的原因是你改动了什么，还是引擎自己变了。

关于复审。 复审沿用没有变动的下层，只重查被触发事件影响到的那部分（见 §2）。哪些重查了、哪些是沿用的，都要明确写出来：正因为没有人写明沿用，一个早就过时的「通过」才会连续三次审计都没人来重新核对。

8. 容易踩的坑

把下面每一项都过一遍，再把报告发出去。每一项的详细说明都在对应链接里：

从上往下审：先看内容，漏掉底下第 1、2 层的封堵；这是最常见、代价也最高的错误。
孤立的综合分：一个不附加权算法的 0 到 100（GEO 指标）。
拿过时的追踪日志当现状：第 6 层对的是上个季度的情况（AI 引用追踪）。
竞品相对发现和绝对发现混用：两者性质不同，绝不能放在一起加总（GEO 指标）。
拿单语言审计的结论套用到所有语言：中文与英文的答案各成一面，并不互通。
没有复审前后对比就说「修好了」：一个改动在复审里得到验证之前，都还算不上结果。
把可见度的改善夸大成营收增长：审计能证明的，只是某个可见度缺口被补上，并不等于营收已经变化；从可见度到业务收益，要靠另一套模型（GEO ROI 模型）。
拿单方测出的提升放大到普遍结论：你一家单独测出来的提升，等竞争对手也针对同一个引擎做优化之后，未必还保得住；这一点 Aggarwal et al. 2024 §6 里也有专门提醒。

9. 延伸阅读

阶梯，逐层看：AI 爬虫访问审计 · 面向 AI 爬虫的 SSR · Sitemap 与 IndexNow · Schema 实施 · llms.txt 部署 · 可引用性 · 为 AI 引用而写 · 品牌提及追踪
闭环：持续监测见 AI 引用追踪；下一步去哪见 GEO 成熟度模型
定义层：GEO 指标 · 生成式引擎优化
学术锚：Aggarwal et al. 2024 — GEO: Generative Engine Optimization

参考资料

学术：

Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · ACM DL
Liu, N., Zhang, T., Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. Findings of EMNLP ‘23. arXiv:2304.09848

平台与标准文档（2026-05 已核对）：

Google Search Central — Overview of Google crawlers · Common crawlers list · AI features and your site · Structured data intro
校验工具 — Rich Results Test · Schema Markup Validator
IndexNow — Protocol Documentation
llms.txt — proposed standard
Perplexity — Chat Completions API Reference · OpenAI — Web Search tool (Responses API)

常见问题

这不就是把 SEO 审计换上一套 AI 关键词吗？

不是。差别在结构，不在叫法。SEO 审计问的是这一页能不能在十条蓝色链接里排上名；GEO 审计问的是这一页会不会被收进一段合成答案，被收进去之后又有没有被点名引用。审的对象不同，失败的方式不同；SEO 那套位置和 CTR 曲线的前提，在这里根本不成立。变的是指标本身，不只是手段，原因见生成式引擎优化。

为什么要从底层往上查，不是先看客户最在意的内容层？

因为 GEO 就绪度是一层压一层的依赖，不是一张可以平铺勾选的清单。第 4 层的内容发现写得再漂亮，只要第 1 层把 AI 爬虫挡在门外，这条发现就毫无意义：你只是在给一个谁都抓不到的页面打分。先查访问，再查内容；报告按严重级别排序，不按你顺手先看到哪一条来排。

做这次审计，是不是必须先有引用追踪？

不必。第 6 层只用最近一次追踪快照，追踪本身怎么搭，见专门的引用追踪手册。没有追踪并不影响审计开始，没追踪这件事反过来还成了第一条发现：先把追踪搭起来。没有结果层，第 1 到第 5 层照样能诊断，只是少了把「按理该被引用」和「实际被引用」两边对一对的环节。

工具给了一个 0 到 100 的综合 GEO 分，能直接拿去报吗？

只有连加权算法一起报才行。一个孤立的分数没有可比性：两个工具算法不一样，各自都没算错，但彼此没法比。这次审计真正用来驱动行动的，是那份按层划分的严重级别清单；综合分只是一个用来概括方向的数字，可有可无。口径和定义上的疑问，见 GEO 指标。

完整审计该多久做一次？

以季度为固定节奏，再叠加触发事件：站点迁移、SSR 或渲染方式改动、robots.txt 变更、大批内容上线，或者已知的引擎模型与检索更新。复审沿用没变动的下层，只重查触发事件影响到的那一部分。没有复审前后对比就说「我们修好了」，那只是一句口头说法，不是验证过的结果。

参考来源

一手来源

GEO: Generative Engine Optimization (Aggarwal et al., KDD 2024) · arXiv / KDD '24 · 2024-08-25
GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25
Overview of Google crawlers and fetchers (user agents) · Google Search Central
List of Google's common crawlers (Googlebot, Google-Extended) · Google Search Central · 2026-04-23
Google Search Central — AI features and your site · Google · 2025-12-10
Introduction to structured data markup in Google Search · Google Search Central · 2025-12-10
Rich Results Test · Google
Schema Markup Validator · Schema.org
IndexNow — Protocol Documentation · IndexNow.org
The /llms.txt file — proposed standard · Answer.AI (Jeremy Howard) · 2024-09-03
Perplexity API — Chat Completions Reference · Perplexity
OpenAI — Web Search tool (Responses API) · OpenAI

二手来源

Evaluating Verifiability in Generative Search Engines (Liu et al. 2023) · arXiv / EMNLP '23 Findings