GEO 审计
速览要点
- 难度
- 高级
- 预计耗时
- 首次完整审计约 1–2 天,复审约半天
- 前置条件
- GEO 指标、生成式引擎优化(GEO)
- 这是什么
- 对全站内容做一次周期性体检:按依赖顺序走完 GEO 阶梯,逐条发现定级,最后出一份报告
- 六层阶梯
- 从底往上:访问、渲染、结构、内容、站外权威、结果
- 评分方式
- 真正用来驱动行动的是按层划分的严重级别清单;0–100 综合分要么连加权算法一起给,要么干脆不给
- 投入
- 首次完整审计约 1 到 2 天,复审约半天
1. 一次完整 GEO 审计要做什么
一次完整 GEO 审计,是对全站内容做一次周期性体检:把决定 AI 引擎能否抓到、解析、采信、引用你页面的每一层挨个查一遍。每一层各成一门,都有自己的专条:可引用性、爬虫访问审计、Schema 实施、llms.txt 部署、为 AI 引用而写、引用追踪。审计要做的,是按依赖顺序把它们走一遍,给每条发现定一个严重级别,最后出一份报告。
六层,从底往上:访问 → 渲染 → 结构 → 内容 → 站外权威 → 结果。 顺序至关重要:下层没过,上层的发现就毫无意义(见 §3)。
审计夹在另外两条工作线中间:
关于命名说一句:「GEO 审计」是行业通行的说法;下面这套六层依赖阶梯,是 GEO Wiki 整理内容的方式,并不是任何公认标准。之所以用它,是因为这个先后顺序至关重要(见 §3),不是因为它得到过谁的背书。
2. 开始审计前:范围、输入、触发条件
下面四个决定,会一路框死之后每一条发现该怎么解读。任何一项定错,整份报告就解读不了,和引用追踪手册开篇强调的「先定好口径,再开始度量」是同一个道理。
| 决策 | 选项 | 经验法则 |
|---|---|---|
| 范围 | 整个域名/某个语言版本/某个子目录/关键模板 | 一次只审一个内聚的对象;范围一混,得出来的发现就用不上 |
| 引擎集 | 写明受众真正在用的那几个,不要笼统一句「AI」就带过 | 选了哪几个引擎,这件事本身就是一个需要在报告开头交代清楚的变量 |
| 竞品集 | 不设,或指定一组作为可选叠加项 | 竞品类发现是相对结论,绝不能和绝对结论混在一起。口径定义见 GEO 指标 |
| 基线 | 首次审计/与上一次审计或追踪日志做差值对比 | 没有基线,拿到的只是一张快照,不是一条趋势;报告里要写明属于哪一种 |
多久审一次。 以季度为固定节奏,再叠加触发事件:站点迁移、改版或 SSR/渲染方式改动、robots.txt 变更、大批内容上线,或者已知的引擎模型与检索更新。固定节奏抓的是慢慢累积的渐变,触发事件抓的是突如其来的剧变。
开始前先把这几样备齐: 生产环境的抓取权限、线上的 robots.txt、XML sitemap、一个能抓取并渲染(不只是查源码)的工具,以及最近一次 引用追踪 日志(如果有)。没有追踪日志也能审,见 §4.6。
3. 审计阶梯:为什么顺序至关重要
先说一个基本认识:GEO 就绪度是一层压一层的依赖,不是一张可以平铺勾选的清单。下层没过,上层的发现就毫无意义。
- AI 爬虫在门口就被挡住,Schema 写得再完美也是白写。
- 抓取这一关过不去,内容写得再好也没人看得见。
所以查的时候要从最底层往上,先把最硬的那道关攻下来;而报告和优先级则按严重级别排,不按层次排(见 §5 至 §6):
| # | 层 | 它回答什么 | 关卡行为 | 对应专条 |
|---|---|---|---|---|
| 1 | 访问与可抓取性 | AI 到底抓不抓得到你? | 不过 → 到此为止,上面几层全都不用再查 | AI 爬虫访问审计 |
| 2 | 渲染与交付 | 抓取这一关,主体内容过得去吗? | 不过 → 上层量到的只是一具空壳 | 面向 AI 爬虫的 SSR · Sitemap 与 IndexNow |
| 3 | 结构与机器可读性 | 抓到之后,机器能不能解析? | 弱 → 抽取代价大幅抬高,但不会被完全挡住 | Schema 实施 · llms.txt 部署 |
| 4 | 内容与可信度 | 读到之后,值不值得被引用? | 弱 → 被读到,却不被引用 | 可引用性 · 为 AI 引用而写 |
| 5 | 站外权威 | 这个实体在站外有没有被印证? | 薄 → 站内做得再干净,引用也上不去 | 品牌提及追踪 |
| 6 | 结果核对 | 引擎实际上怎么做的? | 不再设关卡向上拦,而是把整条闭环对齐 | AI 引用追踪 |
每一层的发现都要做到一屏读完、能切成段落,整份报告才便于被引用、被抽取。
4. 沿阶梯逐层审
按 1 到 6 的顺序审。下面每一层都用同一张四行表:这一层回答什么、决定放行还是向上拦截的关卡信号、最能拉开优劣的 2 到 3 项检查,以及对应专条的链接。
4.1 第 1 层:访问与可抓取性
| 问题 | 主流 AI 用户代理(user-agent,UA)到底抓不抓得到你的页面? |
| 关卡 | 被封禁或被硬限流 → 到此为止。第 2 到 6 层全部不用再查。 这是最硬的一道关。 |
| 重点检查 | (1)robots.txt 对各 AI UA 的规则,含 Google-Extended;(2)服务器/CDN/WAF 这一层的 UA 封禁或机器人验证拦截页;(3)软封锁:返回 200,但对非浏览器客户端实际返回的是一个验证页 |
| 怎么做 → | AI 爬虫访问审计;UA 对照见 AI 爬虫 |
权威的 UA 清单和 robots.txt 令牌行为,见 Google 常见爬虫文档。这一层只有两种结果:要么抓得到,要么就是一条第 1 层的阻断级发现,没有中间地带。
4.2 第 2 层:渲染与交付
| 问题 | 经过这一次抓取,主体内容还在不在? |
| 关卡 | 主体内容靠爬虫不会执行的客户端 JS 渲染 → 它看到的就是一具空壳。 |
| 重点检查 | (1)主体内容是 SSR/SSG 还是 CSR(测抓到的 HTML,不是渲染后的 DOM);(2)sitemap 覆盖度与 lastmod 新鲜度;(3)有没有通过 IndexNow 或 ping 做变更通知 |
| 怎么做 → | 面向 AI 爬虫的 SSR · Sitemap 与 IndexNow |
IndexNow 协议参考见 indexnow.org/documentation。一个返回 200、但在禁用 JS 的抓取下渲染成空白的页面,属于第 2 层的发现,不是第 4 层的内容问题;要在这一层归位,不然就会被错记到上层去。
4.3 第 3 层:结构与机器可读性
| 问题 | 机器能不能稳定地解析它抓到的东西,并归到正确的实体上? |
| 关卡 | 结构化数据缺失或无效 → 实体解析和答案抽取双双变差(是抬高门槛,不是直接挡住)。 |
| 重点检查 | (1)关键模板上的 Schema.org 覆盖度与有效性;(2)llms.txt 在不在、对不对;(3)语义化标题结构与内容块边界 |
| 怎么做 → | Schema 实施 · llms.txt 部署;概念见 面向 AI 的 Schema.org |
校验用 Google 结构化数据入门、Rich Results Test 和 schema.org 的 Schema Markup Validator;llms.txt 则对照 提案规范。注意 Google 明确说过,AI 功能不需要任何专门的 Schema,所以结构化数据的着力点在于把实体讲清楚,不是把它当成进入 AI 的准入开关(见 AI features and your site)。
4.4 第 4 层:内容与可信度
| 问题 | 读到之后,内容值不值得被引用,可不可信? |
| 关卡 | 切不成内容块,或可信信号薄 → 被读到,但不被引用。 |
| 重点检查 | (1)论断能抽取、能独立成段、能切块(见 可引用性);(2)E-E-A-T 信号;(3)时效性页面的新鲜度与衰减 |
| 怎么做 → | 可引用性 · 为 AI 引用而写;概念见 E-E-A-T · 内容新鲜度 |
这一层手头已发表的因果证据最多:Aggarwal et al. 2024 发现,在内容层面动手改写(加引文、加统计数据、加引述),能把内容在答案里的呈现度最多提升约 40%。这是一个方向性的结论,不是一个能直接拿去套用的精确数字(见 §8)。
4.5 第 5 层:站外权威
| 问题 | 这个实体在你自己域名之外有没有被印证? |
| 关卡 | 站外存在感薄 → 站内做得再完美,引用也封顶。 |
| 重点检查 | (1)在引擎常引用的那类来源里,品牌提及的数量和情感倾向;(2)知识图谱里的实体存在与消歧 |
| 怎么做 → | 品牌提及追踪;概念见 品牌提及 · 知识图谱存在度 · 实体识别 |
这一层从业者最常跳过,但它常常才是真正的瓶颈:站内功夫做到极致,引用仍有一个上限,这个上限取决于实体在站外被识别、被印证到什么程度。
4.6 第 6 层:结果核对
| 问题 | 引擎实际有没有引用你,跟第 1 到 5 层推出的结论合不合得上? |
| 关卡 | 不再设关卡向上拦,而是把整条闭环对齐:用第 1 到 5 层推出的「按理该被引用」,去核对「实际被引用」。 |
| 重点检查 | (1)按已声明的每个引擎,各取最近一次引用追踪快照;(2)站内已经干净、引用却仍然缺位的那种落差 → 问题大多出在站外或引擎行为上 |
| 怎么做 → | AI 引用追踪:取最近一次快照作输入 |
最近一次追踪快照就是第 6 层的输入;追踪本身怎么搭,见 AI 引用追踪 手册。如果根本没有追踪日志,第 6 层就只剩一条发现:先把追踪搭起来。 各引擎行为不同,要分头去核对 Perplexity AI、ChatGPT Search 和 Google AI Overviews;最后一个没有逐条引用的 API,它的结果层注定要粗一些。
5. 评分:一套立得住的严重级别模型
每一条发现都要给一个严重级别(severity),而级别取决于它落在哪一层。一条第 1 层的访问失败,要压过第 4 层任何幅度的精修:访问没修好,再多精修也看不出效果。
| 严重级别 | 含义 | 通常落在哪一层 |
|---|---|---|
| 阻断级(Blocker) | 直接卡住引用;上层根本量不出来 | 第 1 层、第 2 层 |
| 重大级(Major) | 明显压低抽取或引用;当下就能测出来 | 第 3 层、第 4 层 |
| 次要级(Minor) | 有真实影响但幅度有限;属于优化,不是关卡 | 第 4 层的精修、第 5 层的长尾 |
0 到 100 的综合分(composite score)是可选项,而且被有意摆在次要位置。它只指方向,不是绝对值:只有连加权算法一起,才能拿出来对外报。这和 GEO 指标 对每一个对外数字的口径要求是一致的:一个不附加权算法的孤立分数,只是个说法,不是结果。
6. 排优先级:从问题清单到排好序的行动计划
严重级别不等于优先级。一条又便宜、又有十足把握能修掉的重大级发现,应当排在要花半年做迁移的阻断级前面。把已经标好级别的发现,按影响 × 把握 × 难易(ICE)重新排一遍,让报告以一份排好次序的行动清单收尾,而不是罗列一堆没梳理过的问题。
| 发现 | 层 | 严重级别 | 影响 | 把握 | 难易 | ICE | 排名 |
|---|---|---|---|---|---|---|---|
robots.txt 里 Google-Extended 被 disallow | 1 | 阻断级 | 9 | 9 | 9 | 729 | 1 |
| 关键模板完全没有 Schema | 3 | 重大级 | 7 | 8 | 6 | 336 | 2 |
| 定价页是纯 CSR | 2 | 阻断级 | 8 | 7 | 3 | 168 | 3 |
| 作者与 E-E-A-T 信号薄 | 4 | 重大级 | 6 | 5 | 5 | 150 | 4 |
这份排好次序的计划,是路线图的输入,不是路线图本身:你现在站在什么位置,由这次审计回答;接下来该往哪走,见 GEO 成熟度模型。
7. 审计报告交付物
每一次都要交付的内容:
- 开头与口径:审计日期、范围、声明的引擎集,以及取用的追踪日志版本(见 §4.6)。不交代口径的报告,和下一份没法比较。
- 阶梯结果,从底往上:第 1 到 6 层,每层通过与否都附上证据。
- 按严重级别排序的发现,再接上按 ICE 排好优先级的行动计划。
- 基线差值:如果已经做过上一次审计,写清什么变了;变的原因是你改动了什么,还是引擎自己变了。
关于复审。 复审沿用没有变动的下层,只重查被触发事件影响到的那部分(见 §2)。哪些重查了、哪些是沿用的,都要明确写出来:正因为没有人写明沿用,一个早就过时的「通过」才会连续三次审计都没人来重新核对。
8. 容易踩的坑
把下面每一项都过一遍,再把报告发出去。每一项的详细说明都在对应链接里:
- 从上往下审:先看内容,漏掉底下第 1、2 层的封堵;这是最常见、代价也最高的错误。
- 孤立的综合分:一个不附加权算法的 0 到 100(GEO 指标)。
- 拿过时的追踪日志当现状:第 6 层对的是上个季度的情况(AI 引用追踪)。
- 竞品相对发现和绝对发现混用:两者性质不同,绝不能放在一起加总(GEO 指标)。
- 拿单语言审计的结论套用到所有语言:中文与英文的答案各成一面,并不互通。
- 没有复审前后对比就说「修好了」:一个改动在复审里得到验证之前,都还算不上结果。
- 把可见度的改善夸大成营收增长:审计能证明的,只是某个可见度缺口被补上,并不等于营收已经变化;从可见度到业务收益,要靠另一套模型(GEO ROI 模型)。
- 拿单方测出的提升放大到普遍结论:你一家单独测出来的提升,等竞争对手也针对同一个引擎做优化之后,未必还保得住;这一点 Aggarwal et al. 2024 §6 里也有专门提醒。
9. 延伸阅读
- 阶梯,逐层看:AI 爬虫访问审计 · 面向 AI 爬虫的 SSR · Sitemap 与 IndexNow · Schema 实施 · llms.txt 部署 · 可引用性 · 为 AI 引用而写 · 品牌提及追踪
- 闭环:持续监测见 AI 引用追踪;下一步去哪见 GEO 成熟度模型
- 定义层:GEO 指标 · 生成式引擎优化
- 学术锚:Aggarwal et al. 2024 — GEO: Generative Engine Optimization
参考资料
学术:
- Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · ACM DL
- Liu, N., Zhang, T., Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. Findings of EMNLP ‘23. arXiv:2304.09848
平台与标准文档(2026-05 已核对):
- Google Search Central — Overview of Google crawlers · Common crawlers list · AI features and your site · Structured data intro
- 校验工具 — Rich Results Test · Schema Markup Validator
- IndexNow — Protocol Documentation
- llms.txt — proposed standard
- Perplexity — Chat Completions API Reference · OpenAI — Web Search tool (Responses API)
常见问题
这不就是把 SEO 审计换上一套 AI 关键词吗?
为什么要从底层往上查,不是先看客户最在意的内容层?
做这次审计,是不是必须先有引用追踪?
工具给了一个 0 到 100 的综合 GEO 分,能直接拿去报吗?
完整审计该多久做一次?
相关手册与百科
参考来源
一手来源
- GEO: Generative Engine Optimization (Aggarwal et al., KDD 2024) · arXiv / KDD '24 · 2024-08-25
- GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25
- Overview of Google crawlers and fetchers (user agents) · Google Search Central
- List of Google's common crawlers (Googlebot, Google-Extended) · Google Search Central · 2026-04-23
- Google Search Central — AI features and your site · Google · 2025-12-10
- Introduction to structured data markup in Google Search · Google Search Central · 2025-12-10
- Rich Results Test · Google
- Schema Markup Validator · Schema.org
- IndexNow — Protocol Documentation · IndexNow.org
- The /llms.txt file — proposed standard · Answer.AI (Jeremy Howard) · 2024-09-03
- Perplexity API — Chat Completions Reference · Perplexity
- OpenAI — Web Search tool (Responses API) · OpenAI
二手来源
- Evaluating Verifiability in Generative Search Engines (Liu et al. 2023) · arXiv / EMNLP '23 Findings