跳到正文
操作手册 · 实践

GEO 审计

速览要点

难度
高级
预计耗时
首次完整审计约 1–2 天,复审约半天
前置条件
GEO 指标、生成式引擎优化(GEO)
这是什么
对全站内容做一次周期性体检:按依赖顺序走完 GEO 阶梯,逐条发现定级,最后出一份报告
六层阶梯
从底往上:访问、渲染、结构、内容、站外权威、结果
评分方式
真正用来驱动行动的是按层划分的严重级别清单;0–100 综合分要么连加权算法一起给,要么干脆不给
投入
首次完整审计约 1 到 2 天,复审约半天

1. 一次完整 GEO 审计要做什么

一次完整 GEO 审计,是对全站内容做一次周期性体检:把决定 AI 引擎能否抓到、解析、采信、引用你页面的每一层挨个查一遍。每一层各成一门,都有自己的专条:可引用性爬虫访问审计Schema 实施llms.txt 部署为 AI 引用而写引用追踪。审计要做的,是按依赖顺序把它们走一遍,给每条发现定一个严重级别,最后出一份报告。

六层,从底往上:访问 → 渲染 → 结构 → 内容 → 站外权威 → 结果。 顺序至关重要:下层没过,上层的发现就毫无意义(见 §3)。

审计夹在另外两条工作线中间:

  • 持续监测AI 引用追踪 不间断地拍下引擎实际行为的快照;审计拿这份快照作输入,诊断为什么会这样;
  • 前进方向GEO 成熟度模型 把诊断结果转成一条可落地的改进路径。

关于命名说一句:「GEO 审计」是行业通行的说法;下面这套六层依赖阶梯,是 GEO Wiki 整理内容的方式,并不是任何公认标准。之所以用它,是因为这个先后顺序至关重要(见 §3),不是因为它得到过谁的背书。

2. 开始审计前:范围、输入、触发条件

下面四个决定,会一路框死之后每一条发现该怎么解读。任何一项定错,整份报告就解读不了,和引用追踪手册开篇强调的「先定好口径,再开始度量」是同一个道理。

决策选项经验法则
范围整个域名/某个语言版本/某个子目录/关键模板一次只审一个内聚的对象;范围一混,得出来的发现就用不上
引擎集写明受众真正在用的那几个,不要笼统一句「AI」就带过选了哪几个引擎,这件事本身就是一个需要在报告开头交代清楚的变量
竞品集不设,或指定一组作为可选叠加项竞品类发现是相对结论,绝不能和绝对结论混在一起。口径定义见 GEO 指标
基线首次审计/与上一次审计或追踪日志做差值对比没有基线,拿到的只是一张快照,不是一条趋势;报告里要写明属于哪一种

多久审一次。 以季度为固定节奏,再叠加触发事件:站点迁移、改版或 SSR/渲染方式改动、robots.txt 变更、大批内容上线,或者已知的引擎模型与检索更新。固定节奏抓的是慢慢累积的渐变,触发事件抓的是突如其来的剧变。

开始前先把这几样备齐: 生产环境的抓取权限、线上的 robots.txt、XML sitemap、一个能抓取并渲染(不只是查源码)的工具,以及最近一次 引用追踪 日志(如果有)。没有追踪日志也能审,见 §4.6。

3. 审计阶梯:为什么顺序至关重要

先说一个基本认识:GEO 就绪度是一层压一层的依赖,不是一张可以平铺勾选的清单。下层没过,上层的发现就毫无意义。

  • AI 爬虫在门口就被挡住,Schema 写得再完美也是白写。
  • 抓取这一关过不去,内容写得再好也没人看得见。

所以查的时候要从最底层往上,先把最硬的那道关攻下来;而报告和优先级则按严重级别排,不按层次排(见 §5 至 §6):

#它回答什么关卡行为对应专条
1访问与可抓取性AI 到底抓不抓得到你?不过 → 到此为止,上面几层全都不用再查AI 爬虫访问审计
2渲染与交付抓取这一关,主体内容过得去吗?不过 → 上层量到的只是一具空壳面向 AI 爬虫的 SSR · Sitemap 与 IndexNow
3结构与机器可读性抓到之后,机器能不能解析?弱 → 抽取代价大幅抬高,但不会被完全挡住Schema 实施 · llms.txt 部署
4内容与可信度读到之后,值不值得被引用?弱 → 被读到,却不被引用可引用性 · 为 AI 引用而写
5站外权威这个实体在站外有没有被印证?薄 → 站内做得再干净,引用也上不去品牌提及追踪
6结果核对引擎实际上怎么做的?不再设关卡向上拦,而是把整条闭环对齐AI 引用追踪

每一层的发现都要做到一屏读完、能切成段落,整份报告才便于被引用、被抽取。

4. 沿阶梯逐层审

按 1 到 6 的顺序审。下面每一层都用同一张四行表:这一层回答什么、决定放行还是向上拦截的关卡信号、最能拉开优劣的 2 到 3 项检查,以及对应专条的链接。

4.1 第 1 层:访问与可抓取性

问题主流 AI 用户代理(user-agent,UA)到底抓不抓得到你的页面?
关卡被封禁或被硬限流 → 到此为止。第 2 到 6 层全部不用再查。 这是最硬的一道关。
重点检查(1)robots.txt 对各 AI UA 的规则,含 Google-Extended;(2)服务器/CDN/WAF 这一层的 UA 封禁或机器人验证拦截页;(3)软封锁:返回 200,但对非浏览器客户端实际返回的是一个验证页
怎么做AI 爬虫访问审计;UA 对照见 AI 爬虫

权威的 UA 清单和 robots.txt 令牌行为,见 Google 常见爬虫文档。这一层只有两种结果:要么抓得到,要么就是一条第 1 层的阻断级发现,没有中间地带。

4.2 第 2 层:渲染与交付

问题经过这一次抓取,主体内容还在不在?
关卡主体内容靠爬虫不会执行的客户端 JS 渲染 → 它看到的就是一具空壳。
重点检查(1)主体内容是 SSR/SSG 还是 CSR(测抓到的 HTML,不是渲染后的 DOM);(2)sitemap 覆盖度与 lastmod 新鲜度;(3)有没有通过 IndexNow 或 ping 做变更通知
怎么做面向 AI 爬虫的 SSR · Sitemap 与 IndexNow

IndexNow 协议参考见 indexnow.org/documentation。一个返回 200、但在禁用 JS 的抓取下渲染成空白的页面,属于第 2 层的发现,不是第 4 层的内容问题;要在这一层归位,不然就会被错记到上层去。

4.3 第 3 层:结构与机器可读性

问题机器能不能稳定地解析它抓到的东西,并归到正确的实体上?
关卡结构化数据缺失或无效 → 实体解析和答案抽取双双变差(是抬高门槛,不是直接挡住)。
重点检查(1)关键模板上的 Schema.org 覆盖度与有效性;(2)llms.txt 在不在、对不对;(3)语义化标题结构与内容块边界
怎么做Schema 实施 · llms.txt 部署;概念见 面向 AI 的 Schema.org

校验用 Google 结构化数据入门Rich Results Test 和 schema.org 的 Schema Markup Validatorllms.txt 则对照 提案规范。注意 Google 明确说过,AI 功能不需要任何专门的 Schema,所以结构化数据的着力点在于把实体讲清楚,不是把它当成进入 AI 的准入开关(见 AI features and your site)。

4.4 第 4 层:内容与可信度

问题读到之后,内容值不值得被引用,可不可信?
关卡切不成内容块,或可信信号薄 → 被读到,但不被引用。
重点检查(1)论断能抽取、能独立成段、能切块(见 可引用性);(2)E-E-A-T 信号;(3)时效性页面的新鲜度与衰减
怎么做可引用性 · 为 AI 引用而写;概念见 E-E-A-T · 内容新鲜度

这一层手头已发表的因果证据最多:Aggarwal et al. 2024 发现,在内容层面动手改写(加引文、加统计数据、加引述),能把内容在答案里的呈现度最多提升约 40%。这是一个方向性的结论,不是一个能直接拿去套用的精确数字(见 §8)。

4.5 第 5 层:站外权威

问题这个实体在你自己域名之外有没有被印证?
关卡站外存在感薄 → 站内做得再完美,引用也封顶。
重点检查(1)在引擎常引用的那类来源里,品牌提及的数量和情感倾向;(2)知识图谱里的实体存在与消歧
怎么做品牌提及追踪;概念见 品牌提及 · 知识图谱存在度 · 实体识别

这一层从业者最常跳过,但它常常才是真正的瓶颈:站内功夫做到极致,引用仍有一个上限,这个上限取决于实体在站外被识别、被印证到什么程度。

4.6 第 6 层:结果核对

问题引擎实际有没有引用你,跟第 1 到 5 层推出的结论合不合得上?
关卡不再设关卡向上拦,而是把整条闭环对齐:用第 1 到 5 层推出的「按理该被引用」,去核对「实际被引用」。
重点检查(1)按已声明的每个引擎,各取最近一次引用追踪快照;(2)站内已经干净、引用却仍然缺位的那种落差 → 问题大多出在站外或引擎行为上
怎么做AI 引用追踪:取最近一次快照作输入

最近一次追踪快照就是第 6 层的输入;追踪本身怎么搭,见 AI 引用追踪 手册。如果根本没有追踪日志,第 6 层就只剩一条发现:先把追踪搭起来。 各引擎行为不同,要分头去核对 Perplexity AIChatGPT SearchGoogle AI Overviews;最后一个没有逐条引用的 API,它的结果层注定要粗一些。

5. 评分:一套立得住的严重级别模型

每一条发现都要给一个严重级别(severity),而级别取决于它落在哪一层。一条第 1 层的访问失败,要压过第 4 层任何幅度的精修:访问没修好,再多精修也看不出效果。

严重级别含义通常落在哪一层
阻断级(Blocker)直接卡住引用;上层根本量不出来第 1 层、第 2 层
重大级(Major)明显压低抽取或引用;当下就能测出来第 3 层、第 4 层
次要级(Minor)有真实影响但幅度有限;属于优化,不是关卡第 4 层的精修、第 5 层的长尾

0 到 100 的综合分(composite score是可选项,而且被有意摆在次要位置。它只指方向,不是绝对值:只有连加权算法一起,才能拿出来对外报。这和 GEO 指标 对每一个对外数字的口径要求是一致的:一个不附加权算法的孤立分数,只是个说法,不是结果。

6. 排优先级:从问题清单到排好序的行动计划

严重级别不等于优先级。一条又便宜、又有十足把握能修掉的重大级发现,应当排在要花半年做迁移的阻断级前面。把已经标好级别的发现,按影响 × 把握 × 难易(ICE)重新排一遍,让报告以一份排好次序的行动清单收尾,而不是罗列一堆没梳理过的问题。

发现严重级别影响把握难易ICE排名
robots.txt 里 Google-Extended 被 disallow1阻断级9997291
关键模板完全没有 Schema3重大级7863362
定价页是纯 CSR2阻断级8731683
作者与 E-E-A-T 信号薄4重大级6551504

这份排好次序的计划,是路线图的输入,不是路线图本身:你现在站在什么位置,由这次审计回答;接下来该往哪走,见 GEO 成熟度模型

7. 审计报告交付物

每一次都要交付的内容:

  • 开头与口径:审计日期、范围、声明的引擎集,以及取用的追踪日志版本(见 §4.6)。不交代口径的报告,和下一份没法比较。
  • 阶梯结果,从底往上:第 1 到 6 层,每层通过与否都附上证据。
  • 按严重级别排序的发现,再接上按 ICE 排好优先级的行动计划
  • 基线差值:如果已经做过上一次审计,写清什么变了;变的原因是你改动了什么,还是引擎自己变了。

关于复审。 复审沿用没有变动的下层,只重查被触发事件影响到的那部分(见 §2)。哪些重查了、哪些是沿用的,都要明确写出来:正因为没有人写明沿用,一个早就过时的「通过」才会连续三次审计都没人来重新核对。

8. 容易踩的坑

把下面每一项都过一遍,再把报告发出去。每一项的详细说明都在对应链接里:

  • 从上往下审:先看内容,漏掉底下第 1、2 层的封堵;这是最常见、代价也最高的错误。
  • 孤立的综合分:一个不附加权算法的 0 到 100(GEO 指标)。
  • 拿过时的追踪日志当现状:第 6 层对的是上个季度的情况(AI 引用追踪)。
  • 竞品相对发现和绝对发现混用:两者性质不同,绝不能放在一起加总(GEO 指标)。
  • 拿单语言审计的结论套用到所有语言:中文与英文的答案各成一面,并不互通。
  • 没有复审前后对比就说「修好了」:一个改动在复审里得到验证之前,都还算不上结果。
  • 把可见度的改善夸大成营收增长:审计能证明的,只是某个可见度缺口被补上,并不等于营收已经变化;从可见度到业务收益,要靠另一套模型(GEO ROI 模型)。
  • 拿单方测出的提升放大到普遍结论:你一家单独测出来的提升,等竞争对手也针对同一个引擎做优化之后,未必还保得住;这一点 Aggarwal et al. 2024 §6 里也有专门提醒。

9. 延伸阅读

参考资料

学术:

  1. Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · ACM DL
  2. Liu, N., Zhang, T., Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. Findings of EMNLP ‘23. arXiv:2304.09848

平台与标准文档(2026-05 已核对):

常见问题

这不就是把 SEO 审计换上一套 AI 关键词吗?
不是。差别在结构,不在叫法。SEO 审计问的是这一页能不能在十条蓝色链接里排上名;GEO 审计问的是这一页会不会被收进一段合成答案,被收进去之后又有没有被点名引用。审的对象不同,失败的方式不同;SEO 那套位置和 CTR 曲线的前提,在这里根本不成立。变的是指标本身,不只是手段,原因见生成式引擎优化。
为什么要从底层往上查,不是先看客户最在意的内容层?
因为 GEO 就绪度是一层压一层的依赖,不是一张可以平铺勾选的清单。第 4 层的内容发现写得再漂亮,只要第 1 层把 AI 爬虫挡在门外,这条发现就毫无意义:你只是在给一个谁都抓不到的页面打分。先查访问,再查内容;报告按严重级别排序,不按你顺手先看到哪一条来排。
做这次审计,是不是必须先有引用追踪?
不必。第 6 层只用最近一次追踪快照,追踪本身怎么搭,见专门的引用追踪手册。没有追踪并不影响审计开始,没追踪这件事反过来还成了第一条发现:先把追踪搭起来。没有结果层,第 1 到第 5 层照样能诊断,只是少了把「按理该被引用」和「实际被引用」两边对一对的环节。
工具给了一个 0 到 100 的综合 GEO 分,能直接拿去报吗?
只有连加权算法一起报才行。一个孤立的分数没有可比性:两个工具算法不一样,各自都没算错,但彼此没法比。这次审计真正用来驱动行动的,是那份按层划分的严重级别清单;综合分只是一个用来概括方向的数字,可有可无。口径和定义上的疑问,见 GEO 指标。
完整审计该多久做一次?
以季度为固定节奏,再叠加触发事件:站点迁移、SSR 或渲染方式改动、robots.txt 变更、大批内容上线,或者已知的引擎模型与检索更新。复审沿用没变动的下层,只重查触发事件影响到的那一部分。没有复审前后对比就说「我们修好了」,那只是一句口头说法,不是验证过的结果。

相关手册与百科

参考来源

一手来源

  1. GEO: Generative Engine Optimization (Aggarwal et al., KDD 2024) · arXiv / KDD '24 · 2024-08-25
  2. GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25
  3. Overview of Google crawlers and fetchers (user agents) · Google Search Central
  4. List of Google's common crawlers (Googlebot, Google-Extended) · Google Search Central · 2026-04-23
  5. Google Search Central — AI features and your site · Google · 2025-12-10
  6. Introduction to structured data markup in Google Search · Google Search Central · 2025-12-10
  7. Rich Results Test · Google
  8. Schema Markup Validator · Schema.org
  9. IndexNow — Protocol Documentation · IndexNow.org
  10. The /llms.txt file — proposed standard · Answer.AI (Jeremy Howard) · 2024-09-03
  11. Perplexity API — Chat Completions Reference · Perplexity
  12. OpenAI — Web Search tool (Responses API) · OpenAI

二手来源

  1. Evaluating Verifiability in Generative Search Engines (Liu et al. 2023) · arXiv / EMNLP '23 Findings
最近更新: 2026-05-19 作者: Ray Yang 主题: 实践