操作手册 · 实践

可引用性审计

速览要点

难度: 进阶
预计耗时: 每个内聚的对象约 2–4 小时；复审更短
前置条件: 可引用性、GEO 指标
这是什么: 按页面逐段做诊断：把这一段单独抽出来，AI 引擎能不能整段放进答案？
方法主干: [可引用性](/zh/citability) §4 的七项结构信号，配一次人工内容块抽取测试
产出: 每段内容 × 每项信号一格的通过／部分通过／不通过矩阵，按严重级别排序，每条发现附一句改写方向
投入: 一个内聚对象约 2 到 4 小时；复审更短
不出综合分: 0 到 100 的「可引用性分」本手册不出（见 §8）。真正驱动行动的，是按信号逐项给出的判定

1. 这次审计在做什么，会给出怎样一份产出

可引用性审计针对一个内聚的对象（一个页面、一个模板、一组内容簇），按段落逐一去测：AI 引擎在已经检索到这段内容之后，能不能把它整段放进合成答案里。可引用性里定义的那七项结构信号（内容块自包含、直接答案／TL;DR 块、问答／FAQ、步骤／HowTo、可引用的表格／列表、清晰的标题层级、可单独引用的论断句），在这里变成逐段对照的检查表；而一次人工的内容块抽取测试（见 §4），把每一项的通过与否落到实处：拿真实引擎对真实的那一段，跑一遍。

产出不是单个数字，而是一份逐段 × 逐信号的通过／部分通过／不通过矩阵，每条发现都标好严重级别，配一句改写方向。完整改写写法在为 AI 引用而写里；本手册止步于发现的命名与排序。论文里关于呈现度的那套量化结论（在内容上做扎实功夫，胜过堆关键字），是这套方法的学术依据，但要带着边界条件读，见 Aggarwal et al. 2024。

Microsoft 2026 年 5 月说得很直接：「价值的计量单位，正在从文档转向可被采信的信息」（见 Bing — Evolving role of the index）。本手册审的，就是按这一转变重新定义的那个单位：段落，不是整页。

关于命名补一句。「可引用性审计」是通用说法，不是自造词。下面这套「七项信号 + 内容块抽取测试」的具体做法，是 GEO Wiki 整理出的实操路径，依托可引用性 §4；完整 GEO 审计把它衔接到自身第 4 层的内容发现上。

2. 开始审计前：对象、抽样、引擎、基线

下面四项决定，会一路框定之后每一条发现该怎么解读。任何一项定错，整份报告都无从解读；这和完整 GEO 审计 §2、AI 引用追踪 §2 开篇强调的「先把口径定好，再开始度量」是一个道理。

决策	选项	经验法则
对象	单个页面／单个模板／一组内容簇／某个语言版本	一次只审一个内聚对象；对象一混，得到的发现就无法落地。模板要审，就审流量最大的那个实例
抽样	整页／一组 5 到 8 个有代表性的段落	TL;DR、某个 H2 的首段、表格里的一行、一条 FAQ 答案、正文中段一句结实的论断，各取一段；不要只审页首
引擎	写明目标受众真正在用的那个	不同引擎对内容块形状的偏好不同；§6 给出明细。在 Perplexity 上通过，不代表在别处也能通过
基线	首次审计／与上一次审计做差值对比	没有基线，拿到的只是一张快照，不是一条趋势；报告抬头里要写明属于哪一种

多久审一次。 当完整 GEO 审计第 4 层暴露出「被读到却没被引用」这类发现时，把本手册作为深查方法跑一次；对头部页和常青页则按季度定期跑；此外再叠加几类触发事件：一次内容结构调整、CMS 或模板迁移、答案块大改，或者新一期追踪数据显示竞争对手在你的目标查询上被引用，而你没有。

开始前先备齐这几样。 一份爬虫眼里所见的页面（抓取得到的 HTML，不是渲染后的 DOM；这一规范与 AI 爬虫一致）、一份页面标题的平铺清单，以及一个新开的无痕浏览会话，引擎按 §2 写明的那个来选。

3. 七项信号的审计阶梯

审计走的就是可引用性 §4 命名的那七项结构信号（顺序一样，定义一样），对每一项问两个问题：这一段有没有这项信号？；缺了这一项，会让采信付出多大代价？ 下面这张七行表是本手册的主干；§5 的每个 H3 对应表里的一行。

#	信号	审计问题	定义出处
1	内容块自包含	随手挑一段，单独读还能读懂吗？	可引用性 §4.1
2	直接答案／TL;DR 块	答案有没有写在该节的头一两句里？	可引用性 §4.2
3	问答／FAQ 结构	提问形式的标题，对得上真实用户的子问题吗？	可引用性 §4.3
4	步骤／HowTo 结构	页面里如果有流程，是不是一组编号的、命令式的步骤？	可引用性 §4.4
5	可引用的表格／列表	每一行能单独读懂吗？有没有题注？列标签是否自解释？	可引用性 §4.5
6	清晰的标题层级	H2 到 H3 嵌套干净吗？有没有跳级？有没有纯装饰用的标题？	可引用性 §4.6
7	可单独引用的论断句	每个 H2 下面有没有一句结实的、能被原样取用、署名也站得住的论断？	可引用性 §4.7

实战中最能拉开优劣的是第 1、2、7 项；这三项决定整页是否有任何一个最小单元能被引用。第 3、4 项视页面形式而定：本身不是问答型或流程型的页面，硬套这两种结构反而是 §7 所说的伪改写。第 5 项随页面的表格化程度而定；第 6 项查起来便宜，改起来也便宜。表从上往下走完一遍；发现按严重级别排序，不按信号编号排序（见 §8）。

4. 第 1 步：内容块抽取测试（每次都从这一步开始）

这是本手册最关键的一项人工测试，单独拎出来讲。把一段内容从原上下文中剥离，单独贴进一次新开的 ChatGPT search 或 Perplexity 会话，让引擎只用这一段去做总结或回答。如果引擎自行补出明显的背景、反过来问你要上下文、或者把缺失的设定补错了，这一段就不是自包含的。本手册里其他每一项检查，本质都是在间接问同一个问题：这一段单独能立得住吗。这个测试直接拿真实引擎，按真实使用模式问一遍。

操作流程：

抽样。 按 §2 抽样规则取 5 到 8 段有代表性的内容：TL;DR、某个 H2 的首段、表格里的一行、一条 FAQ 答案、正文中段一句结实的论断。
每一段原样取出。 去掉它周围的段落、标题，以及*「如上所述」或「见 §3」*这类指向。这种独立形态，才是检索触发之后 AI 引擎实际看到的东西。
单独贴进一次新开的引擎会话。 不要带前一轮对话，不要带历史，不要带系统提示词；带个性化的会话不可复现。提问：「这一段在讲什么？」 或者 「只用这一段，回答：[这页对应的目标查询]」。
给这一段打分，分三种结果：
- ✅ 可单独引用：引擎只用这一段就给出干净的答复。
- ⚠️ 部分通过：引擎含糊其辞、反过来问背景、或把缺失的铺垫补错了。记下它具体缺了什么。
- ❌ 不通过：引擎根本解析不了这一段（代词链、没有题注的表格、嵌套从句深到无法概括）。
把失败方式落到具体的信号上。 把每一条 ⚠️ 和 ❌ 都对回 §3 表里的七项信号；这条对应关系就是发现。

下面是规范的日志行（手工测试的结果按这套 schema 汇总到 §8 报告里）：

audit_date          UTC 审计日期
page_url            被审页面的 URL
chunk_excerpt       被测段落的前 120 个字符
signal_n            这条失败对应七项信号里的哪一项（1 到 7）
outcome             可单独引用 | 部分通过 | 不通过
failure_shape       简短记录（代词指代 / 表格无题注 / 嵌套从句过深 / …）
severity            阻断级 | 重大级 | 次要级（见 §8）

4.1 实战演练：同一段事实的三个版本

下面是关于 robots.txt 这件事的三种写法，每一种都单独取出来，贴进一次新开的 ChatGPT search 会话，用同一句提示：「这一段在讲什么？」。三种结果之间的对照，本身就是这个测试。

版本 ✅，可单独引用。 「robots.txt 是位于域名根目录下的纯文本文件，用来告诉爬虫它们可以抓取哪些 URL。每条规则给出一个 user-agent 和一个路径。」 引擎返回一段干净的复述：定义、位置、结构都讲清楚，没有反问，没有犹豫。判定：✅，第 1 项信号通过。

版本 ⚠️，部分通过。 「它告诉爬虫它们可以抓取哪些 URL；具体匹配规则见前面的图。」 引擎含糊地说：「这一段似乎在描述一个用来控制爬虫访问的文件，但主语不清楚：它指的是哪个文件？」 代词加上一句指向「前面的图」的悬空指代，逼得引擎反问。判定：⚠️，第 1 项部分通过；代词指代加外部指向破坏了自包含。

版本 ❌，不通过。 「如上所述，它适用；但正如我们在 §2 提到的，优先级规则也会反过来覆盖它。」 引擎解析不出任何主语或动作，要求你提供原始文档。判定：❌，第 1 项不通过；通篇代词链，没有任何对应锚点。

把同一套练习再跑一遍 TL;DR、跑一遍某个 H2 首段、跑一遍表格里的一行，得到的就是 §8 发现矩阵中逐段那一行。那些不做这个测试就给可引用性打分的工具，是凭表层特征做预测；这个测试给出的是直接判定。

5. 第 2 步：把七项信号逐项走一遍（逐项审计微表）

下面每个 H3 都使用同一张四行微表：审计问题／合格的样子／失败的方式／改写方向。这样不同信号之间的发现就能直接比对。定义在可引用性 §4；示例参照上面 §4。

5.1 第 1 项：内容块自包含


审计问题	单独取出来看，这一段不依赖前后段也能成立吗？
合格的样子	一段话讲清自己的主语、自己的论断（必要时附署名）
失败的方式	代词指代、「如上所述」／「见 §X」、对某张图或某张前表的悬空指代
改写方向	为 AI 引用而写：自包含的内容块

5.2 第 2 项：直接答案／TL;DR 块


审计问题	答案有没有写在该节的头一两句里？
合格的样子	倒金字塔式导语：先抛结论，再给铺垫
失败的方式	两三段铺垫之后，结论才出现
改写方向	为 AI 引用而写：倒金字塔式段落

5.3 第 3 项：问答／FAQ 结构


审计问题	提问形式的标题，对得上真实用户会输入的查询吗？
合格的样子	`### 我的页面被检索到了，却没被引用，为什么？` 这种对得上真实查询的标题
失败的方式	标题没人会搜，或者干脆是凭空编出来的 FAQ（即 §7 所说的伪改写）
改写方向	为 AI 引用而写：提问式标题

第 3 项视页面形式而定；本身不适合 FAQ 的页面，强加这套结构反而出问题。提问式标题对应的是查询扩展，见 Answer Loop §3.1。

5.4 第 4 项：步骤／HowTo 结构


审计问题	页面里如果有流程，是不是一组编号的、命令式的步骤？
合格的样子	每一步只做一件事，单独读也不需要周围铺垫
失败的方式	「首先你需要考虑……再然后或许可以试着……」这种把步骤埋在散文里的写法
改写方向	为 AI 引用而写：步骤列表

5.5 第 5 项：可引用的表格／列表


审计问题	每一行能单独读懂吗？有没有题注？列标签自解释吗？
合格的样子	行独立、带题注、列标签自解释，引擎可以整行取用
失败的方式	表里每一行离开周围段落就读不通
改写方向	为 AI 引用而写：可自解释的表格

Microsoft 把这件事讲得很明确：「清晰的标题、表格和 FAQ 段落，有助于把关键信息凸显出来，也让 AI 系统更容易准确地引用」（见 Bing AI Performance）。

5.6 第 6 项：清晰的标题层级


审计问题	H2 到 H3 嵌套干净吗？有没有跳级？有没有纯装饰用的标题？
合格的样子	每个 H2／H3 都对应一个真实的内容单元；平铺成清单读起来像目录
失败的方式	跳级（H2 → H4）、为了视觉大小才用的标题、重复的 H1
改写方向	为 AI 引用而写：标题层级

5.7 第 7 项：可单独引用的论断句


审计问题	每个 H2 下面有没有一句结实的、能被原样取用、署名也站得住的论断？
合格的样子	「检索决定你能不能进候选集；采信决定你能不能被用上。」这种短而硬的论断
失败的方式	「也许可以认为，在某些情形下，检索未必总能导向被使用。」这种含糊层叠的句子
改写方向	为 AI 引用而写：可引用的论断

6. 不同呈现端的审计差异：共性与差值

七项信号是共性，到哪儿都成立。差值在于：每种呈现端对哪一种失败的惩罚最重；这一点反过来决定 §2 里引擎该怎么选。

呈现端	最关键的几项信号	为什么
Perplexity	1、5、7	引用密度天生很高；最看重切得紧实、可单独引用的内容块和论断句
ChatGPT search	2	实时抓取；最看重抓取后页面顶部那一块直接答案
Google AI Overviews	3、6	基于索引；最看重对得上查询扩展的标题结构和问答结构

在某个呈现端上顺利通过，不能直接外推到其他呈现端。这套审计在跨语言上也不是共性的：中文和英文的内容块、答案块在可引用性上会出现差别，见多语言 GEO。

7. 伪改写：当一个「修复」反而触发了另一种过滤器

下面是审计发现一条缺失之后，从业者常会顺手用上的几种「修复」：它们看上去像在补那一项信号，实际却触发了另一种 AI 反垃圾或可信度过滤器。概念层面被过度套用的例子在可引用性 §6 里；下面这张是操作层面的对照。

伪改写	像是在修哪一项	为什么实际上反而失败
把整页切成一句话一段	第 1 项（自包含）	碎片本身就丢失了意义，没有任何一段是连贯、能整段引用的完整答案
凭空补出真实用户根本不会问的 FAQ	第 3 项（问答）	会被识别为模板化样板，按低质内容降权
为了「看起来可被引用」编造统计数据	第 7 项（可引用论断）	无来源的数字通不过可信度过滤，见 E-E-A-T
把自家另一页的模板化段落直接搬过来	第 1 项（自包含）	近重复内容会被识别，见 AI 内容检测

Google 在 2026 年 5 月的优化指南里说得很直接：「并不需要把内容切碎成极小的片段，AI 才能理解。Google 的系统有能力理解一张页面上多个主题之间的细节差异」（见 AI Optimization Guide）。把内容切得过碎之所以是最常见的一种伪改写，正是因为它表面上模仿了第 1 项信号，却同时抹掉了第 1 项真正衡量的属性：连贯前提下的自包含。

结论说在明处：可引用性是必要条件，不是充分条件。没有内容支撑的结构是会被识别、会被惩罚的；可信度上的缺口，也不会因为内容块切得漂亮就消失。等到竞争对手也针对同一个引擎做优化，这类改写中的相当一部分会失效，见 C-SEO Bench。

8. 评分与报告交付物

真正驱动行动的产出，是每段内容 × 每项信号一格的通过／部分通过／不通过，逐格标注严重级别。第 1、2、7 项失败时默认归为重大级；第 3、4、6 项默认归为次要级，除非整页本身就是错的形式；第 5 项的级别随页面的表格化程度而定。这套严重级别的归类逻辑，与完整 GEO 审计 §5 一致：定位到具体哪一项信号出了问题，而不是给整页拍一个综合分。

0 到 100 的「可引用性分」本手册不出。市面上每一个这样的分数，背后都没有公开算法：Topify 直接打的是*「a 0–100 grade of how AI-ready your website is」（你站点 AI 就绪度的 0 到 100 评级），算法不公开；Citability.ai 给出一个「Combined Score: 62」（综合分 62），由三个子分加权而成，权重不公开；Mangools 的 AI Search Grader 自己写明分数「weighted by market share」*（按市场份额加权），具体权重不公开。一个连算法都看不到的孤立数字，只是一个说法，不是一次度量；GEO 指标对每个对外数字一贯坚持的口径要求，在这里要更严格地适用。按信号逐项给出的判定是可复现的，一个综合分不可复现。

每次报告固定交付的内容：一份抬头（审计日期、被审对象、抽样决定、所用引擎），逐段 × 逐信号的判定矩阵（每格一个 ✅／⚠️／❌），按严重级别排序的发现清单，每条发现里附 §4 记录到的失败方式，每条发现配一句改写方向，链到为 AI 引用而写对应的小节；如果做过上一次审计，再加一份基线差值。复审只对变动过的段落重跑一次内容块抽取测试；未变动的信号沿用上一次的判定。

9. 容易踩的坑

把下面每一项都过一遍，再把报告发出去：

审的是渲染后的 DOM，不是抓到的 HTML：客户端渲染的内容根本进不到爬虫眼里；要单独测一次禁用 JS 后抓取看到的页面（见面向 AI 爬虫的 SSR）。
只抽样页首：第 1 项信号最常在长页的中段失败；H2 首段要按全文均匀抽样，不能都堆在最上面。
在带个性化的会话里跑测试：登录过的、留着历史记录的会话，给出的回答不可复现。
七项里过了六项就当整页过：第 1 项一旦失败，其余六项再漂亮也救不回；最小单元级别的失败压过其他所有。
拿单个引擎的结果做普适结论：§6 的差值是真实存在的；在 Perplexity 上通过，AI Overviews 那边可能照样会出问题，所用引擎必须写进报告抬头。
跨语言混用：见多语言 GEO；中文页面的一次审计结论不要直接套到英文页面，反之亦然。
未核实的引用算作通过：引擎引用的那一段，未必真的支撑它被附在那里的那句话；这是常见现象，Liu et al. 2023 专门指出过，结果层的对应做法见 AI 引用追踪 §4.1。

10. 延伸阅读

概念层：可引用性（本手册要审计的那七项信号的定义）、E-E-A-T（采信中的可信度一侧）
配套手册：完整 GEO 审计（本手册即其第 4 层的深查方法）、为 AI 引用而写（按信号给出的改写写法）、AI 引用追踪（结果一侧的度量闭环）
逐引擎呈现端：Perplexity、ChatGPT search
学术参考：Aggarwal et al. 2024 — GEO: Generative Engine Optimization；后续的边界解读见 C-SEO Bench

参考资料

学术：

Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K. & Deshpande, A. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · ACM DL · 论文条目
Puerto, H., Gubri, M., Green, C., Oh, S. J. & Yun, S. (2025). C-SEO Bench: Does Conversational SEO Work? NeurIPS ‘25 Datasets & Benchmarks. arXiv:2506.11097
Liu, N. F., Zhang, T. & Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. Findings of EMNLP 2023. arXiv:2304.09848

平台官方文档（2026-05 已核对）：

Google Search Central — A new resource for optimizing for generative AI in Google Search · AI Optimization Guide · AI features and your website · Succeeding in AI search
Microsoft Bing — Evolving role of the index: From ranking pages to supporting answers · AI Performance in Bing Webmaster Tools
OpenAI — ChatGPT search Help Center
Perplexity — What is an answer engine, and how does Perplexity work as one?

常见问题

「可引用性审计」是一个真概念，还是 GEO Wiki 自造的说法？

「可引用性审计」这个名字是通用的：自 2024 年以来，已经有不少代理商和工具以不同名字交付过类似的审计服务。本手册里这一套「七项信号 + 内容块抽取测试」的具体诊断方法，是 GEO Wiki 整理出的做法，依托 [可引用性](/zh/citability) 这个概念条目，并不是公认的行业标准。采用它的理由是内容块抽取测试能给出一个可证伪的判定，而不是因为有谁给它背过书。

它和完整 GEO 审计有什么不一样？

完整 GEO 审计是从底往上把六层都走一遍（访问、渲染、结构、内容、站外权威、结果），把本手册作为第四层「内容与可信度」的深查方法来用。如果完整审计在第 4 层暴露出「被读到却没被引用」这类发现，本手册就是逐页排查的具体做法。单独使用时，本手册回答的是一个更窄的问题；放在完整审计里，它为上层结论提供一条具体依据。

做这次审计，是不是必须装 ChatGPT 或 Perplexity？

任何一个会做实时检索、并且会把检索到的内容呈现给你看的对话界面都行：ChatGPT search、Perplexity、Gemini，或者 Bing Copilot。本手册 §4 里逐字示范的两个引擎是 ChatGPT 和 Perplexity，因为它们呈现的检索内容足够完整，便于核对测试结果。在目标受众真正在用的那个引擎上跑测试即可；在 Perplexity 上顺利通过，并不等于在 AI Overviews 也能通过，见 §6。

为什么本手册不给一个 0 到 100 的可引用性分？

因为市面上每一个这样的分数，背后都没有公开过算法。Topify 打的是「a 0–100 grade of how AI-ready your website is」（你站点 AI 就绪度的 0 到 100 评级），算法不公开；Citability.ai 给出一个「Combined Score: 62」（综合分 62），三个子分如何加权不公开；Mangools 自己写明分数「weighted by market share」（按市场份额加权），具体权重不公开。一个连算法都看不到的孤立数字，只是一个说法，不是一次度量；这和 [GEO 指标](/zh/geo-metrics) 一贯坚持的口径要求是一致的。按信号逐项给出的判定是可复现的，一个综合分不可复现。

如果只有 30 分钟，性价比最高的一个检查是什么？

从你最重要的那个页面里随机挑三段，每一段都原样复制出来，单独贴进一次新开的 ChatGPT search 或 Perplexity 会话，问它「这一段在讲什么？」。任何一段，只要引擎含糊其辞、反过来问你需要什么背景、或补错了上下文，就是一条可引用性的发现，通常都是第 1 项信号（内容块自包含）出了问题。这就是 §4 的压缩版，也是那些自动化工具实际上谁都没在做的一项测试。

参考来源

一手来源

GEO: Generative Engine Optimization (Aggarwal et al., KDD 2024) · arXiv / KDD '24 · 2024-08-25
GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25
A new resource for optimizing for generative AI in Google Search · Google Search Central · 2026-05-15
AI Optimization Guide · Google Search Central · 2026-05-15
Evolving role of the index: From ranking pages to supporting answers · Microsoft Bing · 2026-05-06
Introducing AI Performance in Bing Webmaster Tools (Public Preview) · Microsoft Bing · 2026-02-10
AI features and your website · Google Search Central · 2025-12-10
Top ways to ensure your content performs well in Google's AI experiences on Search · Google Search Central · 2025-05-01
ChatGPT search — OpenAI Help Center · OpenAI
What is an answer engine, and how does Perplexity work as one? · Perplexity AI

二手来源

C-SEO Bench: Does Conversational SEO Work? (Puerto et al., NeurIPS '25 D&B) · arXiv / NeurIPS '25 D&B
Evaluating Verifiability in Generative Search Engines (Liu et al., EMNLP '23 Findings) · arXiv / EMNLP '23 Findings