跳到正文
操作手册 · 实践

可引用性审计

速览要点

难度
进阶
预计耗时
每个内聚的对象约 2–4 小时;复审更短
前置条件
可引用性、GEO 指标
这是什么
按页面逐段做诊断:把这一段单独抽出来,AI 引擎能不能整段放进答案?
方法主干
[可引用性](/zh/citability) §4 的七项结构信号,配一次人工内容块抽取测试
产出
每段内容 × 每项信号一格的通过/部分通过/不通过矩阵,按严重级别排序,每条发现附一句改写方向
投入
一个内聚对象约 2 到 4 小时;复审更短
不出综合分
0 到 100 的「可引用性分」本手册不出(见 §8)。真正驱动行动的,是按信号逐项给出的判定

1. 这次审计在做什么,会给出怎样一份产出

可引用性审计针对一个内聚的对象(一个页面、一个模板、一组内容簇),按段落逐一去测:AI 引擎在已经检索到这段内容之后,能不能把它整段放进合成答案里。可引用性 里定义的那七项结构信号(内容块自包含、直接答案/TL;DR 块、问答/FAQ、步骤/HowTo、可引用的表格/列表、清晰的标题层级、可单独引用的论断句),在这里变成逐段对照的检查表;而一次人工的内容块抽取测试(见 §4),把每一项的通过与否落到实处:拿真实引擎对真实的那一段,跑一遍。

产出不是单个数字,而是一份逐段 × 逐信号的通过/部分通过/不通过矩阵,每条发现都标好严重级别,配一句改写方向。完整改写写法在 为 AI 引用而写 里;本手册止步于发现的命名与排序。论文里关于呈现度的那套量化结论(在内容上做扎实功夫,胜过堆关键字),是这套方法的学术依据,但要带着边界条件读,见 Aggarwal et al. 2024

Microsoft 2026 年 5 月说得很直接:「价值的计量单位,正在从文档转向可被采信的信息」(见 Bing — Evolving role of the index)。本手册审的,就是按这一转变重新定义的那个单位:段落,不是整页。

关于命名补一句。「可引用性审计」是通用说法,不是自造词。下面这套「七项信号 + 内容块抽取测试」的具体做法,是 GEO Wiki 整理出的实操路径,依托 可引用性 §4完整 GEO 审计 把它衔接到自身第 4 层的内容发现上。

2. 开始审计前:对象、抽样、引擎、基线

下面四项决定,会一路框定之后每一条发现该怎么解读。任何一项定错,整份报告都无从解读;这和 完整 GEO 审计 §2、AI 引用追踪 §2 开篇强调的「先把口径定好,再开始度量」是一个道理。

决策选项经验法则
对象单个页面/单个模板/一组内容簇/某个语言版本一次只审一个内聚对象;对象一混,得到的发现就无法落地。模板要审,就审流量最大的那个实例
抽样整页/一组 5 到 8 个有代表性的段落TL;DR、某个 H2 的首段、表格里的一行、一条 FAQ 答案、正文中段一句结实的论断,各取一段;不要只审页首
引擎写明目标受众真正在用的那个不同引擎对内容块形状的偏好不同;§6 给出明细。在 Perplexity 上通过,不代表在别处也能通过
基线首次审计/与上一次审计做差值对比没有基线,拿到的只是一张快照,不是一条趋势;报告抬头里要写明属于哪一种

多久审一次。完整 GEO 审计 第 4 层暴露出「被读到却没被引用」这类发现时,把本手册作为深查方法跑一次;对头部页和常青页则按季度定期跑;此外再叠加几类触发事件:一次内容结构调整、CMS 或模板迁移、答案块大改,或者新一期追踪数据显示竞争对手在你的目标查询上被引用,而你没有。

开始前先备齐这几样。 一份爬虫眼里所见的页面(抓取得到的 HTML,不是渲染后的 DOM;这一规范与 AI 爬虫 一致)、一份页面标题的平铺清单,以及一个新开的无痕浏览会话,引擎按 §2 写明的那个来选。

3. 七项信号的审计阶梯

审计走的就是 可引用性 §4 命名的那七项结构信号(顺序一样,定义一样),对每一项问两个问题:这一段有没有这项信号?缺了这一项,会让采信付出多大代价? 下面这张七行表是本手册的主干;§5 的每个 H3 对应表里的一行。

#信号审计问题定义出处
1内容块自包含随手挑一段,单独读还能读懂吗?可引用性 §4.1
2直接答案/TL;DR 块答案有没有写在该节的头一两句里?可引用性 §4.2
3问答/FAQ 结构提问形式的标题,对得上真实用户的子问题吗?可引用性 §4.3
4步骤/HowTo 结构页面里如果有流程,是不是一组编号的、命令式的步骤?可引用性 §4.4
5可引用的表格/列表每一行能单独读懂吗?有没有题注?列标签是否自解释?可引用性 §4.5
6清晰的标题层级H2 到 H3 嵌套干净吗?有没有跳级?有没有纯装饰用的标题?可引用性 §4.6
7可单独引用的论断句每个 H2 下面有没有一句结实的、能被原样取用、署名也站得住的论断?可引用性 §4.7

实战中最能拉开优劣的是第 1、2、7 项;这三项决定整页是否有任何一个最小单元能被引用。第 3、4 项视页面形式而定:本身不是问答型或流程型的页面,硬套这两种结构反而是 §7 所说的伪改写。第 5 项随页面的表格化程度而定;第 6 项查起来便宜,改起来也便宜。表从上往下走完一遍;发现按严重级别排序,不按信号编号排序(见 §8)。

4. 第 1 步:内容块抽取测试(每次都从这一步开始)

这是本手册最关键的一项人工测试,单独拎出来讲。把一段内容从原上下文中剥离,单独贴进一次新开的 ChatGPT search 或 Perplexity 会话,让引擎只用这一段去做总结或回答。如果引擎自行补出明显的背景、反过来问你要上下文、或者把缺失的设定补错了,这一段就不是自包含的。 本手册里其他每一项检查,本质都是在间接问同一个问题:这一段单独能立得住吗。这个测试直接拿真实引擎,按真实使用模式问一遍。

操作流程:

  1. 抽样。 按 §2 抽样规则取 5 到 8 段有代表性的内容:TL;DR、某个 H2 的首段、表格里的一行、一条 FAQ 答案、正文中段一句结实的论断。
  2. 每一段原样取出。 去掉它周围的段落、标题,以及*「如上所述」「见 §3」*这类指向。这种独立形态,才是检索触发之后 AI 引擎实际看到的东西。
  3. 单独贴进一次新开的引擎会话。 不要带前一轮对话,不要带历史,不要带系统提示词;带个性化的会话不可复现。提问:「这一段在讲什么?」 或者 「只用这一段,回答:[这页对应的目标查询]」
  4. 给这一段打分,分三种结果:
    • 可单独引用:引擎只用这一段就给出干净的答复。
    • ⚠️ 部分通过:引擎含糊其辞、反过来问背景、或把缺失的铺垫补错了。记下它具体缺了什么。
    • 不通过:引擎根本解析不了这一段(代词链、没有题注的表格、嵌套从句深到无法概括)。
  5. 把失败方式落到具体的信号上。 把每一条 ⚠️ 和 ❌ 都对回 §3 表里的七项信号;这条对应关系就是发现。

下面是规范的日志行(手工测试的结果按这套 schema 汇总到 §8 报告里):

audit_date          UTC 审计日期
page_url            被审页面的 URL
chunk_excerpt       被测段落的前 120 个字符
signal_n            这条失败对应七项信号里的哪一项(1 到 7)
outcome             可单独引用 | 部分通过 | 不通过
failure_shape       简短记录(代词指代 / 表格无题注 / 嵌套从句过深 / …)
severity            阻断级 | 重大级 | 次要级(见 §8)

4.1 实战演练:同一段事实的三个版本

下面是关于 robots.txt 这件事的三种写法,每一种都单独取出来,贴进一次新开的 ChatGPT search 会话,用同一句提示:「这一段在讲什么?」。三种结果之间的对照,本身就是这个测试。

版本 ✅,可单独引用。 「robots.txt 是位于域名根目录下的纯文本文件,用来告诉爬虫它们可以抓取哪些 URL。每条规则给出一个 user-agent 和一个路径。」 引擎返回一段干净的复述:定义、位置、结构都讲清楚,没有反问,没有犹豫。判定:✅,第 1 项信号通过。

版本 ⚠️,部分通过。 「它告诉爬虫它们可以抓取哪些 URL;具体匹配规则见前面的图。」 引擎含糊地说:「这一段似乎在描述一个用来控制爬虫访问的文件,但主语不清楚:它指的是哪个文件?」 代词加上一句指向「前面的图」的悬空指代,逼得引擎反问。判定:⚠️,第 1 项部分通过;代词指代加外部指向破坏了自包含。

版本 ❌,不通过。 「如上所述,它适用;但正如我们在 §2 提到的,优先级规则也会反过来覆盖它。」 引擎解析不出任何主语或动作,要求你提供原始文档。判定:❌,第 1 项不通过;通篇代词链,没有任何对应锚点。

把同一套练习再跑一遍 TL;DR、跑一遍某个 H2 首段、跑一遍表格里的一行,得到的就是 §8 发现矩阵中逐段那一行。那些不做这个测试就给可引用性打分的工具,是凭表层特征做预测;这个测试给出的是直接判定。

5. 第 2 步:把七项信号逐项走一遍(逐项审计微表)

下面每个 H3 都使用同一张四行微表:审计问题/合格的样子/失败的方式/改写方向。这样不同信号之间的发现就能直接比对。定义在 可引用性 §4;示例参照上面 §4。

5.1 第 1 项:内容块自包含

审计问题单独取出来看,这一段不依赖前后段也能成立吗?
合格的样子一段话讲清自己的主语、自己的论断(必要时附署名)
失败的方式代词指代、「如上所述」「见 §X」、对某张图或某张前表的悬空指代
改写方向为 AI 引用而写:自包含的内容块

5.2 第 2 项:直接答案/TL;DR 块

审计问题答案有没有写在该节的头一两句里?
合格的样子倒金字塔式导语:先抛结论,再给铺垫
失败的方式两三段铺垫之后,结论才出现
改写方向为 AI 引用而写:倒金字塔式段落

5.3 第 3 项:问答/FAQ 结构

审计问题提问形式的标题,对得上真实用户会输入的查询吗?
合格的样子### 我的页面被检索到了,却没被引用,为什么? 这种对得上真实查询的标题
失败的方式标题没人会搜,或者干脆是凭空编出来的 FAQ(即 §7 所说的伪改写)
改写方向为 AI 引用而写:提问式标题

第 3 项视页面形式而定;本身不适合 FAQ 的页面,强加这套结构反而出问题。提问式标题对应的是查询扩展,见 Answer Loop §3.1

5.4 第 4 项:步骤/HowTo 结构

审计问题页面里如果有流程,是不是一组编号的、命令式的步骤?
合格的样子每一步只做一件事,单独读也不需要周围铺垫
失败的方式「首先你需要考虑……再然后或许可以试着……」 这种把步骤埋在散文里的写法
改写方向为 AI 引用而写:步骤列表

5.5 第 5 项:可引用的表格/列表

审计问题每一行能单独读懂吗?有没有题注?列标签自解释吗?
合格的样子行独立、带题注、列标签自解释,引擎可以整行取用
失败的方式表里每一行离开周围段落就读不通
改写方向为 AI 引用而写:可自解释的表格

Microsoft 把这件事讲得很明确:「清晰的标题、表格和 FAQ 段落,有助于把关键信息凸显出来,也让 AI 系统更容易准确地引用」(见 Bing AI Performance)。

5.6 第 6 项:清晰的标题层级

审计问题H2 到 H3 嵌套干净吗?有没有跳级?有没有纯装饰用的标题?
合格的样子每个 H2/H3 都对应一个真实的内容单元;平铺成清单读起来像目录
失败的方式跳级(H2 → H4)、为了视觉大小才用的标题、重复的 H1
改写方向为 AI 引用而写:标题层级

5.7 第 7 项:可单独引用的论断句

审计问题每个 H2 下面有没有一句结实的、能被原样取用、署名也站得住的论断?
合格的样子「检索决定你能不能进候选集;采信决定你能不能被用上。」 这种短而硬的论断
失败的方式「也许可以认为,在某些情形下,检索未必总能导向被使用。」 这种含糊层叠的句子
改写方向为 AI 引用而写:可引用的论断

6. 不同呈现端的审计差异:共性与差值

七项信号是共性,到哪儿都成立。差值在于:每种呈现端对哪一种失败的惩罚最重;这一点反过来决定 §2 里引擎该怎么选。

呈现端最关键的几项信号为什么
Perplexity1、5、7引用密度天生很高;最看重切得紧实、可单独引用的内容块和论断句
ChatGPT search2实时抓取;最看重抓取后页面顶部那一块直接答案
Google AI Overviews3、6基于索引;最看重对得上查询扩展的标题结构和问答结构

在某个呈现端上顺利通过,不能直接外推到其他呈现端。这套审计在跨语言上也不是共性的:中文和英文的内容块、答案块在可引用性上会出现差别,见 多语言 GEO

7. 伪改写:当一个「修复」反而触发了另一种过滤器

下面是审计发现一条缺失之后,从业者常会顺手用上的几种「修复」:它们看上去像在补那一项信号,实际却触发了另一种 AI 反垃圾或可信度过滤器。概念层面被过度套用的例子在 可引用性 §6 里;下面这张是操作层面的对照。

伪改写像是在修哪一项为什么实际上反而失败
把整页切成一句话一段第 1 项(自包含)碎片本身就丢失了意义,没有任何一段是连贯、能整段引用的完整答案
凭空补出真实用户根本不会问的 FAQ第 3 项(问答)会被识别为模板化样板,按低质内容降权
为了「看起来可被引用」编造统计数据第 7 项(可引用论断)无来源的数字通不过可信度过滤,见 E-E-A-T
把自家另一页的模板化段落直接搬过来第 1 项(自包含)近重复内容会被识别,见 AI 内容检测

Google 在 2026 年 5 月的优化指南里说得很直接:「并不需要把内容切碎成极小的片段,AI 才能理解。Google 的系统有能力理解一张页面上多个主题之间的细节差异」(见 AI Optimization Guide)。把内容切得过碎之所以是最常见的一种伪改写,正是因为它表面上模仿了第 1 项信号,却同时抹掉了第 1 项真正衡量的属性:连贯前提下的自包含。

结论说在明处:可引用性是必要条件,不是充分条件。没有内容支撑的结构是会被识别、会被惩罚的;可信度上的缺口,也不会因为内容块切得漂亮就消失。等到竞争对手也针对同一个引擎做优化,这类改写中的相当一部分会失效,见 C-SEO Bench

8. 评分与报告交付物

真正驱动行动的产出,是每段内容 × 每项信号一格的通过/部分通过/不通过,逐格标注严重级别。第 1、2、7 项失败时默认归为重大级;第 3、4、6 项默认归为次要级,除非整页本身就是错的形式;第 5 项的级别随页面的表格化程度而定。这套严重级别的归类逻辑,与 完整 GEO 审计 §5 一致:定位到具体哪一项信号出了问题,而不是给整页拍一个综合分。

0 到 100 的「可引用性分」本手册不出。市面上每一个这样的分数,背后都没有公开算法:Topify 直接打的是*「a 0–100 grade of how AI-ready your website is」(你站点 AI 就绪度的 0 到 100 评级),算法不公开;Citability.ai 给出一个「Combined Score: 62」(综合分 62),由三个子分加权而成,权重不公开;Mangools 的 AI Search Grader 自己写明分数「weighted by market share」*(按市场份额加权),具体权重不公开。一个连算法都看不到的孤立数字,只是一个说法,不是一次度量;GEO 指标 对每个对外数字一贯坚持的口径要求,在这里要更严格地适用。按信号逐项给出的判定是可复现的,一个综合分不可复现。

每次报告固定交付的内容:一份抬头(审计日期、被审对象、抽样决定、所用引擎),逐段 × 逐信号的判定矩阵(每格一个 ✅/⚠️/❌),按严重级别排序的发现清单,每条发现里附 §4 记录到的失败方式,每条发现配一句改写方向,链到 为 AI 引用而写 对应的小节;如果做过上一次审计,再加一份基线差值。复审只对变动过的段落重跑一次内容块抽取测试;未变动的信号沿用上一次的判定。

9. 容易踩的坑

把下面每一项都过一遍,再把报告发出去:

  • 审的是渲染后的 DOM,不是抓到的 HTML:客户端渲染的内容根本进不到爬虫眼里;要单独测一次禁用 JS 后抓取看到的页面(见 面向 AI 爬虫的 SSR)。
  • 只抽样页首:第 1 项信号最常在长页的中段失败;H2 首段要按全文均匀抽样,不能都堆在最上面。
  • 在带个性化的会话里跑测试:登录过的、留着历史记录的会话,给出的回答不可复现。
  • 七项里过了六项就当整页过:第 1 项一旦失败,其余六项再漂亮也救不回;最小单元级别的失败压过其他所有。
  • 拿单个引擎的结果做普适结论:§6 的差值是真实存在的;在 Perplexity 上通过,AI Overviews 那边可能照样会出问题,所用引擎必须写进报告抬头。
  • 跨语言混用:见 多语言 GEO;中文页面的一次审计结论不要直接套到英文页面,反之亦然。
  • 未核实的引用算作通过:引擎引用的那一段,未必真的支撑它被附在那里的那句话;这是常见现象,Liu et al. 2023 专门指出过,结果层的对应做法见 AI 引用追踪 §4.1

10. 延伸阅读

参考资料

学术:

  1. Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K. & Deshpande, A. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · ACM DL · 论文条目
  2. Puerto, H., Gubri, M., Green, C., Oh, S. J. & Yun, S. (2025). C-SEO Bench: Does Conversational SEO Work? NeurIPS ‘25 Datasets & Benchmarks. arXiv:2506.11097
  3. Liu, N. F., Zhang, T. & Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. Findings of EMNLP 2023. arXiv:2304.09848

平台官方文档(2026-05 已核对):

常见问题

「可引用性审计」是一个真概念,还是 GEO Wiki 自造的说法?
「可引用性审计」这个名字是通用的:自 2024 年以来,已经有不少代理商和工具以不同名字交付过类似的审计服务。本手册里这一套「七项信号 + 内容块抽取测试」的具体诊断方法,是 GEO Wiki 整理出的做法,依托 [可引用性](/zh/citability) 这个概念条目,并不是公认的行业标准。采用它的理由是内容块抽取测试能给出一个可证伪的判定,而不是因为有谁给它背过书。
它和完整 GEO 审计有什么不一样?
完整 GEO 审计是从底往上把六层都走一遍(访问、渲染、结构、内容、站外权威、结果),把本手册作为第四层「内容与可信度」的深查方法来用。如果完整审计在第 4 层暴露出「被读到却没被引用」这类发现,本手册就是逐页排查的具体做法。单独使用时,本手册回答的是一个更窄的问题;放在完整审计里,它为上层结论提供一条具体依据。
做这次审计,是不是必须装 ChatGPT 或 Perplexity?
任何一个会做实时检索、并且会把检索到的内容呈现给你看的对话界面都行:ChatGPT search、Perplexity、Gemini,或者 Bing Copilot。本手册 §4 里逐字示范的两个引擎是 ChatGPT 和 Perplexity,因为它们呈现的检索内容足够完整,便于核对测试结果。在目标受众真正在用的那个引擎上跑测试即可;在 Perplexity 上顺利通过,并不等于在 AI Overviews 也能通过,见 §6。
为什么本手册不给一个 0 到 100 的可引用性分?
因为市面上每一个这样的分数,背后都没有公开过算法。Topify 打的是「a 0–100 grade of how AI-ready your website is」(你站点 AI 就绪度的 0 到 100 评级),算法不公开;Citability.ai 给出一个「Combined Score: 62」(综合分 62),三个子分如何加权不公开;Mangools 自己写明分数「weighted by market share」(按市场份额加权),具体权重不公开。一个连算法都看不到的孤立数字,只是一个说法,不是一次度量;这和 [GEO 指标](/zh/geo-metrics) 一贯坚持的口径要求是一致的。按信号逐项给出的判定是可复现的,一个综合分不可复现。
如果只有 30 分钟,性价比最高的一个检查是什么?
从你最重要的那个页面里随机挑三段,每一段都原样复制出来,单独贴进一次新开的 ChatGPT search 或 Perplexity 会话,问它「这一段在讲什么?」。任何一段,只要引擎含糊其辞、反过来问你需要什么背景、或补错了上下文,就是一条可引用性的发现,通常都是第 1 项信号(内容块自包含)出了问题。这就是 §4 的压缩版,也是那些自动化工具实际上谁都没在做的一项测试。

相关手册与百科

参考来源

一手来源

  1. GEO: Generative Engine Optimization (Aggarwal et al., KDD 2024) · arXiv / KDD '24 · 2024-08-25
  2. GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25
  3. A new resource for optimizing for generative AI in Google Search · Google Search Central · 2026-05-15
  4. AI Optimization Guide · Google Search Central · 2026-05-15
  5. Evolving role of the index: From ranking pages to supporting answers · Microsoft Bing · 2026-05-06
  6. Introducing AI Performance in Bing Webmaster Tools (Public Preview) · Microsoft Bing · 2026-02-10
  7. AI features and your website · Google Search Central · 2025-12-10
  8. Top ways to ensure your content performs well in Google's AI experiences on Search · Google Search Central · 2025-05-01
  9. ChatGPT search — OpenAI Help Center · OpenAI
  10. What is an answer engine, and how does Perplexity work as one? · Perplexity AI

二手来源

  1. C-SEO Bench: Does Conversational SEO Work? (Puerto et al., NeurIPS '25 D&B) · arXiv / NeurIPS '25 D&B
  2. Evaluating Verifiability in Generative Search Engines (Liu et al., EMNLP '23 Findings) · arXiv / EMNLP '23 Findings
最近更新: 2026-05-25 作者: Ray Yang 主题: 实践