可引用性审计
速览要点
- 难度
- 进阶
- 预计耗时
- 每个内聚的对象约 2–4 小时;复审更短
- 前置条件
- 可引用性、GEO 指标
- 这是什么
- 按页面逐段做诊断:把这一段单独抽出来,AI 引擎能不能整段放进答案?
- 方法主干
- [可引用性](/zh/citability) §4 的七项结构信号,配一次人工内容块抽取测试
- 产出
- 每段内容 × 每项信号一格的通过/部分通过/不通过矩阵,按严重级别排序,每条发现附一句改写方向
- 投入
- 一个内聚对象约 2 到 4 小时;复审更短
- 不出综合分
- 0 到 100 的「可引用性分」本手册不出(见 §8)。真正驱动行动的,是按信号逐项给出的判定
1. 这次审计在做什么,会给出怎样一份产出
可引用性审计针对一个内聚的对象(一个页面、一个模板、一组内容簇),按段落逐一去测:AI 引擎在已经检索到这段内容之后,能不能把它整段放进合成答案里。可引用性 里定义的那七项结构信号(内容块自包含、直接答案/TL;DR 块、问答/FAQ、步骤/HowTo、可引用的表格/列表、清晰的标题层级、可单独引用的论断句),在这里变成逐段对照的检查表;而一次人工的内容块抽取测试(见 §4),把每一项的通过与否落到实处:拿真实引擎对真实的那一段,跑一遍。
产出不是单个数字,而是一份逐段 × 逐信号的通过/部分通过/不通过矩阵,每条发现都标好严重级别,配一句改写方向。完整改写写法在 为 AI 引用而写 里;本手册止步于发现的命名与排序。论文里关于呈现度的那套量化结论(在内容上做扎实功夫,胜过堆关键字),是这套方法的学术依据,但要带着边界条件读,见 Aggarwal et al. 2024。
Microsoft 2026 年 5 月说得很直接:「价值的计量单位,正在从文档转向可被采信的信息」(见 Bing — Evolving role of the index)。本手册审的,就是按这一转变重新定义的那个单位:段落,不是整页。
关于命名补一句。「可引用性审计」是通用说法,不是自造词。下面这套「七项信号 + 内容块抽取测试」的具体做法,是 GEO Wiki 整理出的实操路径,依托 可引用性 §4;完整 GEO 审计 把它衔接到自身第 4 层的内容发现上。
2. 开始审计前:对象、抽样、引擎、基线
下面四项决定,会一路框定之后每一条发现该怎么解读。任何一项定错,整份报告都无从解读;这和 完整 GEO 审计 §2、AI 引用追踪 §2 开篇强调的「先把口径定好,再开始度量」是一个道理。
| 决策 | 选项 | 经验法则 |
|---|---|---|
| 对象 | 单个页面/单个模板/一组内容簇/某个语言版本 | 一次只审一个内聚对象;对象一混,得到的发现就无法落地。模板要审,就审流量最大的那个实例 |
| 抽样 | 整页/一组 5 到 8 个有代表性的段落 | TL;DR、某个 H2 的首段、表格里的一行、一条 FAQ 答案、正文中段一句结实的论断,各取一段;不要只审页首 |
| 引擎 | 写明目标受众真正在用的那个 | 不同引擎对内容块形状的偏好不同;§6 给出明细。在 Perplexity 上通过,不代表在别处也能通过 |
| 基线 | 首次审计/与上一次审计做差值对比 | 没有基线,拿到的只是一张快照,不是一条趋势;报告抬头里要写明属于哪一种 |
多久审一次。 当 完整 GEO 审计 第 4 层暴露出「被读到却没被引用」这类发现时,把本手册作为深查方法跑一次;对头部页和常青页则按季度定期跑;此外再叠加几类触发事件:一次内容结构调整、CMS 或模板迁移、答案块大改,或者新一期追踪数据显示竞争对手在你的目标查询上被引用,而你没有。
开始前先备齐这几样。 一份爬虫眼里所见的页面(抓取得到的 HTML,不是渲染后的 DOM;这一规范与 AI 爬虫 一致)、一份页面标题的平铺清单,以及一个新开的无痕浏览会话,引擎按 §2 写明的那个来选。
3. 七项信号的审计阶梯
审计走的就是 可引用性 §4 命名的那七项结构信号(顺序一样,定义一样),对每一项问两个问题:这一段有没有这项信号?;缺了这一项,会让采信付出多大代价? 下面这张七行表是本手册的主干;§5 的每个 H3 对应表里的一行。
| # | 信号 | 审计问题 | 定义出处 |
|---|---|---|---|
| 1 | 内容块自包含 | 随手挑一段,单独读还能读懂吗? | 可引用性 §4.1 |
| 2 | 直接答案/TL;DR 块 | 答案有没有写在该节的头一两句里? | 可引用性 §4.2 |
| 3 | 问答/FAQ 结构 | 提问形式的标题,对得上真实用户的子问题吗? | 可引用性 §4.3 |
| 4 | 步骤/HowTo 结构 | 页面里如果有流程,是不是一组编号的、命令式的步骤? | 可引用性 §4.4 |
| 5 | 可引用的表格/列表 | 每一行能单独读懂吗?有没有题注?列标签是否自解释? | 可引用性 §4.5 |
| 6 | 清晰的标题层级 | H2 到 H3 嵌套干净吗?有没有跳级?有没有纯装饰用的标题? | 可引用性 §4.6 |
| 7 | 可单独引用的论断句 | 每个 H2 下面有没有一句结实的、能被原样取用、署名也站得住的论断? | 可引用性 §4.7 |
实战中最能拉开优劣的是第 1、2、7 项;这三项决定整页是否有任何一个最小单元能被引用。第 3、4 项视页面形式而定:本身不是问答型或流程型的页面,硬套这两种结构反而是 §7 所说的伪改写。第 5 项随页面的表格化程度而定;第 6 项查起来便宜,改起来也便宜。表从上往下走完一遍;发现按严重级别排序,不按信号编号排序(见 §8)。
4. 第 1 步:内容块抽取测试(每次都从这一步开始)
这是本手册最关键的一项人工测试,单独拎出来讲。把一段内容从原上下文中剥离,单独贴进一次新开的 ChatGPT search 或 Perplexity 会话,让引擎只用这一段去做总结或回答。如果引擎自行补出明显的背景、反过来问你要上下文、或者把缺失的设定补错了,这一段就不是自包含的。 本手册里其他每一项检查,本质都是在间接问同一个问题:这一段单独能立得住吗。这个测试直接拿真实引擎,按真实使用模式问一遍。
操作流程:
- 抽样。 按 §2 抽样规则取 5 到 8 段有代表性的内容:TL;DR、某个 H2 的首段、表格里的一行、一条 FAQ 答案、正文中段一句结实的论断。
- 每一段原样取出。 去掉它周围的段落、标题,以及*「如上所述」或「见 §3」*这类指向。这种独立形态,才是检索触发之后 AI 引擎实际看到的东西。
- 单独贴进一次新开的引擎会话。 不要带前一轮对话,不要带历史,不要带系统提示词;带个性化的会话不可复现。提问:「这一段在讲什么?」 或者 「只用这一段,回答:[这页对应的目标查询]」。
- 给这一段打分,分三种结果:
- ✅ 可单独引用:引擎只用这一段就给出干净的答复。
- ⚠️ 部分通过:引擎含糊其辞、反过来问背景、或把缺失的铺垫补错了。记下它具体缺了什么。
- ❌ 不通过:引擎根本解析不了这一段(代词链、没有题注的表格、嵌套从句深到无法概括)。
- 把失败方式落到具体的信号上。 把每一条 ⚠️ 和 ❌ 都对回 §3 表里的七项信号;这条对应关系就是发现。
下面是规范的日志行(手工测试的结果按这套 schema 汇总到 §8 报告里):
audit_date UTC 审计日期
page_url 被审页面的 URL
chunk_excerpt 被测段落的前 120 个字符
signal_n 这条失败对应七项信号里的哪一项(1 到 7)
outcome 可单独引用 | 部分通过 | 不通过
failure_shape 简短记录(代词指代 / 表格无题注 / 嵌套从句过深 / …)
severity 阻断级 | 重大级 | 次要级(见 §8)
4.1 实战演练:同一段事实的三个版本
下面是关于 robots.txt 这件事的三种写法,每一种都单独取出来,贴进一次新开的 ChatGPT search 会话,用同一句提示:「这一段在讲什么?」。三种结果之间的对照,本身就是这个测试。
版本 ✅,可单独引用。 「robots.txt 是位于域名根目录下的纯文本文件,用来告诉爬虫它们可以抓取哪些 URL。每条规则给出一个 user-agent 和一个路径。」 引擎返回一段干净的复述:定义、位置、结构都讲清楚,没有反问,没有犹豫。判定:✅,第 1 项信号通过。
版本 ⚠️,部分通过。 「它告诉爬虫它们可以抓取哪些 URL;具体匹配规则见前面的图。」 引擎含糊地说:「这一段似乎在描述一个用来控制爬虫访问的文件,但主语不清楚:它指的是哪个文件?」 代词加上一句指向「前面的图」的悬空指代,逼得引擎反问。判定:⚠️,第 1 项部分通过;代词指代加外部指向破坏了自包含。
版本 ❌,不通过。 「如上所述,它适用;但正如我们在 §2 提到的,优先级规则也会反过来覆盖它。」 引擎解析不出任何主语或动作,要求你提供原始文档。判定:❌,第 1 项不通过;通篇代词链,没有任何对应锚点。
把同一套练习再跑一遍 TL;DR、跑一遍某个 H2 首段、跑一遍表格里的一行,得到的就是 §8 发现矩阵中逐段那一行。那些不做这个测试就给可引用性打分的工具,是凭表层特征做预测;这个测试给出的是直接判定。
5. 第 2 步:把七项信号逐项走一遍(逐项审计微表)
下面每个 H3 都使用同一张四行微表:审计问题/合格的样子/失败的方式/改写方向。这样不同信号之间的发现就能直接比对。定义在 可引用性 §4;示例参照上面 §4。
5.1 第 1 项:内容块自包含
| 审计问题 | 单独取出来看,这一段不依赖前后段也能成立吗? |
| 合格的样子 | 一段话讲清自己的主语、自己的论断(必要时附署名) |
| 失败的方式 | 代词指代、「如上所述」/「见 §X」、对某张图或某张前表的悬空指代 |
| 改写方向 | 为 AI 引用而写:自包含的内容块 |
5.2 第 2 项:直接答案/TL;DR 块
| 审计问题 | 答案有没有写在该节的头一两句里? |
| 合格的样子 | 倒金字塔式导语:先抛结论,再给铺垫 |
| 失败的方式 | 两三段铺垫之后,结论才出现 |
| 改写方向 | 为 AI 引用而写:倒金字塔式段落 |
5.3 第 3 项:问答/FAQ 结构
| 审计问题 | 提问形式的标题,对得上真实用户会输入的查询吗? |
| 合格的样子 | ### 我的页面被检索到了,却没被引用,为什么? 这种对得上真实查询的标题 |
| 失败的方式 | 标题没人会搜,或者干脆是凭空编出来的 FAQ(即 §7 所说的伪改写) |
| 改写方向 | 为 AI 引用而写:提问式标题 |
第 3 项视页面形式而定;本身不适合 FAQ 的页面,强加这套结构反而出问题。提问式标题对应的是查询扩展,见 Answer Loop §3.1。
5.4 第 4 项:步骤/HowTo 结构
| 审计问题 | 页面里如果有流程,是不是一组编号的、命令式的步骤? |
| 合格的样子 | 每一步只做一件事,单独读也不需要周围铺垫 |
| 失败的方式 | 「首先你需要考虑……再然后或许可以试着……」 这种把步骤埋在散文里的写法 |
| 改写方向 | 为 AI 引用而写:步骤列表 |
5.5 第 5 项:可引用的表格/列表
| 审计问题 | 每一行能单独读懂吗?有没有题注?列标签自解释吗? |
| 合格的样子 | 行独立、带题注、列标签自解释,引擎可以整行取用 |
| 失败的方式 | 表里每一行离开周围段落就读不通 |
| 改写方向 | 为 AI 引用而写:可自解释的表格 |
Microsoft 把这件事讲得很明确:「清晰的标题、表格和 FAQ 段落,有助于把关键信息凸显出来,也让 AI 系统更容易准确地引用」(见 Bing AI Performance)。
5.6 第 6 项:清晰的标题层级
| 审计问题 | H2 到 H3 嵌套干净吗?有没有跳级?有没有纯装饰用的标题? |
| 合格的样子 | 每个 H2/H3 都对应一个真实的内容单元;平铺成清单读起来像目录 |
| 失败的方式 | 跳级(H2 → H4)、为了视觉大小才用的标题、重复的 H1 |
| 改写方向 | 为 AI 引用而写:标题层级 |
5.7 第 7 项:可单独引用的论断句
| 审计问题 | 每个 H2 下面有没有一句结实的、能被原样取用、署名也站得住的论断? |
| 合格的样子 | 「检索决定你能不能进候选集;采信决定你能不能被用上。」 这种短而硬的论断 |
| 失败的方式 | 「也许可以认为,在某些情形下,检索未必总能导向被使用。」 这种含糊层叠的句子 |
| 改写方向 | 为 AI 引用而写:可引用的论断 |
6. 不同呈现端的审计差异:共性与差值
七项信号是共性,到哪儿都成立。差值在于:每种呈现端对哪一种失败的惩罚最重;这一点反过来决定 §2 里引擎该怎么选。
| 呈现端 | 最关键的几项信号 | 为什么 |
|---|---|---|
| Perplexity | 1、5、7 | 引用密度天生很高;最看重切得紧实、可单独引用的内容块和论断句 |
| ChatGPT search | 2 | 实时抓取;最看重抓取后页面顶部那一块直接答案 |
| Google AI Overviews | 3、6 | 基于索引;最看重对得上查询扩展的标题结构和问答结构 |
在某个呈现端上顺利通过,不能直接外推到其他呈现端。这套审计在跨语言上也不是共性的:中文和英文的内容块、答案块在可引用性上会出现差别,见 多语言 GEO。
7. 伪改写:当一个「修复」反而触发了另一种过滤器
下面是审计发现一条缺失之后,从业者常会顺手用上的几种「修复」:它们看上去像在补那一项信号,实际却触发了另一种 AI 反垃圾或可信度过滤器。概念层面被过度套用的例子在 可引用性 §6 里;下面这张是操作层面的对照。
| 伪改写 | 像是在修哪一项 | 为什么实际上反而失败 |
|---|---|---|
| 把整页切成一句话一段 | 第 1 项(自包含) | 碎片本身就丢失了意义,没有任何一段是连贯、能整段引用的完整答案 |
| 凭空补出真实用户根本不会问的 FAQ | 第 3 项(问答) | 会被识别为模板化样板,按低质内容降权 |
| 为了「看起来可被引用」编造统计数据 | 第 7 项(可引用论断) | 无来源的数字通不过可信度过滤,见 E-E-A-T |
| 把自家另一页的模板化段落直接搬过来 | 第 1 项(自包含) | 近重复内容会被识别,见 AI 内容检测 |
Google 在 2026 年 5 月的优化指南里说得很直接:「并不需要把内容切碎成极小的片段,AI 才能理解。Google 的系统有能力理解一张页面上多个主题之间的细节差异」(见 AI Optimization Guide)。把内容切得过碎之所以是最常见的一种伪改写,正是因为它表面上模仿了第 1 项信号,却同时抹掉了第 1 项真正衡量的属性:连贯前提下的自包含。
结论说在明处:可引用性是必要条件,不是充分条件。没有内容支撑的结构是会被识别、会被惩罚的;可信度上的缺口,也不会因为内容块切得漂亮就消失。等到竞争对手也针对同一个引擎做优化,这类改写中的相当一部分会失效,见 C-SEO Bench。
8. 评分与报告交付物
真正驱动行动的产出,是每段内容 × 每项信号一格的通过/部分通过/不通过,逐格标注严重级别。第 1、2、7 项失败时默认归为重大级;第 3、4、6 项默认归为次要级,除非整页本身就是错的形式;第 5 项的级别随页面的表格化程度而定。这套严重级别的归类逻辑,与 完整 GEO 审计 §5 一致:定位到具体哪一项信号出了问题,而不是给整页拍一个综合分。
0 到 100 的「可引用性分」本手册不出。市面上每一个这样的分数,背后都没有公开算法:Topify 直接打的是*「a 0–100 grade of how AI-ready your website is」(你站点 AI 就绪度的 0 到 100 评级),算法不公开;Citability.ai 给出一个「Combined Score: 62」(综合分 62),由三个子分加权而成,权重不公开;Mangools 的 AI Search Grader 自己写明分数「weighted by market share」*(按市场份额加权),具体权重不公开。一个连算法都看不到的孤立数字,只是一个说法,不是一次度量;GEO 指标 对每个对外数字一贯坚持的口径要求,在这里要更严格地适用。按信号逐项给出的判定是可复现的,一个综合分不可复现。
每次报告固定交付的内容:一份抬头(审计日期、被审对象、抽样决定、所用引擎),逐段 × 逐信号的判定矩阵(每格一个 ✅/⚠️/❌),按严重级别排序的发现清单,每条发现里附 §4 记录到的失败方式,每条发现配一句改写方向,链到 为 AI 引用而写 对应的小节;如果做过上一次审计,再加一份基线差值。复审只对变动过的段落重跑一次内容块抽取测试;未变动的信号沿用上一次的判定。
9. 容易踩的坑
把下面每一项都过一遍,再把报告发出去:
- 审的是渲染后的 DOM,不是抓到的 HTML:客户端渲染的内容根本进不到爬虫眼里;要单独测一次禁用 JS 后抓取看到的页面(见 面向 AI 爬虫的 SSR)。
- 只抽样页首:第 1 项信号最常在长页的中段失败;H2 首段要按全文均匀抽样,不能都堆在最上面。
- 在带个性化的会话里跑测试:登录过的、留着历史记录的会话,给出的回答不可复现。
- 七项里过了六项就当整页过:第 1 项一旦失败,其余六项再漂亮也救不回;最小单元级别的失败压过其他所有。
- 拿单个引擎的结果做普适结论:§6 的差值是真实存在的;在 Perplexity 上通过,AI Overviews 那边可能照样会出问题,所用引擎必须写进报告抬头。
- 跨语言混用:见 多语言 GEO;中文页面的一次审计结论不要直接套到英文页面,反之亦然。
- 未核实的引用算作通过:引擎引用的那一段,未必真的支撑它被附在那里的那句话;这是常见现象,Liu et al. 2023 专门指出过,结果层的对应做法见 AI 引用追踪 §4.1。
10. 延伸阅读
- 概念层:可引用性(本手册要审计的那七项信号的定义)、E-E-A-T(采信中的可信度一侧)
- 配套手册:完整 GEO 审计(本手册即其第 4 层的深查方法)、为 AI 引用而写(按信号给出的改写写法)、AI 引用追踪(结果一侧的度量闭环)
- 逐引擎呈现端:Perplexity、ChatGPT search
- 学术参考:Aggarwal et al. 2024 — GEO: Generative Engine Optimization;后续的边界解读见 C-SEO Bench
参考资料
学术:
- Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K. & Deshpande, A. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · ACM DL · 论文条目
- Puerto, H., Gubri, M., Green, C., Oh, S. J. & Yun, S. (2025). C-SEO Bench: Does Conversational SEO Work? NeurIPS ‘25 Datasets & Benchmarks. arXiv:2506.11097
- Liu, N. F., Zhang, T. & Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. Findings of EMNLP 2023. arXiv:2304.09848
平台官方文档(2026-05 已核对):
- Google Search Central — A new resource for optimizing for generative AI in Google Search · AI Optimization Guide · AI features and your website · Succeeding in AI search
- Microsoft Bing — Evolving role of the index: From ranking pages to supporting answers · AI Performance in Bing Webmaster Tools
- OpenAI — ChatGPT search Help Center
- Perplexity — What is an answer engine, and how does Perplexity work as one?
常见问题
「可引用性审计」是一个真概念,还是 GEO Wiki 自造的说法?
它和完整 GEO 审计有什么不一样?
做这次审计,是不是必须装 ChatGPT 或 Perplexity?
为什么本手册不给一个 0 到 100 的可引用性分?
如果只有 30 分钟,性价比最高的一个检查是什么?
相关手册与百科
参考来源
一手来源
- GEO: Generative Engine Optimization (Aggarwal et al., KDD 2024) · arXiv / KDD '24 · 2024-08-25
- GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25
- A new resource for optimizing for generative AI in Google Search · Google Search Central · 2026-05-15
- AI Optimization Guide · Google Search Central · 2026-05-15
- Evolving role of the index: From ranking pages to supporting answers · Microsoft Bing · 2026-05-06
- Introducing AI Performance in Bing Webmaster Tools (Public Preview) · Microsoft Bing · 2026-02-10
- AI features and your website · Google Search Central · 2025-12-10
- Top ways to ensure your content performs well in Google's AI experiences on Search · Google Search Central · 2025-05-01
- ChatGPT search — OpenAI Help Center · OpenAI
- What is an answer engine, and how does Perplexity work as one? · Perplexity AI
二手来源
- C-SEO Bench: Does Conversational SEO Work? (Puerto et al., NeurIPS '25 D&B) · arXiv / NeurIPS '25 D&B
- Evaluating Verifiability in Generative Search Engines (Liu et al., EMNLP '23 Findings) · arXiv / EMNLP '23 Findings