概念 · 基础设施

面向 AI 的 Schema.org

速览要点

它是什么: Schema.org 词汇里和 AI 相关的那部分：少数几个会影响引擎如何识别你的实体、如何解析你页面的类型与属性。不是整套规范，而是与 AI 相关的那一小块
它是排名或引用信号吗: 不是。它决定的是一项功能有没有展示资格，并帮助实体识别与解析。Google 明确说过，标记只是让某项功能有资格出现，并不会提升排名，也不保证该功能一定出现
它在哪里起作用: 在检索之前的解析与实体识别这一步，而不是后面由可引用性和 E-E-A-T 把关的采信／选择环节。标记让一个实体可被识别，并不能让一段内容被引用
证据最强的地方: 被索引集成的 AI（Google AI Overviews、Bing Copilot）通过搜索索引用到它。实时抓取的对话引擎（ChatGPT、Perplexity）只把 JSON-LD 当普通正文来读，并不把它解析成结构化数据（searchVIU，2025）
杠杆最大的那一处: Organization 与 Person 上的 sameAs：把你的实体接入知识图谱的那个识别键。最值得优先做对的一处

1. 「面向 AI 的 Schema.org」是什么

这里要讲的不是 Schema.org 的规范文档，而是和 AI 引用相关的那一小块：少数几个会影响 AI 引擎如何识别你的实体、如何可靠解析你的页面的类型与属性，仅此而已。

GEO Wiki 工作定义：面向 AI 的 Schema.org，是结构化数据（structured data）词汇里和 AI 相关的一个子集，它会影响 AI 引擎如何确定页面背后的实体是哪一个、如何可靠地解析这一页；至于页面上某一段内容能不能被引用，那是另一回事。

2. 标记 ≠ 引用：为什么 schema 是地基，不是信号

要点是：结构化数据不是排名因素，也不是引用杠杆。 Google 说得很直白，「使用结构化数据让某个功能有资格出现，并不保证它一定出现」，而结构化数据的人工处罚「不影响页面在网页搜索中的排名」（见 General Structured Data Guidelines）。Google 2025 年的 AI 搜索指引把同一点又讲了一遍：标记「让页面有资格获得某些搜索功能与富结果」，并不提升排名（Succeeding in AI search）。

标记真正带来的恰好是三样，且全部发生在选择之前：

标记能做到的	标记做不到的
让页面上的事实被可靠、无歧义地解析出来	提升排名或引用
通过知识图谱完成实体（entity）消歧（你是谁、是什么）	让一段内容变得可被引用
拿到结构化／富结果的展示资格（在它们还存在的场景里）	保证那项功能一定出现

更要紧的是它在哪里起作用。Schema 作用于检索之前的解析与实体识别这一层，并不进入 Answer Loop §3 中由可引用性和 E-E-A-T 把关的采信／选择环节：

  页面 ──► [ 解析 + 实体识别 ]             ◄── Schema 在这里起作用
              │  事实被干净解析
              │  实体被识别（sameAs → 知识图谱）
              ▼
  检索 ──► 候选段落
              ▼
  [ 采信 / 选择环节 ]                       ◄── Schema 在这里不起作用
   可引用性（结构）· E-E-A-T（信任）          由可引用性与 E-E-A-T 把关
              ▼
  生成答案 ──► （可能）引用

和可引用性 §2 恰好对得上：给 FAQ 加上标记，并不能让它的答案变得可被引用。 段落写得能不能被引用，是可引用性要做的事，必须在可见正文里去做。标记只是声明了一种解析器本来就看得见的结构。

3. 与 AI 相关的类型子集：核心那张表

下面这张表，每个类型按它向引擎声明了什么、对应哪个代理信号来理解，不按规范是否完整来理解。

类型	它向 AI 声明了什么	对应的代理信号	失败形态
`Organization`	这个站点／品牌就是那个实体	实体识别 · 知识图谱存在度	没有 `sameAs`，实体始终含混，无法被识别
`Person`	这位作者／专家就是那个身份	实体识别，以及 E-E-A-T 所讲的信任代理	匿名署名，没有可被识别的身份
`Article` / `NewsArticle`	这是一篇文章，作者 X，日期 Y	类型 + 作者 + 时效	无类型页面，作者／日期没有机器可读的声明
`WebSite`	站点级身份与站内搜索动作	站点实体绑定	只有页面级信号，没有站点实体
`BreadcrumbList`	这一页在站点结构图里的位置	站点架构／上下文	孤立页面，缺结构上下文
`FAQPage`	页面上存在这些问答	一种答案形态声明（见 §2 + §6）	容易被当作可引用，其实不是；要让答案被引用，得去做可引用性
`HowTo`	存在这些有序步骤	答案形态声明	同上，而且对应的 Google 富结果已被移除（§6）

杠杆最大的两类是 Organization 和 Person：它们身上的属性真正作用到了 AI 所使用的实体层，详见下一节。FAQPage 与 HowTo 刻意排在最后，原因是它们描述的只是解析器原本就能看见的形态，而且要配 §6 那条告诫一起读。

4. 与 AI 相关的属性子集：`sameAs` 是主力

配套的属性表读法一样。真正的实体杠杆落在属性上，而不是类型上。

属性	它声明了什么	对应的代理信号	失败形态
`sameAs`	「这个实体就是这些 URL 上的那一个」（Wikipedia、Wikidata、官网、社媒）	实体识别 · 知识图谱存在度	实体从未接入知识图谱，始终含混
`mainEntity`	这一页主要讲的那个东西	主题／实体绑定	什么都讲，结果什么都没被识别
`about` / `mentions`	内容涉及／引用的实体	主题 + 实体图谱	没有机器可读的主题锚
`author`	背后的 `Person`／`Organization`	作者身份 → 信任代理	无署名，信任代理缺失
`knowsAbout` / `hasOccupation`	作者的领域与职务	专业度佐证	声称的专业度无从被识别
`speakable`	适合语音朗读的段落	一个测试版、仅限美国／英语／新闻的功能	被过度依赖，但它本身只覆盖一个很窄的场景，不是通用的呈现面（Google，beta）

sameAs 是实体识别的那把识别键，比其他任何属性都更值得优先做对。它在你的标记和模型已经信任的那张知识图谱之间，建立起一条直接、无歧义的指向，让你的实体可以被对应到正确的那个节点。下面是一段最小示例：

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "Example Co",
  "url": "https://example.com",
  "sameAs": [
    "https://en.wikipedia.org/wiki/Example_Co",
    "https://www.wikidata.org/wiki/Q000000",
    "https://www.linkedin.com/company/example-co"
  ]
}

这只是一段示例，不是模板。语法层面（JSON-LD、Microdata、RDFa 怎么取舍、放在哪里、怎么转义）见 JSON-LD；完整的分类型模板与校验见 Schema 实施 playbook。这里要讲清楚的是哪些标记会作用到实体层、为什么会作用到；一个身份究竟如何在各平台之间完成匹配，分别详见实体识别与知识图谱存在度。

5. AI 引擎实际如何使用 schema：分平台讲清楚机制

核心要先讲清：引擎并不「先读你的 schema、再给你排名」。标记在生成答案时是否被使用、怎么被使用，因平台而大不相同；现在已经有证据可以明说，不必再含糊带过。

平台	schema 如何被使用	证据强度
Google AI Overviews / AI Mode	走 Google 既有的索引和结构化数据系统。AI 搜索「仍然是搜索」，展示资格的规则不变，不需要为 AI 单独再加标记	最强，Google 官方文档（AI features）
Bing Copilot	走 Bing 索引，微软已确认会用到结构化数据	强，厂商确认
ChatGPT / Perplexity（实时抓取）	抓取页面并渲染成文字，JSON-LD 被当成普通文字读，不会被解析成知识图谱	强（反向），受控测试
Claude / Gemini（直接抓取）	同上，没有证据显示生成答案时存在专门的 JSON-LD 解析	与上一致

这个反向结论有充分支撑，并不是臆测。2025 年 12 月的一次受控测试，把价格只写进 JSON-LD，再跨五个系统提问，没有一个实时抓取的对话引擎取到这个值（searchVIU）。另有独立观察发现，ChatGPT 和 Perplexity 连无效的、编造出来的 schema 里的值也会照样讲出来，可见它们读的是页面上的文字，而不是一张被解析过的结构（Search Engine Roundtable，观察）。

有一条边界要讲清楚：实体层面的好处仍然会到达这些模型，但走的是模型先验和知识图谱这条路，而不是抓取时解析你页面里的 JSON-LD。至于身份如何在各平台之间完成匹配，分别详见实体识别和知识图谱存在度。

6. 证据说了什么，又没说什么

下面用一个审慎的尺度来读这些证据：不夸大其词。

成立的部分	有边界的读法
被索引集成的 AI（Google、Bing）会用到结构化数据	走的是索引这条路，且只作为资格；Google 明确说过这不会带来排名提升
与内容相符的有效标记能减少抽取时的歧义	它澄清的只是页面上本来就有的东西，并不能凭空造出信任或可引用性
schema 覆盖度与 AI 引用率不相关	2024 年 12 月的一项研究没有发现两者之间的相关性。schema 是必须做对的基本功，并不是一个可以拉动增长的杠杆（Search Engine Land）
富结果这种呈现面可以被单方面收回	Google 在 2023 年把 FAQ 富结果限定给政府／医疗站点，并彻底下线了 HowTo（Google）

FAQ／HowTo 下线就是最清楚的一记警示：一个凭 schema 拿到的呈现面，被厂商一纸公告就收了回去。标记并不是你可以长期持有的一项收益。

关于 GEO 文献，有一条边界要讲清楚：Aggarwal 等人测试的是内容实质与结构层面的改写（补引来源、加统计数据、加引述），并没有把 schema 标记单独作为一个变量来测（KDD ‘24，arXiv:2311.09735；论文摘要）。所以那组亮眼的 GEO 数字不能套到「加 schema」上面。把它们借过来用，正是 §7 要警告的那种过度宣称。

结论直说，恰好和 E-E-A-T §6「靠做出来，不靠标注出来」对得上：schema 是用来如实声明的，不是用来换排名的。 它让引擎相信页面上本来就存在的东西，但它造不出本来不存在的东西。

7. 反模式：schema 灌水以及它为什么适得其反

下面这几种做法，每一种都看起来像它所模仿的那个信号，但每一种都会在某道信任或反作弊筛选上失守。

反模式	它为什么看起来有效	它为什么会失败
标记与可见内容对不上	看起来结构很丰富	Google 会下达人工处罚剥夺资格；把标记当文字读的 AI 也会直接看见这处矛盾
为抢 SERP 版面而硬塞 `FAQPage`	看起来覆盖了答案	富结果自 2023 年起就限定给政府／医疗站点，没有回报，反倒带来准确性风险
编造 `Organization` 或 `Person`	看起来实体已经被识别	败在 `sameAs` 与知识图谱无从佐证；这种失败和 E-E-A-T §7 里伪造作者是同一种
每一个元素都打上标记	看起来很周全	引入噪声、校验报错、不一致的风险，没有任何好处
JSON-LD 和页面正文对不上	看起来很完整	实时抓取的 AI 把两者都当文字来读，结果两者都不信

要点是：无效的、或者与内容不符的标记，比根本不加更糟。 它触发 AI 反作弊筛选的方式，和伪造的权威触发信任筛选是同一种，正是 AI 内容检测所说的那种过度宣称模式。Google 的一贯立场是：标记没有什么投机空间，它必须如实对应页面上本来就可见的内容。

8. 跨 SEO 与 GEO 的 schema：不变的基线，改变的部分

不变的：和内容相符的有效标记，是 SEO 与 GEO 共用的基线，属于「绝不丢弃」清单。它成本很低，本身构不成差异化优势，但拿掉它会同时拖垮蓝色链接和机器对页面的可解析性。

改变的是使用它的那一端：从富结果渲染器，变成了向模型先验输入信号的实体／解析这一层。

平台	schema 用法上的差异
Google AI Overviews	schema 最受用的就是它。走索引这条路，复用 Google 既有系统，作为资格而不是排名计入
实时抓取的对话引擎	标记被当作页面上的文字来读。它的价值是间接的，来自实体在模型先验和知识图谱里的存在，而不是来自你页面里的 JSON-LD

另外两条相邻议题：非文本资产的信任可读性（ImageObject／VideoObject 的来源证明），见多模态信号；底下涉及的格式选择，见 JSON-LD。

9. 这对 GEO 为何重要，以及怎么做

schema 是作用在实体层的地基，并不是 Answer Loop §3 所说那个杠杆最大的采信瓶颈上的杠杆。把它做对、做全，然后放一边，真正的功夫要花在可引用性和信任上。

你的意图	从这里开始
把标记正确实施或修好	Schema 实施
决定格式与语法	JSON-LD
理解为什么标记会作用到实体识别	实体识别 · 知识图谱存在度
把 schema 放进整站一起审计	GEO 全面审计
让一段内容真正可以被引用	可引用性
看它在 loop 中的位置	Answer Loop
把这一切串起来	生成式引擎优化

术语本身及与之相邻的词，见 GEO 术语表。

参考资料

官方（Google）：

Google Search Central — General Structured Data Guidelines · Introduction to structured data markup
Google Search Central — Changes to HowTo and FAQ rich results（2023-08-08）
Google Search Central — AI features and your website · Top ways to ensure your content performs well in Google’s AI experiences（2025-05-21）
Google Search Central — Speakable structured data (beta)

词汇：

Schema.org — Organization、Person、sameAs、FAQPage、HowTo、Article、speakable

独立／业界：

searchVIU — Schema Markup and AI in 2025: What ChatGPT, Claude, Perplexity & Gemini Really See（2025-12-02）
Search Engine Land — How schema markup fits into AI search — without the hype（2026-03-25）
Search Engine Roundtable — ChatGPT & Perplexity Treat Structured Data As Text On A Page（观察，2026-02-03）

学术（边界引用，schema 并非被测变量）：

Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K. & Deshpande, A. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · 论文摘要

常见问题

用 Schema.org 标记能让我的内容被 AI 引用吗？

不能，至少不是直接做到。标记不是排名信号，也不是引用信号。它做的是另外两件事：让页面能被可靠解析，以及说清楚页面背后的实体（你是谁、是什么），让模型把你对应到它的知识图谱里。一段内容能不能被答案采纳，取决于结构层面的可引用性，以及来源信任度层面的 E-E-A-T，二者在采信环节裁决，而标记并不参与这一步。要点是：标记让一个实体可被识别，并不能让一段内容被引用。

ChatGPT 和 Perplexity 会读我的 JSON-LD 吗？

在生成答案时，不会按结构化数据来读。2025 年 12 月有一项受控测试（searchVIU），把价格只写进 JSON-LD，再向五个系统提问，没有一个实时抓取的对话引擎取到这个值。另外有独立观察发现，ChatGPT 和 Perplexity 连无效的、编造出来的标记里的值也会照样讲出来，可见它们把标记当成页面上的普通文字来读，并没有把它解析成知识图谱。实体层面的好处仍然会到达这些模型，但走的是模型先验和知识图谱这条路，而不是在抓取时去解析你页面里的 JSON-LD。

哪些 schema 类型对 AI 最重要？

Organization 和 Person。原因是它们带有 sameAs，也就是把你的实体接进知识图谱的那个识别键，而知识图谱正是 AI 真正使用的那一层。Article 给页面一个干净的类型和作者信息。FAQPage 和 HowTo 声明的是一种解析器原本就能看见的答案形态，但加了它们并不会让这些答案变得可被引用，而且对应的 Google 富结果在 2023 年已经被收紧。优先做实体类的基础类型，不要先做答案形态类。

FAQPage 或 HowTo 标记还值得加吗？

对 AI 而言只剩很有限的价值，而且加它已经不再是为了富结果。Google 在 2023 年把 FAQ 富结果限定给权威的政府与医疗站点，又彻底下线了 HowTo 富结果，SERP 上的回报基本消失。这类标记还能用来描述页面结构，但无法让背后的答案变得可被引用，那是可引用性要解决的事，要在可见正文里去做。成本低、内容又准确时可以加上，但不要指望靠它单独带动 AI 引用。

标记会不会反而害了我？

会。最典型的失败方式是标记和可见页面对不上：Google 会对结构化数据下达人工处罚，剥夺富结果资格；而把标记当正文读的那些 AI，也会直接看见这处自相矛盾。编造的 Organization 或 Person 标记，败在 sameAs 和知识图谱无从佐证，性质和伪造作者身份在 E-E-A-T 中失败是一样的。无效的、或者和内容不符的标记，比根本不加更糟。

参考来源