跳到正文
概念 · 基础设施

面向 AI 的 Schema.org

速览要点

它是什么
Schema.org 词汇里和 AI 相关的那部分:少数几个会影响引擎如何识别你的实体、如何解析你页面的类型与属性。不是整套规范,而是与 AI 相关的那一小块
它是排名或引用信号吗
不是。它决定的是一项功能有没有展示资格,并帮助实体识别与解析。Google 明确说过,标记只是让某项功能有资格出现,并不会提升排名,也不保证该功能一定出现
它在哪里起作用
在检索之前的解析与实体识别这一步,而不是后面由可引用性和 E-E-A-T 把关的采信/选择环节。标记让一个实体可被识别,并不能让一段内容被引用
证据最强的地方
被索引集成的 AI(Google AI Overviews、Bing Copilot)通过搜索索引用到它。实时抓取的对话引擎(ChatGPT、Perplexity)只把 JSON-LD 当普通正文来读,并不把它解析成结构化数据(searchVIU,2025)
杠杆最大的那一处
Organization 与 Person 上的 sameAs:把你的实体接入知识图谱的那个识别键。最值得优先做对的一处

1. 「面向 AI 的 Schema.org」是什么

这里要讲的不是 Schema.org 的规范文档,而是和 AI 引用相关的那一小块:少数几个会影响 AI 引擎如何识别你的实体、如何可靠解析你的页面的类型与属性,仅此而已。

GEO Wiki 工作定义面向 AI 的 Schema.org,是结构化数据(structured data)词汇里和 AI 相关的一个子集,它会影响 AI 引擎如何确定页面背后的实体是哪一个如何可靠地解析这一页;至于页面上某一段内容能不能被引用,那是另一回事。

2. 标记 ≠ 引用:为什么 schema 是地基,不是信号

要点是:结构化数据不是排名因素,也不是引用杠杆。 Google 说得很直白,「使用结构化数据让某个功能有资格出现,并不保证它一定出现」,而结构化数据的人工处罚「不影响页面在网页搜索中的排名」(见 General Structured Data Guidelines)。Google 2025 年的 AI 搜索指引把同一点又讲了一遍:标记「让页面有资格获得某些搜索功能与富结果」,并不提升排名(Succeeding in AI search)。

标记真正带来的恰好是三样,且全部发生在选择之前:

标记能做到的标记做不到的
让页面上的事实被可靠、无歧义地解析出来提升排名或引用
通过知识图谱完成实体(entity)消歧(你是谁、是什么)让一段内容变得可被引用
拿到结构化/富结果的展示资格(在它们还存在的场景里)保证那项功能一定出现

更要紧的是它在哪里起作用。Schema 作用于检索之前的解析与实体识别这一层,并不进入 Answer Loop §3 中由 可引用性E-E-A-T 把关的采信/选择环节:

  页面 ──► [ 解析 + 实体识别 ]             ◄── Schema 在这里起作用
              │  事实被干净解析
              │  实体被识别(sameAs → 知识图谱)

  检索 ──► 候选段落

  [ 采信 / 选择环节 ]                       ◄── Schema 在这里不起作用
   可引用性(结构)· E-E-A-T(信任)          由可引用性与 E-E-A-T 把关

  生成答案 ──► (可能)引用

可引用性 §2 恰好对得上:给 FAQ 加上标记,并不能让它的答案变得可被引用。 段落写得能不能被引用,是可引用性要做的事,必须在可见正文里去做。标记只是声明了一种解析器本来就看得见的结构。

3. 与 AI 相关的类型子集:核心那张表

下面这张表,每个类型按它向引擎声明了什么对应哪个代理信号来理解,不按规范是否完整来理解。

类型它向 AI 声明了什么对应的代理信号失败形态
Organization这个站点/品牌就是那个实体实体识别 · 知识图谱存在度没有 sameAs,实体始终含混,无法被识别
Person这位作者/专家就是那个身份实体识别,以及 E-E-A-T 所讲的信任代理匿名署名,没有可被识别的身份
Article / NewsArticle这是一篇文章,作者 X,日期 Y类型 + 作者 + 时效无类型页面,作者/日期没有机器可读的声明
WebSite站点级身份与站内搜索动作站点实体绑定只有页面级信号,没有站点实体
BreadcrumbList这一页在站点结构图里的位置站点架构/上下文孤立页面,缺结构上下文
FAQPage页面上存在这些问答一种答案形态声明(见 §2 + §6)容易被当作可引用,其实不是;要让答案被引用,得去做可引用性
HowTo存在这些有序步骤答案形态声明同上,而且对应的 Google 富结果已被移除(§6)

杠杆最大的两类是 OrganizationPerson:它们身上的属性真正作用到了 AI 所使用的实体层,详见下一节。FAQPageHowTo 刻意排在最后,原因是它们描述的只是解析器原本就能看见的形态,而且要配 §6 那条告诫一起读。

4. 与 AI 相关的属性子集:sameAs 是主力

配套的属性表读法一样。真正的实体杠杆落在属性上,而不是类型上。

属性它声明了什么对应的代理信号失败形态
sameAs「这个实体就是这些 URL 上的那一个」(Wikipedia、Wikidata、官网、社媒)实体识别 · 知识图谱存在度实体从未接入知识图谱,始终含混
mainEntity这一页主要讲的那个东西主题/实体绑定什么都讲,结果什么都没被识别
about / mentions内容涉及/引用的实体主题 + 实体图谱没有机器可读的主题锚
author背后的 PersonOrganization作者身份 → 信任代理无署名,信任代理缺失
knowsAbout / hasOccupation作者的领域与职务专业度佐证声称的专业度无从被识别
speakable适合语音朗读的段落一个测试版、仅限美国/英语/新闻的功能被过度依赖,但它本身只覆盖一个很窄的场景,不是通用的呈现面(Google,beta

sameAs实体识别的那把识别键,比其他任何属性都更值得优先做对。它在你的标记和模型已经信任的那张知识图谱之间,建立起一条直接、无歧义的指向,让你的实体可以被对应到正确的那个节点。下面是一段最小示例:

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "Example Co",
  "url": "https://example.com",
  "sameAs": [
    "https://en.wikipedia.org/wiki/Example_Co",
    "https://www.wikidata.org/wiki/Q000000",
    "https://www.linkedin.com/company/example-co"
  ]
}

这只是一段示例,不是模板。语法层面(JSON-LD、Microdata、RDFa 怎么取舍、放在哪里、怎么转义)见 JSON-LD;完整的分类型模板与校验见 Schema 实施 playbook。这里要讲清楚的是哪些标记会作用到实体层、为什么会作用到;一个身份究竟如何在各平台之间完成匹配,分别详见 实体识别知识图谱存在度

5. AI 引擎实际如何使用 schema:分平台讲清楚机制

核心要先讲清:引擎并不「先读你的 schema、再给你排名」。标记在生成答案时是否被使用、怎么被使用,因平台而大不相同;现在已经有证据可以明说,不必再含糊带过。

平台schema 如何被使用证据强度
Google AI Overviews / AI Mode走 Google 既有的索引和结构化数据系统。AI 搜索「仍然是搜索」,展示资格的规则不变,不需要为 AI 单独再加标记最强,Google 官方文档(AI features
Bing Copilot走 Bing 索引,微软已确认会用到结构化数据强,厂商确认
ChatGPT / Perplexity(实时抓取)抓取页面并渲染成文字,JSON-LD 被当成普通文字读,不会被解析成知识图谱强(反向),受控测试
Claude / Gemini(直接抓取)同上,没有证据显示生成答案时存在专门的 JSON-LD 解析与上一致

这个反向结论有充分支撑,并不是臆测。2025 年 12 月的一次受控测试,把价格写进 JSON-LD,再跨五个系统提问,没有一个实时抓取的对话引擎取到这个值(searchVIU)。另有独立观察发现,ChatGPT 和 Perplexity 连无效的、编造出来的 schema 里的值也会照样讲出来,可见它们读的是页面上的文字,而不是一张被解析过的结构(Search Engine Roundtable,观察)。

有一条边界要讲清楚:实体层面的好处仍然会到达这些模型,但走的是模型先验和知识图谱这条路,而不是抓取时解析你页面里的 JSON-LD。至于身份如何在各平台之间完成匹配,分别详见 实体识别知识图谱存在度

6. 证据说了什么,又没说什么

下面用一个审慎的尺度来读这些证据:不夸大其词。

成立的部分有边界的读法
被索引集成的 AI(Google、Bing)会用到结构化数据走的是索引这条路,且只作为资格;Google 明确说过这不会带来排名提升
与内容相符的有效标记能减少抽取时的歧义它澄清的只是页面上本来就有的东西,并不能凭空造出信任或可引用性
schema 覆盖度与 AI 引用率不相关2024 年 12 月的一项研究没有发现两者之间的相关性。schema 是必须做对的基本功,并不是一个可以拉动增长的杠杆(Search Engine Land
富结果这种呈现面可以被单方面收回Google 在 2023 年把 FAQ 富结果限定给政府/医疗站点,并彻底下线了 HowToGoogle

FAQ/HowTo 下线就是最清楚的一记警示:一个凭 schema 拿到的呈现面,被厂商一纸公告就收了回去。标记并不是你可以长期持有的一项收益。

关于 GEO 文献,有一条边界要讲清楚:Aggarwal 等人测试的是内容实质与结构层面的改写(补引来源、加统计数据、加引述),并没有把 schema 标记单独作为一个变量来测(KDD ‘24,arXiv:2311.09735论文摘要)。所以那组亮眼的 GEO 数字不能套到「加 schema」上面。把它们借过来用,正是 §7 要警告的那种过度宣称。

结论直说,恰好和 E-E-A-T §6「靠做出来,不靠标注出来」对得上:schema 是用来如实声明的,不是用来换排名的。 它让引擎相信页面上本来就存在的东西,但它造不出本来不存在的东西。

7. 反模式:schema 灌水以及它为什么适得其反

下面这几种做法,每一种都看起来像它所模仿的那个信号,但每一种都会在某道信任或反作弊筛选上失守

反模式它为什么看起来有效它为什么会失败
标记与可见内容对不上看起来结构很丰富Google 会下达人工处罚剥夺资格;把标记当文字读的 AI 也会直接看见这处矛盾
为抢 SERP 版面而硬塞 FAQPage看起来覆盖了答案富结果自 2023 年起就限定给政府/医疗站点,没有回报,反倒带来准确性风险
编造 OrganizationPerson看起来实体已经被识别败在 sameAs 与知识图谱无从佐证;这种失败和 E-E-A-T §7 里伪造作者是同一种
每一个元素都打上标记看起来很周全引入噪声、校验报错、不一致的风险,没有任何好处
JSON-LD 和页面正文对不上看起来很完整实时抓取的 AI 把两者都当文字来读,结果两者都不信

要点是:无效的、或者与内容不符的标记,比根本不加更糟。 它触发 AI 反作弊筛选的方式,和伪造的权威触发信任筛选是同一种,正是 AI 内容检测 所说的那种过度宣称模式。Google 的一贯立场是:标记没有什么投机空间,它必须如实对应页面上本来就可见的内容。

8. 跨 SEO 与 GEO 的 schema:不变的基线,改变的部分

不变的:和内容相符的有效标记,是 SEO 与 GEO 共用的基线,属于「绝不丢弃」清单。它成本很低,本身构不成差异化优势,但拿掉它会同时拖垮蓝色链接和机器对页面的可解析性。

改变的是使用它的那一端:从富结果渲染器,变成了向模型先验输入信号的实体/解析这一层。

平台schema 用法上的差异
Google AI Overviewsschema 最受用的就是它。走索引这条路,复用 Google 既有系统,作为资格而不是排名计入
实时抓取的对话引擎标记被当作页面上的文字来读。它的价值是间接的,来自实体在模型先验和知识图谱里的存在,而不是来自你页面里的 JSON-LD

另外两条相邻议题:非文本资产的信任可读性(ImageObjectVideoObject 的来源证明),见 多模态信号;底下涉及的格式选择,见 JSON-LD

9. 这对 GEO 为何重要,以及怎么做

schema 是作用在实体层的地基,并不是 Answer Loop §3 所说那个杠杆最大的采信瓶颈上的杠杆。把它做对、做全,然后放一边,真正的功夫要花在可引用性和信任上。

你的意图从这里开始
把标记正确实施或修好Schema 实施
决定格式与语法JSON-LD
理解为什么标记会作用到实体识别实体识别 · 知识图谱存在度
把 schema 放进整站一起审计GEO 全面审计
让一段内容真正可以被引用可引用性
看它在 loop 中的位置Answer Loop
把这一切串起来生成式引擎优化

术语本身及与之相邻的词,见 GEO 术语表

参考资料

官方(Google):

词汇:

  • Schema.org — Organization、Person、sameAs、FAQPage、HowTo、Article、speakable

独立/业界:

学术(边界引用,schema 并非被测变量):

  • Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K. & Deshpande, A. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · 论文摘要

常见问题

用 Schema.org 标记能让我的内容被 AI 引用吗?
不能,至少不是直接做到。标记不是排名信号,也不是引用信号。它做的是另外两件事:让页面能被可靠解析,以及说清楚页面背后的实体(你是谁、是什么),让模型把你对应到它的知识图谱里。一段内容能不能被答案采纳,取决于结构层面的可引用性,以及来源信任度层面的 E-E-A-T,二者在采信环节裁决,而标记并不参与这一步。要点是:标记让一个实体可被识别,并不能让一段内容被引用。
ChatGPT 和 Perplexity 会读我的 JSON-LD 吗?
在生成答案时,不会按结构化数据来读。2025 年 12 月有一项受控测试(searchVIU),把价格只写进 JSON-LD,再向五个系统提问,没有一个实时抓取的对话引擎取到这个值。另外有独立观察发现,ChatGPT 和 Perplexity 连无效的、编造出来的标记里的值也会照样讲出来,可见它们把标记当成页面上的普通文字来读,并没有把它解析成知识图谱。实体层面的好处仍然会到达这些模型,但走的是模型先验和知识图谱这条路,而不是在抓取时去解析你页面里的 JSON-LD。
哪些 schema 类型对 AI 最重要?
Organization 和 Person。原因是它们带有 sameAs,也就是把你的实体接进知识图谱的那个识别键,而知识图谱正是 AI 真正使用的那一层。Article 给页面一个干净的类型和作者信息。FAQPage 和 HowTo 声明的是一种解析器原本就能看见的答案形态,但加了它们并不会让这些答案变得可被引用,而且对应的 Google 富结果在 2023 年已经被收紧。优先做实体类的基础类型,不要先做答案形态类。
FAQPage 或 HowTo 标记还值得加吗?
对 AI 而言只剩很有限的价值,而且加它已经不再是为了富结果。Google 在 2023 年把 FAQ 富结果限定给权威的政府与医疗站点,又彻底下线了 HowTo 富结果,SERP 上的回报基本消失。这类标记还能用来描述页面结构,但无法让背后的答案变得可被引用,那是可引用性要解决的事,要在可见正文里去做。成本低、内容又准确时可以加上,但不要指望靠它单独带动 AI 引用。
标记会不会反而害了我?
会。最典型的失败方式是标记和可见页面对不上:Google 会对结构化数据下达人工处罚,剥夺富结果资格;而把标记当正文读的那些 AI,也会直接看见这处自相矛盾。编造的 Organization 或 Person 标记,败在 sameAs 和知识图谱无从佐证,性质和伪造作者身份在 E-E-A-T 中失败是一样的。无效的、或者和内容不符的标记,比根本不加更糟。

延伸阅读

参考来源

一手来源

  1. General Structured Data Guidelines · Google Search Central · 2026-01-06
  2. Introduction to structured data markup in Google Search · Google Search Central · 2025-12-10
  3. Changes to HowTo and FAQ rich results · Google Search Central · 2023-08-08
  4. AI features and your website · Google Search Central · 2025-12-10
  5. Top ways to ensure your content performs well in Google's AI experiences on Search · Google Search Central · 2025-05-21
  6. Speakable structured data (beta) · Google Search Central · 2025-12-10
  7. Schema.org vocabulary (Organization, Person, sameAs, FAQPage, HowTo, Article, speakable) · Schema.org

二手来源

  1. Schema Markup and AI in 2025: What ChatGPT, Claude, Perplexity & Gemini Really See · searchVIU
  2. How schema markup fits into AI search — without the hype · Search Engine Land
  3. GEO: Generative Engine Optimization (Aggarwal et al., KDD '24) · arXiv

三手来源[观察]

  1. ChatGPT & Perplexity Treat Structured Data As Text On A Page
最近更新: 2026-05-18 作者: Ray Yang 主题: 基础设施