面向 AI 的 Schema.org
速览要点
- 它是什么
- Schema.org 词汇里和 AI 相关的那部分:少数几个会影响引擎如何识别你的实体、如何解析你页面的类型与属性。不是整套规范,而是与 AI 相关的那一小块
- 它是排名或引用信号吗
- 不是。它决定的是一项功能有没有展示资格,并帮助实体识别与解析。Google 明确说过,标记只是让某项功能有资格出现,并不会提升排名,也不保证该功能一定出现
- 它在哪里起作用
- 在检索之前的解析与实体识别这一步,而不是后面由可引用性和 E-E-A-T 把关的采信/选择环节。标记让一个实体可被识别,并不能让一段内容被引用
- 证据最强的地方
- 被索引集成的 AI(Google AI Overviews、Bing Copilot)通过搜索索引用到它。实时抓取的对话引擎(ChatGPT、Perplexity)只把 JSON-LD 当普通正文来读,并不把它解析成结构化数据(searchVIU,2025)
- 杠杆最大的那一处
- Organization 与 Person 上的 sameAs:把你的实体接入知识图谱的那个识别键。最值得优先做对的一处
1. 「面向 AI 的 Schema.org」是什么
这里要讲的不是 Schema.org 的规范文档,而是和 AI 引用相关的那一小块:少数几个会影响 AI 引擎如何识别你的实体、如何可靠解析你的页面的类型与属性,仅此而已。
GEO Wiki 工作定义:面向 AI 的 Schema.org,是结构化数据(structured data)词汇里和 AI 相关的一个子集,它会影响 AI 引擎如何确定页面背后的实体是哪一个、如何可靠地解析这一页;至于页面上某一段内容能不能被引用,那是另一回事。
2. 标记 ≠ 引用:为什么 schema 是地基,不是信号
要点是:结构化数据不是排名因素,也不是引用杠杆。 Google 说得很直白,「使用结构化数据让某个功能有资格出现,并不保证它一定出现」,而结构化数据的人工处罚「不影响页面在网页搜索中的排名」(见 General Structured Data Guidelines)。Google 2025 年的 AI 搜索指引把同一点又讲了一遍:标记「让页面有资格获得某些搜索功能与富结果」,并不提升排名(Succeeding in AI search)。
标记真正带来的恰好是三样,且全部发生在选择之前:
| 标记能做到的 | 标记做不到的 |
|---|---|
| 让页面上的事实被可靠、无歧义地解析出来 | 提升排名或引用 |
| 通过知识图谱完成实体(entity)消歧(你是谁、是什么) | 让一段内容变得可被引用 |
| 拿到结构化/富结果的展示资格(在它们还存在的场景里) | 保证那项功能一定出现 |
更要紧的是它在哪里起作用。Schema 作用于检索之前的解析与实体识别这一层,并不进入 Answer Loop §3 中由 可引用性 和 E-E-A-T 把关的采信/选择环节:
页面 ──► [ 解析 + 实体识别 ] ◄── Schema 在这里起作用
│ 事实被干净解析
│ 实体被识别(sameAs → 知识图谱)
▼
检索 ──► 候选段落
▼
[ 采信 / 选择环节 ] ◄── Schema 在这里不起作用
可引用性(结构)· E-E-A-T(信任) 由可引用性与 E-E-A-T 把关
▼
生成答案 ──► (可能)引用
和 可引用性 §2 恰好对得上:给 FAQ 加上标记,并不能让它的答案变得可被引用。 段落写得能不能被引用,是可引用性要做的事,必须在可见正文里去做。标记只是声明了一种解析器本来就看得见的结构。
3. 与 AI 相关的类型子集:核心那张表
下面这张表,每个类型按它向引擎声明了什么、对应哪个代理信号来理解,不按规范是否完整来理解。
| 类型 | 它向 AI 声明了什么 | 对应的代理信号 | 失败形态 |
|---|---|---|---|
Organization | 这个站点/品牌就是那个实体 | 实体识别 · 知识图谱存在度 | 没有 sameAs,实体始终含混,无法被识别 |
Person | 这位作者/专家就是那个身份 | 实体识别,以及 E-E-A-T 所讲的信任代理 | 匿名署名,没有可被识别的身份 |
Article / NewsArticle | 这是一篇文章,作者 X,日期 Y | 类型 + 作者 + 时效 | 无类型页面,作者/日期没有机器可读的声明 |
WebSite | 站点级身份与站内搜索动作 | 站点实体绑定 | 只有页面级信号,没有站点实体 |
BreadcrumbList | 这一页在站点结构图里的位置 | 站点架构/上下文 | 孤立页面,缺结构上下文 |
FAQPage | 页面上存在这些问答 | 一种答案形态声明(见 §2 + §6) | 容易被当作可引用,其实不是;要让答案被引用,得去做可引用性 |
HowTo | 存在这些有序步骤 | 答案形态声明 | 同上,而且对应的 Google 富结果已被移除(§6) |
杠杆最大的两类是 Organization 和 Person:它们身上的属性真正作用到了 AI 所使用的实体层,详见下一节。FAQPage 与 HowTo 刻意排在最后,原因是它们描述的只是解析器原本就能看见的形态,而且要配 §6 那条告诫一起读。
4. 与 AI 相关的属性子集:sameAs 是主力
配套的属性表读法一样。真正的实体杠杆落在属性上,而不是类型上。
| 属性 | 它声明了什么 | 对应的代理信号 | 失败形态 |
|---|---|---|---|
sameAs | 「这个实体就是这些 URL 上的那一个」(Wikipedia、Wikidata、官网、社媒) | 实体识别 · 知识图谱存在度 | 实体从未接入知识图谱,始终含混 |
mainEntity | 这一页主要讲的那个东西 | 主题/实体绑定 | 什么都讲,结果什么都没被识别 |
about / mentions | 内容涉及/引用的实体 | 主题 + 实体图谱 | 没有机器可读的主题锚 |
author | 背后的 Person/Organization | 作者身份 → 信任代理 | 无署名,信任代理缺失 |
knowsAbout / hasOccupation | 作者的领域与职务 | 专业度佐证 | 声称的专业度无从被识别 |
speakable | 适合语音朗读的段落 | 一个测试版、仅限美国/英语/新闻的功能 | 被过度依赖,但它本身只覆盖一个很窄的场景,不是通用的呈现面(Google,beta) |
sameAs 是实体识别的那把识别键,比其他任何属性都更值得优先做对。它在你的标记和模型已经信任的那张知识图谱之间,建立起一条直接、无歧义的指向,让你的实体可以被对应到正确的那个节点。下面是一段最小示例:
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "Example Co",
"url": "https://example.com",
"sameAs": [
"https://en.wikipedia.org/wiki/Example_Co",
"https://www.wikidata.org/wiki/Q000000",
"https://www.linkedin.com/company/example-co"
]
}
这只是一段示例,不是模板。语法层面(JSON-LD、Microdata、RDFa 怎么取舍、放在哪里、怎么转义)见 JSON-LD;完整的分类型模板与校验见 Schema 实施 playbook。这里要讲清楚的是哪些标记会作用到实体层、为什么会作用到;一个身份究竟如何在各平台之间完成匹配,分别详见 实体识别 与 知识图谱存在度。
5. AI 引擎实际如何使用 schema:分平台讲清楚机制
核心要先讲清:引擎并不「先读你的 schema、再给你排名」。标记在生成答案时是否被使用、怎么被使用,因平台而大不相同;现在已经有证据可以明说,不必再含糊带过。
| 平台 | schema 如何被使用 | 证据强度 |
|---|---|---|
| Google AI Overviews / AI Mode | 走 Google 既有的索引和结构化数据系统。AI 搜索「仍然是搜索」,展示资格的规则不变,不需要为 AI 单独再加标记 | 最强,Google 官方文档(AI features) |
| Bing Copilot | 走 Bing 索引,微软已确认会用到结构化数据 | 强,厂商确认 |
| ChatGPT / Perplexity(实时抓取) | 抓取页面并渲染成文字,JSON-LD 被当成普通文字读,不会被解析成知识图谱 | 强(反向),受控测试 |
| Claude / Gemini(直接抓取) | 同上,没有证据显示生成答案时存在专门的 JSON-LD 解析 | 与上一致 |
这个反向结论有充分支撑,并不是臆测。2025 年 12 月的一次受控测试,把价格只写进 JSON-LD,再跨五个系统提问,没有一个实时抓取的对话引擎取到这个值(searchVIU)。另有独立观察发现,ChatGPT 和 Perplexity 连无效的、编造出来的 schema 里的值也会照样讲出来,可见它们读的是页面上的文字,而不是一张被解析过的结构(Search Engine Roundtable,观察)。
有一条边界要讲清楚:实体层面的好处仍然会到达这些模型,但走的是模型先验和知识图谱这条路,而不是抓取时解析你页面里的 JSON-LD。至于身份如何在各平台之间完成匹配,分别详见 实体识别 和 知识图谱存在度。
6. 证据说了什么,又没说什么
下面用一个审慎的尺度来读这些证据:不夸大其词。
| 成立的部分 | 有边界的读法 |
|---|---|
| 被索引集成的 AI(Google、Bing)会用到结构化数据 | 走的是索引这条路,且只作为资格;Google 明确说过这不会带来排名提升 |
| 与内容相符的有效标记能减少抽取时的歧义 | 它澄清的只是页面上本来就有的东西,并不能凭空造出信任或可引用性 |
| schema 覆盖度与 AI 引用率不相关 | 2024 年 12 月的一项研究没有发现两者之间的相关性。schema 是必须做对的基本功,并不是一个可以拉动增长的杠杆(Search Engine Land) |
| 富结果这种呈现面可以被单方面收回 | Google 在 2023 年把 FAQ 富结果限定给政府/医疗站点,并彻底下线了 HowTo(Google) |
FAQ/HowTo 下线就是最清楚的一记警示:一个凭 schema 拿到的呈现面,被厂商一纸公告就收了回去。标记并不是你可以长期持有的一项收益。
关于 GEO 文献,有一条边界要讲清楚:Aggarwal 等人测试的是内容实质与结构层面的改写(补引来源、加统计数据、加引述),并没有把 schema 标记单独作为一个变量来测(KDD ‘24,arXiv:2311.09735;论文摘要)。所以那组亮眼的 GEO 数字不能套到「加 schema」上面。把它们借过来用,正是 §7 要警告的那种过度宣称。
结论直说,恰好和 E-E-A-T §6「靠做出来,不靠标注出来」对得上:schema 是用来如实声明的,不是用来换排名的。 它让引擎相信页面上本来就存在的东西,但它造不出本来不存在的东西。
7. 反模式:schema 灌水以及它为什么适得其反
下面这几种做法,每一种都看起来像它所模仿的那个信号,但每一种都会在某道信任或反作弊筛选上失守。
| 反模式 | 它为什么看起来有效 | 它为什么会失败 |
|---|---|---|
| 标记与可见内容对不上 | 看起来结构很丰富 | Google 会下达人工处罚剥夺资格;把标记当文字读的 AI 也会直接看见这处矛盾 |
为抢 SERP 版面而硬塞 FAQPage | 看起来覆盖了答案 | 富结果自 2023 年起就限定给政府/医疗站点,没有回报,反倒带来准确性风险 |
编造 Organization 或 Person | 看起来实体已经被识别 | 败在 sameAs 与知识图谱无从佐证;这种失败和 E-E-A-T §7 里伪造作者是同一种 |
| 每一个元素都打上标记 | 看起来很周全 | 引入噪声、校验报错、不一致的风险,没有任何好处 |
| JSON-LD 和页面正文对不上 | 看起来很完整 | 实时抓取的 AI 把两者都当文字来读,结果两者都不信 |
要点是:无效的、或者与内容不符的标记,比根本不加更糟。 它触发 AI 反作弊筛选的方式,和伪造的权威触发信任筛选是同一种,正是 AI 内容检测 所说的那种过度宣称模式。Google 的一贯立场是:标记没有什么投机空间,它必须如实对应页面上本来就可见的内容。
8. 跨 SEO 与 GEO 的 schema:不变的基线,改变的部分
不变的:和内容相符的有效标记,是 SEO 与 GEO 共用的基线,属于「绝不丢弃」清单。它成本很低,本身构不成差异化优势,但拿掉它会同时拖垮蓝色链接和机器对页面的可解析性。
改变的是使用它的那一端:从富结果渲染器,变成了向模型先验输入信号的实体/解析这一层。
| 平台 | schema 用法上的差异 |
|---|---|
| Google AI Overviews | schema 最受用的就是它。走索引这条路,复用 Google 既有系统,作为资格而不是排名计入 |
| 实时抓取的对话引擎 | 标记被当作页面上的文字来读。它的价值是间接的,来自实体在模型先验和知识图谱里的存在,而不是来自你页面里的 JSON-LD |
另外两条相邻议题:非文本资产的信任可读性(ImageObject/VideoObject 的来源证明),见 多模态信号;底下涉及的格式选择,见 JSON-LD。
9. 这对 GEO 为何重要,以及怎么做
schema 是作用在实体层的地基,并不是 Answer Loop §3 所说那个杠杆最大的采信瓶颈上的杠杆。把它做对、做全,然后放一边,真正的功夫要花在可引用性和信任上。
| 你的意图 | 从这里开始 |
|---|---|
| 把标记正确实施或修好 | Schema 实施 |
| 决定格式与语法 | JSON-LD |
| 理解为什么标记会作用到实体识别 | 实体识别 · 知识图谱存在度 |
| 把 schema 放进整站一起审计 | GEO 全面审计 |
| 让一段内容真正可以被引用 | 可引用性 |
| 看它在 loop 中的位置 | Answer Loop |
| 把这一切串起来 | 生成式引擎优化 |
术语本身及与之相邻的词,见 GEO 术语表。
参考资料
官方(Google):
- Google Search Central — General Structured Data Guidelines · Introduction to structured data markup
- Google Search Central — Changes to HowTo and FAQ rich results(2023-08-08)
- Google Search Central — AI features and your website · Top ways to ensure your content performs well in Google’s AI experiences(2025-05-21)
- Google Search Central — Speakable structured data (beta)
词汇:
- Schema.org — Organization、Person、sameAs、FAQPage、HowTo、Article、speakable
独立/业界:
- searchVIU — Schema Markup and AI in 2025: What ChatGPT, Claude, Perplexity & Gemini Really See(2025-12-02)
- Search Engine Land — How schema markup fits into AI search — without the hype(2026-03-25)
- Search Engine Roundtable — ChatGPT & Perplexity Treat Structured Data As Text On A Page(观察,2026-02-03)
学术(边界引用,schema 并非被测变量):
- Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K. & Deshpande, A. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · 论文摘要
常见问题
用 Schema.org 标记能让我的内容被 AI 引用吗?
ChatGPT 和 Perplexity 会读我的 JSON-LD 吗?
哪些 schema 类型对 AI 最重要?
FAQPage 或 HowTo 标记还值得加吗?
标记会不会反而害了我?
延伸阅读
参考来源
一手来源
- General Structured Data Guidelines · Google Search Central · 2026-01-06
- Introduction to structured data markup in Google Search · Google Search Central · 2025-12-10
- Changes to HowTo and FAQ rich results · Google Search Central · 2023-08-08
- AI features and your website · Google Search Central · 2025-12-10
- Top ways to ensure your content performs well in Google's AI experiences on Search · Google Search Central · 2025-05-21
- Speakable structured data (beta) · Google Search Central · 2025-12-10
- Schema.org vocabulary (Organization, Person, sameAs, FAQPage, HowTo, Article, speakable) · Schema.org
二手来源
- Schema Markup and AI in 2025: What ChatGPT, Claude, Perplexity & Gemini Really See · searchVIU
- How schema markup fits into AI search — without the hype · Search Engine Land
- GEO: Generative Engine Optimization (Aggarwal et al., KDD '24) · arXiv