概念 · 信号

实体识别

速览要点

是什么: 把页面上出现的名称（品牌、产品、作者）对应到引擎已知的某个规范实体、并和同名实体区分开的那一层
为什么重要: 解析是整条链路最关键的一步。提及、引用或 sameAs，只有解析到正确的实体节点才生效；解析不出，那份信用就流失、错配或被丢弃
在哪里起作用: 在检索之前的解析与实体层；位于由可引用性与 E-E-A-T 把关的采信与选择环节的上游。决定的是这份信用最终算到谁头上，不是哪一段话被取用
解析的关键凭据: sameAs 是最直接的显式解析凭据。Google 明确说它「在后台用于把你的组织与其他组织区分开」
需要讲清的边界: 解析依据的是多方相互印证，并不是单方声明；只靠一条 sameAs 解析不了你，必须让全网都呈现出一致的身份

1. 实体识别是什么

实体识别是一层机制，决定 AI 引擎能不能分辨你是谁、你是什么，并把你赢得的各种信号归到正确的实体节点上。

GEO Wiki 工作定义：在 GEO 语境下，实体识别是 AI 引擎把一个表层名称（surface form，也就是页面或查询里出现的品牌、产品、作者字符串），对应到它已知的某个规范实体（canonical entity）、并和同名实体区分开的过程。只有完成这一步，附着在这串字符上的信用才能记入正确的节点。

2. 为什么未解析的实体拿不到信用：必须讲清的一点

未被解析的实体，拿不到信用。 一次提及、一次引用或一处标记断言，只有引擎把它解析到正确的实体节点，才真正生效。被点名、被引用却没有被解析，那份信用照样流失。同样的逻辑，品牌提及 §5 早已写明：「没有提及的链接，权威动作不完整」；可引用性 §2 也强调：「可引用是必要条件，不是充分条件」。解析是整条链路的关键一步，不是锦上添花。

   提及 / 引用 / sameAs 断言
            │
            ▼
   [ 实体解析层 ]   ◄── 本条目
     表层名称 → 候选 → 消歧 → 节点
            │
   ┌────────┴─────────┐
   ▼                  ▼
 已解析            未解析 / 错配
 → 先验与          → 信用被丢弃，或
   信用记到           附着到错误实体
   你的节点           上（同名冲突）

它发生在哪一层，是理解全局的关键。解析处在检索之前的解析与实体层，也就是 Schema.org for AI §2 部署标记的同一层；位置在 Answer Loop §3 那道由可引用性与 E-E-A-T 把关的采信与选择环节的上游。解析并不决定哪段话被取用，它决定的是这份信用最终算到谁头上。

为避免和邻近概念混读，需要划出三条边界：

解析 ≠ 可被引述。 让一段话可被原样取用，见可引用性。
解析 ≠ 被信任。 解析出的实体是否可信，见 E-E-A-T。
解析 ≠ 节点存在。 Wikidata 节点本身见知识图谱存在度；把一次提及真正对应到那个节点上的，才是这里所说的解析。

3. 机制：解析流水线

底层机制就是先做命名实体识别（NER），再做实体链接（entity linking）。放到 GEO 语境里，它是这样一条流水线：

  表层名称        "Acme"  （页面或查询里的字符串）
       │
       ▼
  候选生成        "Acme" 可能是哪些已知实体？
       │          （Acme 公司 · Acme 工具 · 同名乐队 …）
       ▼
  消歧            上下文 + 共现 + 先验，挑出其一
       │
       ▼
  规范实体        信用最终附着的那个节点

消歧依赖三类输入。三者并不等权，哪一类占主导，正是 §5 按平台区分的依据。

输入	它给引擎的是什么	来自哪里	何时占主导
① 显式解析凭据	一条直接、无歧义指向正确实体节点的链接，引擎不必再做推测	sameAs、结构化标识符、权威主页链接	会读取并解析结构化数据的索引集成型平台
② 消歧上下文	足够的线索，把多个可能匹配的实体收窄到唯一一个	一致的规范名称、各渠道一致的 NAP、每次提及附近的描述性共现词	没有显式凭据时（开放网络上的大多数情形）
③ 模型既有先验	在多个候选之间，默认倾向于训练中被反复印证的那一个	该实体在训练与检索中被印证的广度，也就是 §6 所说的「越知名越容易被解析」这条规律	没有结构化层可读的纯 LLM 平台

输入 ① 正是 Schema.org for AI §4 所讲的机制：sameAs 是显式的解析凭据。Google 明确说，它「在后台用于把你的组织与其他组织区分开」（见 Organization 结构化数据）。完整的 JSON-LD 代码块见 Schema.org for AI 或 Schema 落地 playbook。具体而言，sameAs 是在断言：本页所指的实体就是那个 Wikipedia／Wikidata 链接所指的实体；只有当全网其余信息都不与之矛盾，引擎才会接受这条断言，把候选收窄到唯一一个节点。

4. 杠杆：怎样让自己可被解析

下面列出解析的几个着力点，每一条都标注它作用于 §3 的哪类输入。

着力点	如何助力解析	作用的输入	失败形态
sameAs 或结构化标识符	给引擎一条直接指向正确实体节点的显式链接	①	缺少这条显式链接，实体始终接不进知识图谱
全网统一的规范名称 + NAP	让散落各处的提及能归拢到同一个候选实体	②	身份分裂，多个候选始终无法收敛到同一个节点
每次提及附近都附带消歧上下文（角色、领域、限定词）	在提及现场就把你与同名者区分开	②	同名冲突未解，那份信用被导向更大的那个实体
一个已认领的知识图谱节点，作为解析的目标	让解析最终能对应到一个权威对象	①+③	缺少可对应的目标节点（节点机制见知识图谱存在度）
给品牌、作者、产品起一个有辨识度、避开同名的名字	从源头就缩小可能的候选范围	②	在每一份候选列表里都被同名者盖过

品牌提及 §6 写过一句关键的话：「你赢得的是成为那个被点名的对象」。换到解析这一层，原理相同：身份不是靠自己声明就能立起来的；必须让某一个彼此印证的身份，成为全网唯一一致的读法。解析只是这种一致性带来的下游结果。 这个身份是否可信，见 E-E-A-T。

5. 解析如何因平台而异（不变量与差异）

§3 那条流水线是不变量，处处成立；真正变化的，只是哪一类输入占主导。

平台	占主导的解析输入
Google AI Overviews / AI Mode	索引 + 知识图谱；以显式标识符（①）为主，知识图谱兜底
Google Gemini	以知识图谱兜底；共现 + 知识图谱节点（②+③）共同发挥作用
ChatGPT / Perplexity（实时抓取）	模型先验 + 抓回的页内上下文（②+③）；JSON-LD 在生成答案时不会被当作知识图谱来解析（Schema.org for AI §5）；这一步靠的是先验与知识图谱，而不是抓取时读你页面上的标记

6. 证据说明了什么、又没说明什么

机制的方向有充分佐证；但在品牌层面，投入越多是否就解析得越可靠，目前并无定论。读这张表的方式，和全站读 Aggarwal 一样：看方向，而不是某个具体系数。

成立的部分	划清边界的读法
一个实体被佐证得越广，模型对它的回忆与处理就越可靠：热门实体能稳定解析，长尾实体则不行（Kandpal 等，arXiv:2211.08411；Mallen 等，ACL 2023）	这些论文度量的是对 Wikidata 事实的 QA 准确率，热度以 Wikipedia 页面浏览量为代理，并不是品牌实体解析。由此推到品牌只是类比，不是直接结论，这也正是品牌提及 §4 对同一批论文划下的边界：那里读出的是先验信号，这里读出的是实体越知名越容易被解析这条规律
索引集成型平台靠一个显式的标识符／知识图谱层来解析：Google 说 sameAs 用于把你的组织与其他组织区分开（Organization 文档；这套模型可追溯到知识图谱，2012）	那是准入级的解析，不是排名加成；这是 Schema.org for AI §6 已经给出的结论，沿用即可
业界实践现已把实体消歧（「实体漂移」「身份坍缩」）当作 AI 搜索的头等问题（Search Engine Land，2026）	这只是从业者层面佐证这个信号确实存在，不是对机制或效应量的独立证明

必须讲清的空白：生成式引擎优化那条标志性的杠杆，也就是 Aggarwal 等（KDD ‘24，arXiv:2311.09735；论文精读），度量的是页内内容改写（加引用、加统计、加引述），并不是实体解析。最高约 40% 那个数字并不适用于「改善实体识别」。把它搬过来，正是同类条目反复警惕的那种过度外推。

最关键的一句留在这里：解析靠的是多方相互印证，不是单方声明。单凭一条 sameAs 解析不了你；让多个独立来源给出一致身份的那种印证才解析得了。这与 Schema.org for AI「标记是声明，不是奖励」、E-E-A-T §6「靠挣得，不靠标注」是同一立场。

7. 反模式：身份含混与认错实体

下面列出几类必须避免的失败模式，与品牌提及 §8、Schema.org for AI §7 是同一组对照。

误读	为什么看着像对的	为什么其实错了
「我们到处都被点名，那肯定被解析了」	数量看着像权威	一次没管好的同名冲突会把先验在几个同名者之间打散；把关的是能否解析，而不是被点名的数量
「各渠道用不同名称／账号，做品牌没关系」	看着像灵活的市场打法	这会把候选打散，永远收敛不到同一个节点上（§3 输入 ②）
「伪造一条指向知名节点的 sameAs」	看着像瞬间就接上了	结果会和在 E-E-A-T §7 伪造署名、在 Schema.org for AI §7 伪造 `Organization` 一样，栽在多方相互印证这一关上；一条造假的解析链接迟早会被查出来
「光靠标记就能解析我们」	看着像够用了	纯 LLM 平台在生成答案时并不解析 JSON-LD（§5）；那条显式凭据要有多方相互印证才撑得住
「我们有 Wikipedia 页面，所以被解析了」	看着像已经到位了	节点存在见知识图谱存在度；把你的提及对应到这个节点上，是这里要讲的另一件事

归结成最关键的一句：失败几乎从来不是「没有身份」，而是认错了人，或者根本认不准。解决办法是保持一致，而不是堆数量。

8. 这对 GEO 为什么重要 + 怎么做

解析是上游几个关键环节之一，下游能不能拿到信用，取决于这些环节是否成立；它需要和可采信（可引用性）、站外先验（品牌提及）一起看。

你的意图	从这里开始
部署 sameAs 或修正身份标记	Schema 落地
拿下那个结构化节点本身	知识图谱存在度
赢得那些推动解析的站外提及	品牌提及
弄懂哪些标记会作用到实体层	Schema.org for AI
检查解析出的实体的信任判断	E-E-A-T
让同一实体跨语言被解析	Multilingual GEO
看它在整条回路里的位置	Answer Loop
把它串起来的方法论	生成式引擎优化

参考资料

学术：

Kandpal, N., Deng, H., Roberts, A., Wallace, E. & Raffel, C. (2023). Large Language Models Struggle to Learn Long-Tail Knowledge. ICML 2023 (PMLR v202). arXiv:2211.08411
Mallen, A., Asai, A., Zhong, V., Das, R., Khashabi, D. & Hajishirzi, H. (2023). When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories. ACL 2023. ACL Anthology · arXiv:2212.10511
Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · 论文精读。边界参照；实体解析不是被测变量

官方：

Google — Introducing the Knowledge Graph: things, not strings（2012-05-16）：奠定「实体，而非字符串」这一模型
Google Search Central — Organization structured data：sameAs「在后台用于把你的组织与其他组织区分开」
Schema.org — sameAs：「无歧义地标明该项身份的参考网页 URL」

业界：

Search Engine Land — Why entity authority is the foundation of AI search visibility（Benu Aggarwal，2026-03-16）

常见问题

实体识别不就是个 NLP 细节吗，为什么对 GEO 重要？

因为这一步决定整条链路是否成立，不是细节。生成式答案署名给的是一个实体，而不是一串字符。如果引擎无法把你页面上的名称对应到它已知的某个规范实体，你赢得的提及、引用或标记就找不到归属，或者被归到别的实体头上。它衔接的是两侧：一侧是结构化节点本身（[知识图谱存在度](/zh/knowledge-graph-presence)），另一侧是站外的提及信号（[品牌提及](/zh/brand-mentions)）。

它和知识图谱存在度、品牌提及有什么区别？

三者职责分得很清楚。品牌提及关注的是站外、不带链接的信号，也就是被别人点名如何强化模型先验。知识图谱存在度关注的是结构化节点本身（Wikidata 或 Google 知识图谱里的条目）。夹在两者中间的，是把一个名称无歧义地对应到那个节点的过程，也就是实体识别。提及强化先验，节点提供归属，实体识别把前者真正接入后者。

加了 sameAs 标记，实体就一定能被解析吗？

不一定。sameAs 是最强的显式解析凭据（Google 明确说它用于把你的组织与其他组织区分开），但解析依据的是多方相互印证，不是单方声明。在纯 LLM 的实时抓取场景里，JSON-LD 在生成答案时并不会被当作知识图谱来解析，这一步靠的是模型先验与知识图谱，而不是抓取时读你页面上的标记。一条孤立、全网没有一致身份佐证的 sameAs，只是一句单方论断，并不构成解析。标记是必要条件，远不是充分条件。

为什么知名品牌比我更容易被解析？

因为一个实体能不能被可靠解析，取决于它被佐证的广度。长尾知识的研究结论（Kandpal 等，ICML 2023；Mallen 等，ACL 2023）显示，模型对热门实体的回忆与处理远比冷门实体可靠，热度以 Wikipedia 页面浏览量为代理。落到解析这一层来看：让知名实体容易被点名的同一种规律，也让它更容易被消歧。把这条规律应用到品牌实体只是类比，并不是已经测得的品牌结论。

实体识别最常见的失败是什么？

失败几乎从来不是「没有身份」，而是认错了人，或者根本认不准。一次没管好的同名冲突（你的品牌和一个更大的实体共用同一串字符），会让那份信用落到那个同名者头上。名称、账号或 NAP 在各渠道对不上，会让候选实体打散，永远收敛不到同一个节点。解决办法是保持一致，而不是堆数量：身份本就分裂时，提及越多只会让分裂越深。伪造一条指向知名节点的 sameAs，与在 E-E-A-T 中伪造署名一样，都会败在多方相互印证这一关。

参考来源

一手来源

Large Language Models Struggle to Learn Long-Tail Knowledge (Kandpal, Deng, Roberts, Wallace & Raffel, ICML 2023) · arXiv / ICML 2023 (PMLR v202) · 2023-07-27
When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories (Mallen et al., ACL 2023) · ACL 2023 (Long Papers) · 2023-07-02
Introducing the Knowledge Graph: things, not strings · Google (Amit Singhal, The Keyword) · 2012-05-16
Organization structured data (sameAs disambiguation) · Google Search Central · 2026-04-15
sameAs — Schema.org property · Schema.org
GEO: Generative Engine Optimization (Aggarwal et al., KDD '24) · arXiv / ACM SIGKDD · 2024-08-25

二手来源

Why entity authority is the foundation of AI search visibility · Search Engine Land (Benu Aggarwal)