跳到正文
概念 · 信号

实体识别

速览要点

是什么
把页面上出现的名称(品牌、产品、作者)对应到引擎已知的某个规范实体、并和同名实体区分开的那一层
为什么重要
解析是整条链路最关键的一步。提及、引用或 sameAs,只有解析到正确的实体节点才生效;解析不出,那份信用就流失、错配或被丢弃
在哪里起作用
在检索之前的解析与实体层;位于由可引用性与 E-E-A-T 把关的采信与选择环节的上游。决定的是这份信用最终算到谁头上,不是哪一段话被取用
解析的关键凭据
sameAs 是最直接的显式解析凭据。Google 明确说它「在后台用于把你的组织与其他组织区分开」
需要讲清的边界
解析依据的是多方相互印证,并不是单方声明;只靠一条 sameAs 解析不了你,必须让全网都呈现出一致的身份

1. 实体识别是什么

实体识别是一层机制,决定 AI 引擎能不能分辨你是谁、你是什么,并把你赢得的各种信号归到正确的实体节点上。

GEO Wiki 工作定义:在 GEO 语境下,实体识别是 AI 引擎把一个表层名称(surface form,也就是页面或查询里出现的品牌、产品、作者字符串),对应到它已知的某个规范实体(canonical entity)、并和同名实体区分开的过程。只有完成这一步,附着在这串字符上的信用才能记入正确的节点。

2. 为什么未解析的实体拿不到信用:必须讲清的一点

未被解析的实体,拿不到信用。 一次提及、一次引用或一处标记断言,只有引擎把它解析到正确的实体节点,才真正生效。被点名、被引用却没有被解析,那份信用照样流失。同样的逻辑,品牌提及 §5 早已写明:「没有提及的链接,权威动作不完整」;可引用性 §2 也强调:「可引用是必要条件,不是充分条件」。解析是整条链路的关键一步,不是锦上添花。

   提及 / 引用 / sameAs 断言


   [ 实体解析层 ]   ◄── 本条目
     表层名称 → 候选 → 消歧 → 节点

   ┌────────┴─────────┐
   ▼                  ▼
 已解析            未解析 / 错配
 → 先验与          → 信用被丢弃,或
   信用记到           附着到错误实体
   你的节点           上(同名冲突)

它发生在哪一层,是理解全局的关键。解析处在检索之前的解析与实体层,也就是 Schema.org for AI §2 部署标记的同一层;位置在 Answer Loop §3 那道由 可引用性E-E-A-T 把关的采信与选择环节的上游。解析并不决定哪段话被取用,它决定的是这份信用最终算到谁头上。

为避免和邻近概念混读,需要划出三条边界:

  • 解析 ≠ 可被引述。 让一段话可被原样取用,见 可引用性
  • 解析 ≠ 被信任。 解析出的实体是否可信,见 E-E-A-T
  • 解析 ≠ 节点存在。 Wikidata 节点本身见 知识图谱存在度;把一次提及真正对应到那个节点上的,才是这里所说的解析。

3. 机制:解析流水线

底层机制就是先做命名实体识别(NER),再做实体链接(entity linking)。放到 GEO 语境里,它是这样一条流水线:

  表层名称        "Acme"  (页面或查询里的字符串)


  候选生成        "Acme" 可能是哪些已知实体?
       │          (Acme 公司 · Acme 工具 · 同名乐队 …)

  消歧            上下文 + 共现 + 先验,挑出其一


  规范实体        信用最终附着的那个节点

消歧依赖三类输入。三者并不等权,哪一类占主导,正是 §5 按平台区分的依据。

输入它给引擎的是什么来自哪里何时占主导
① 显式解析凭据一条直接、无歧义指向正确实体节点的链接,引擎不必再做推测sameAs、结构化标识符、权威主页链接会读取并解析结构化数据的索引集成型平台
② 消歧上下文足够的线索,把多个可能匹配的实体收窄到唯一一个一致的规范名称、各渠道一致的 NAP、每次提及附近的描述性共现词没有显式凭据时(开放网络上的大多数情形)
③ 模型既有先验在多个候选之间,默认倾向于训练中被反复印证的那一个该实体在训练与检索中被印证的广度,也就是 §6 所说的「越知名越容易被解析」这条规律没有结构化层可读的纯 LLM 平台

输入 ① 正是 Schema.org for AI §4 所讲的机制:sameAs 是显式的解析凭据。Google 明确说,它「在后台用于把你的组织与其他组织区分开」(见 Organization 结构化数据)。完整的 JSON-LD 代码块见 Schema.org for AISchema 落地 playbook。具体而言,sameAs 是在断言:本页所指的实体就是那个 Wikipedia/Wikidata 链接所指的实体;只有当全网其余信息都不与之矛盾,引擎才会接受这条断言,把候选收窄到唯一一个节点。

4. 杠杆:怎样让自己可被解析

下面列出解析的几个着力点,每一条都标注它作用于 §3 的哪类输入。

着力点如何助力解析作用的输入失败形态
sameAs 或结构化标识符给引擎一条直接指向正确实体节点的显式链接缺少这条显式链接,实体始终接不进知识图谱
全网统一的规范名称 + NAP让散落各处的提及能归拢到同一个候选实体身份分裂,多个候选始终无法收敛到同一个节点
每次提及附近都附带消歧上下文(角色、领域、限定词)在提及现场就把你与同名者区分开同名冲突未解,那份信用被导向更大的那个实体
一个已认领的知识图谱节点,作为解析的目标让解析最终能对应到一个权威对象①+③缺少可对应的目标节点(节点机制见 知识图谱存在度
给品牌、作者、产品起一个有辨识度、避开同名的名字从源头就缩小可能的候选范围在每一份候选列表里都被同名者盖过

品牌提及 §6 写过一句关键的话:「你赢得的是成为那个被点名的对象」。换到解析这一层,原理相同:身份不是靠自己声明就能立起来的;必须让某一个彼此印证的身份,成为全网唯一一致的读法。解析只是这种一致性带来的下游结果。 这个身份是否可信,见 E-E-A-T

5. 解析如何因平台而异(不变量与差异)

§3 那条流水线是不变量,处处成立;真正变化的,只是哪一类输入占主导。

平台占主导的解析输入
Google AI Overviews / AI Mode索引 + 知识图谱;以显式标识符(①)为主,知识图谱兜底
Google Gemini以知识图谱兜底;共现 + 知识图谱节点(②+③)共同发挥作用
ChatGPT / Perplexity(实时抓取)模型先验 + 抓回的页内上下文(②+③);JSON-LD 在生成答案时不会被当作知识图谱来解析(Schema.org for AI §5);这一步靠的是先验与知识图谱,而不是抓取时读你页面上的标记

6. 证据说明了什么、又没说明什么

机制的方向有充分佐证;但在品牌层面,投入越多是否就解析得越可靠,目前并无定论。读这张表的方式,和全站读 Aggarwal 一样:看方向,而不是某个具体系数。

成立的部分划清边界的读法
一个实体被佐证得越广,模型对它的回忆与处理就越可靠:热门实体能稳定解析,长尾实体则不行(Kandpal 等,arXiv:2211.08411;Mallen 等,ACL 2023这些论文度量的是对 Wikidata 事实的 QA 准确率,热度以 Wikipedia 页面浏览量为代理,并不是品牌实体解析。由此推到品牌只是类比,不是直接结论,这也正是 品牌提及 §4 对同一批论文划下的边界:那里读出的是先验信号,这里读出的是实体越知名越容易被解析这条规律
索引集成型平台靠一个显式的标识符/知识图谱层来解析:Google 说 sameAs 用于把你的组织与其他组织区分开(Organization 文档;这套模型可追溯到 知识图谱,2012那是准入级的解析,不是排名加成;这是 Schema.org for AI §6 已经给出的结论,沿用即可
业界实践现已把实体消歧(「实体漂移」「身份坍缩」)当作 AI 搜索的头等问题(Search Engine Land,2026这只是从业者层面佐证这个信号确实存在,不是对机制或效应量的独立证明

必须讲清的空白生成式引擎优化 那条标志性的杠杆,也就是 Aggarwal 等(KDD ‘24,arXiv:2311.09735论文精读),度量的是页内内容改写(加引用、加统计、加引述),并不是实体解析。最高约 40% 那个数字并适用于「改善实体识别」。把它搬过来,正是同类条目反复警惕的那种过度外推。

最关键的一句留在这里:解析靠的是多方相互印证,不是单方声明。单凭一条 sameAs 解析不了你;让多个独立来源给出一致身份的那种印证才解析得了。这与 Schema.org for AI「标记是声明,不是奖励」、E-E-A-T §6「靠挣得,不靠标注」是同一立场。

7. 反模式:身份含混与认错实体

下面列出几类必须避免的失败模式,与 品牌提及 §8Schema.org for AI §7 是同一组对照。

误读为什么看着像对的为什么其实错了
「我们到处都被点名,那肯定被解析了」数量看着像权威一次没管好的同名冲突会把先验在几个同名者之间打散;把关的是能否解析,而不是被点名的数量
「各渠道用不同名称/账号,做品牌没关系」看着像灵活的市场打法这会把候选打散,永远收敛不到同一个节点上(§3 输入 ②)
「伪造一条指向知名节点的 sameAs」看着像瞬间就接上了结果会和在 E-E-A-T §7 伪造署名、在 Schema.org for AI §7 伪造 Organization 一样,栽在多方相互印证这一关上;一条造假的解析链接迟早会被查出来
「光靠标记就能解析我们」看着像够用了纯 LLM 平台在生成答案时并不解析 JSON-LD(§5);那条显式凭据要有多方相互印证才撑得住
「我们有 Wikipedia 页面,所以被解析了」看着像已经到位了节点存在知识图谱存在度把你的提及对应到这个节点上,是这里要讲的另一件事

归结成最关键的一句:失败几乎从来不是「没有身份」,而是认错了人,或者根本认不准。解决办法是保持一致,而不是堆数量。

8. 这对 GEO 为什么重要 + 怎么做

解析是上游几个关键环节之一,下游能不能拿到信用,取决于这些环节是否成立;它需要和可采信(可引用性)、站外先验(品牌提及)一起看。

你的意图从这里开始
部署 sameAs 或修正身份标记Schema 落地
拿下那个结构化节点本身知识图谱存在度
赢得那些推动解析的站外提及品牌提及
弄懂哪些标记会作用到实体层Schema.org for AI
检查解析出的实体的信任判断E-E-A-T
让同一实体跨语言被解析Multilingual GEO
看它在整条回路里的位置Answer Loop
把它串起来的方法论生成式引擎优化

参考资料

学术:

  • Kandpal, N., Deng, H., Roberts, A., Wallace, E. & Raffel, C. (2023). Large Language Models Struggle to Learn Long-Tail Knowledge. ICML 2023 (PMLR v202). arXiv:2211.08411
  • Mallen, A., Asai, A., Zhong, V., Das, R., Khashabi, D. & Hajishirzi, H. (2023). When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories. ACL 2023. ACL Anthology · arXiv:2212.10511
  • Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · 论文精读。边界参照;实体解析不是被测变量

官方:

业界:

常见问题

实体识别不就是个 NLP 细节吗,为什么对 GEO 重要?
因为这一步决定整条链路是否成立,不是细节。生成式答案署名给的是一个实体,而不是一串字符。如果引擎无法把你页面上的名称对应到它已知的某个规范实体,你赢得的提及、引用或标记就找不到归属,或者被归到别的实体头上。它衔接的是两侧:一侧是结构化节点本身([知识图谱存在度](/zh/knowledge-graph-presence)),另一侧是站外的提及信号([品牌提及](/zh/brand-mentions))。
它和知识图谱存在度、品牌提及有什么区别?
三者职责分得很清楚。品牌提及关注的是站外、不带链接的信号,也就是被别人点名如何强化模型先验。知识图谱存在度关注的是结构化节点本身(Wikidata 或 Google 知识图谱里的条目)。夹在两者中间的,是把一个名称无歧义地对应到那个节点的过程,也就是实体识别。提及强化先验,节点提供归属,实体识别把前者真正接入后者。
加了 sameAs 标记,实体就一定能被解析吗?
不一定。sameAs 是最强的显式解析凭据(Google 明确说它用于把你的组织与其他组织区分开),但解析依据的是多方相互印证,不是单方声明。在纯 LLM 的实时抓取场景里,JSON-LD 在生成答案时并不会被当作知识图谱来解析,这一步靠的是模型先验与知识图谱,而不是抓取时读你页面上的标记。一条孤立、全网没有一致身份佐证的 sameAs,只是一句单方论断,并不构成解析。标记是必要条件,远不是充分条件。
为什么知名品牌比我更容易被解析?
因为一个实体能不能被可靠解析,取决于它被佐证的广度。长尾知识的研究结论(Kandpal 等,ICML 2023;Mallen 等,ACL 2023)显示,模型对热门实体的回忆与处理远比冷门实体可靠,热度以 Wikipedia 页面浏览量为代理。落到解析这一层来看:让知名实体容易被点名的同一种规律,也让它更容易被消歧。把这条规律应用到品牌实体只是类比,并不是已经测得的品牌结论。
实体识别最常见的失败是什么?
失败几乎从来不是「没有身份」,而是认错了人,或者根本认不准。一次没管好的同名冲突(你的品牌和一个更大的实体共用同一串字符),会让那份信用落到那个同名者头上。名称、账号或 NAP 在各渠道对不上,会让候选实体打散,永远收敛不到同一个节点。解决办法是保持一致,而不是堆数量:身份本就分裂时,提及越多只会让分裂越深。伪造一条指向知名节点的 sameAs,与在 E-E-A-T 中伪造署名一样,都会败在多方相互印证这一关。

延伸阅读

参考来源

一手来源

  1. Large Language Models Struggle to Learn Long-Tail Knowledge (Kandpal, Deng, Roberts, Wallace & Raffel, ICML 2023) · arXiv / ICML 2023 (PMLR v202) · 2023-07-27
  2. When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories (Mallen et al., ACL 2023) · ACL 2023 (Long Papers) · 2023-07-02
  3. Introducing the Knowledge Graph: things, not strings · Google (Amit Singhal, The Keyword) · 2012-05-16
  4. Organization structured data (sameAs disambiguation) · Google Search Central · 2026-04-15
  5. sameAs — Schema.org property · Schema.org
  6. GEO: Generative Engine Optimization (Aggarwal et al., KDD '24) · arXiv / ACM SIGKDD · 2024-08-25

二手来源

  1. Why entity authority is the foundation of AI search visibility · Search Engine Land (Benu Aggarwal)
最近更新: 2026-05-19 作者: Ray Yang 主题: 信号