实体识别
速览要点
- 是什么
- 把页面上出现的名称(品牌、产品、作者)对应到引擎已知的某个规范实体、并和同名实体区分开的那一层
- 为什么重要
- 解析是整条链路最关键的一步。提及、引用或 sameAs,只有解析到正确的实体节点才生效;解析不出,那份信用就流失、错配或被丢弃
- 在哪里起作用
- 在检索之前的解析与实体层;位于由可引用性与 E-E-A-T 把关的采信与选择环节的上游。决定的是这份信用最终算到谁头上,不是哪一段话被取用
- 解析的关键凭据
- sameAs 是最直接的显式解析凭据。Google 明确说它「在后台用于把你的组织与其他组织区分开」
- 需要讲清的边界
- 解析依据的是多方相互印证,并不是单方声明;只靠一条 sameAs 解析不了你,必须让全网都呈现出一致的身份
1. 实体识别是什么
实体识别是一层机制,决定 AI 引擎能不能分辨你是谁、你是什么,并把你赢得的各种信号归到正确的实体节点上。
GEO Wiki 工作定义:在 GEO 语境下,实体识别是 AI 引擎把一个表层名称(surface form,也就是页面或查询里出现的品牌、产品、作者字符串),对应到它已知的某个规范实体(canonical entity)、并和同名实体区分开的过程。只有完成这一步,附着在这串字符上的信用才能记入正确的节点。
2. 为什么未解析的实体拿不到信用:必须讲清的一点
未被解析的实体,拿不到信用。 一次提及、一次引用或一处标记断言,只有引擎把它解析到正确的实体节点,才真正生效。被点名、被引用却没有被解析,那份信用照样流失。同样的逻辑,品牌提及 §5 早已写明:「没有提及的链接,权威动作不完整」;可引用性 §2 也强调:「可引用是必要条件,不是充分条件」。解析是整条链路的关键一步,不是锦上添花。
提及 / 引用 / sameAs 断言
│
▼
[ 实体解析层 ] ◄── 本条目
表层名称 → 候选 → 消歧 → 节点
│
┌────────┴─────────┐
▼ ▼
已解析 未解析 / 错配
→ 先验与 → 信用被丢弃,或
信用记到 附着到错误实体
你的节点 上(同名冲突)
它发生在哪一层,是理解全局的关键。解析处在检索之前的解析与实体层,也就是 Schema.org for AI §2 部署标记的同一层;位置在 Answer Loop §3 那道由 可引用性 与 E-E-A-T 把关的采信与选择环节的上游。解析并不决定哪段话被取用,它决定的是这份信用最终算到谁头上。
为避免和邻近概念混读,需要划出三条边界:
- 解析 ≠ 可被引述。 让一段话可被原样取用,见 可引用性。
- 解析 ≠ 被信任。 解析出的实体是否可信,见 E-E-A-T。
- 解析 ≠ 节点存在。 Wikidata 节点本身见 知识图谱存在度;把一次提及真正对应到那个节点上的,才是这里所说的解析。
3. 机制:解析流水线
底层机制就是先做命名实体识别(NER),再做实体链接(entity linking)。放到 GEO 语境里,它是这样一条流水线:
表层名称 "Acme" (页面或查询里的字符串)
│
▼
候选生成 "Acme" 可能是哪些已知实体?
│ (Acme 公司 · Acme 工具 · 同名乐队 …)
▼
消歧 上下文 + 共现 + 先验,挑出其一
│
▼
规范实体 信用最终附着的那个节点
消歧依赖三类输入。三者并不等权,哪一类占主导,正是 §5 按平台区分的依据。
| 输入 | 它给引擎的是什么 | 来自哪里 | 何时占主导 |
|---|---|---|---|
| ① 显式解析凭据 | 一条直接、无歧义指向正确实体节点的链接,引擎不必再做推测 | sameAs、结构化标识符、权威主页链接 | 会读取并解析结构化数据的索引集成型平台 |
| ② 消歧上下文 | 足够的线索,把多个可能匹配的实体收窄到唯一一个 | 一致的规范名称、各渠道一致的 NAP、每次提及附近的描述性共现词 | 没有显式凭据时(开放网络上的大多数情形) |
| ③ 模型既有先验 | 在多个候选之间,默认倾向于训练中被反复印证的那一个 | 该实体在训练与检索中被印证的广度,也就是 §6 所说的「越知名越容易被解析」这条规律 | 没有结构化层可读的纯 LLM 平台 |
输入 ① 正是 Schema.org for AI §4 所讲的机制:sameAs 是显式的解析凭据。Google 明确说,它「在后台用于把你的组织与其他组织区分开」(见 Organization 结构化数据)。完整的 JSON-LD 代码块见 Schema.org for AI 或 Schema 落地 playbook。具体而言,sameAs 是在断言:本页所指的实体就是那个 Wikipedia/Wikidata 链接所指的实体;只有当全网其余信息都不与之矛盾,引擎才会接受这条断言,把候选收窄到唯一一个节点。
4. 杠杆:怎样让自己可被解析
下面列出解析的几个着力点,每一条都标注它作用于 §3 的哪类输入。
| 着力点 | 如何助力解析 | 作用的输入 | 失败形态 |
|---|---|---|---|
| sameAs 或结构化标识符 | 给引擎一条直接指向正确实体节点的显式链接 | ① | 缺少这条显式链接,实体始终接不进知识图谱 |
| 全网统一的规范名称 + NAP | 让散落各处的提及能归拢到同一个候选实体 | ② | 身份分裂,多个候选始终无法收敛到同一个节点 |
| 每次提及附近都附带消歧上下文(角色、领域、限定词) | 在提及现场就把你与同名者区分开 | ② | 同名冲突未解,那份信用被导向更大的那个实体 |
| 一个已认领的知识图谱节点,作为解析的目标 | 让解析最终能对应到一个权威对象 | ①+③ | 缺少可对应的目标节点(节点机制见 知识图谱存在度) |
| 给品牌、作者、产品起一个有辨识度、避开同名的名字 | 从源头就缩小可能的候选范围 | ② | 在每一份候选列表里都被同名者盖过 |
品牌提及 §6 写过一句关键的话:「你赢得的是成为那个被点名的对象」。换到解析这一层,原理相同:身份不是靠自己声明就能立起来的;必须让某一个彼此印证的身份,成为全网唯一一致的读法。解析只是这种一致性带来的下游结果。 这个身份是否可信,见 E-E-A-T。
5. 解析如何因平台而异(不变量与差异)
§3 那条流水线是不变量,处处成立;真正变化的,只是哪一类输入占主导。
| 平台 | 占主导的解析输入 |
|---|---|
| Google AI Overviews / AI Mode | 索引 + 知识图谱;以显式标识符(①)为主,知识图谱兜底 |
| Google Gemini | 以知识图谱兜底;共现 + 知识图谱节点(②+③)共同发挥作用 |
| ChatGPT / Perplexity(实时抓取) | 模型先验 + 抓回的页内上下文(②+③);JSON-LD 在生成答案时不会被当作知识图谱来解析(Schema.org for AI §5);这一步靠的是先验与知识图谱,而不是抓取时读你页面上的标记 |
6. 证据说明了什么、又没说明什么
机制的方向有充分佐证;但在品牌层面,投入越多是否就解析得越可靠,目前并无定论。读这张表的方式,和全站读 Aggarwal 一样:看方向,而不是某个具体系数。
| 成立的部分 | 划清边界的读法 |
|---|---|
| 一个实体被佐证得越广,模型对它的回忆与处理就越可靠:热门实体能稳定解析,长尾实体则不行(Kandpal 等,arXiv:2211.08411;Mallen 等,ACL 2023) | 这些论文度量的是对 Wikidata 事实的 QA 准确率,热度以 Wikipedia 页面浏览量为代理,并不是品牌实体解析。由此推到品牌只是类比,不是直接结论,这也正是 品牌提及 §4 对同一批论文划下的边界:那里读出的是先验信号,这里读出的是实体越知名越容易被解析这条规律 |
| 索引集成型平台靠一个显式的标识符/知识图谱层来解析:Google 说 sameAs 用于把你的组织与其他组织区分开(Organization 文档;这套模型可追溯到 知识图谱,2012) | 那是准入级的解析,不是排名加成;这是 Schema.org for AI §6 已经给出的结论,沿用即可 |
| 业界实践现已把实体消歧(「实体漂移」「身份坍缩」)当作 AI 搜索的头等问题(Search Engine Land,2026) | 这只是从业者层面佐证这个信号确实存在,不是对机制或效应量的独立证明 |
必须讲清的空白:生成式引擎优化 那条标志性的杠杆,也就是 Aggarwal 等(KDD ‘24,arXiv:2311.09735;论文精读),度量的是页内内容改写(加引用、加统计、加引述),并不是实体解析。最高约 40% 那个数字并不适用于「改善实体识别」。把它搬过来,正是同类条目反复警惕的那种过度外推。
最关键的一句留在这里:解析靠的是多方相互印证,不是单方声明。单凭一条 sameAs 解析不了你;让多个独立来源给出一致身份的那种印证才解析得了。这与 Schema.org for AI「标记是声明,不是奖励」、E-E-A-T §6「靠挣得,不靠标注」是同一立场。
7. 反模式:身份含混与认错实体
下面列出几类必须避免的失败模式,与 品牌提及 §8、Schema.org for AI §7 是同一组对照。
| 误读 | 为什么看着像对的 | 为什么其实错了 |
|---|---|---|
| 「我们到处都被点名,那肯定被解析了」 | 数量看着像权威 | 一次没管好的同名冲突会把先验在几个同名者之间打散;把关的是能否解析,而不是被点名的数量 |
| 「各渠道用不同名称/账号,做品牌没关系」 | 看着像灵活的市场打法 | 这会把候选打散,永远收敛不到同一个节点上(§3 输入 ②) |
| 「伪造一条指向知名节点的 sameAs」 | 看着像瞬间就接上了 | 结果会和在 E-E-A-T §7 伪造署名、在 Schema.org for AI §7 伪造 Organization 一样,栽在多方相互印证这一关上;一条造假的解析链接迟早会被查出来 |
| 「光靠标记就能解析我们」 | 看着像够用了 | 纯 LLM 平台在生成答案时并不解析 JSON-LD(§5);那条显式凭据要有多方相互印证才撑得住 |
| 「我们有 Wikipedia 页面,所以被解析了」 | 看着像已经到位了 | 节点存在见 知识图谱存在度;把你的提及对应到这个节点上,是这里要讲的另一件事 |
归结成最关键的一句:失败几乎从来不是「没有身份」,而是认错了人,或者根本认不准。解决办法是保持一致,而不是堆数量。
8. 这对 GEO 为什么重要 + 怎么做
解析是上游几个关键环节之一,下游能不能拿到信用,取决于这些环节是否成立;它需要和可采信(可引用性)、站外先验(品牌提及)一起看。
| 你的意图 | 从这里开始 |
|---|---|
| 部署 sameAs 或修正身份标记 | Schema 落地 |
| 拿下那个结构化节点本身 | 知识图谱存在度 |
| 赢得那些推动解析的站外提及 | 品牌提及 |
| 弄懂哪些标记会作用到实体层 | Schema.org for AI |
| 检查解析出的实体的信任判断 | E-E-A-T |
| 让同一实体跨语言被解析 | Multilingual GEO |
| 看它在整条回路里的位置 | Answer Loop |
| 把它串起来的方法论 | 生成式引擎优化 |
参考资料
学术:
- Kandpal, N., Deng, H., Roberts, A., Wallace, E. & Raffel, C. (2023). Large Language Models Struggle to Learn Long-Tail Knowledge. ICML 2023 (PMLR v202). arXiv:2211.08411
- Mallen, A., Asai, A., Zhong, V., Das, R., Khashabi, D. & Hajishirzi, H. (2023). When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories. ACL 2023. ACL Anthology · arXiv:2212.10511
- Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · 论文精读。边界参照;实体解析不是被测变量
官方:
- Google — Introducing the Knowledge Graph: things, not strings(2012-05-16):奠定「实体,而非字符串」这一模型
- Google Search Central — Organization structured data:sameAs「在后台用于把你的组织与其他组织区分开」
- Schema.org —
sameAs:「无歧义地标明该项身份的参考网页 URL」
业界:
- Search Engine Land — Why entity authority is the foundation of AI search visibility(Benu Aggarwal,2026-03-16)
常见问题
实体识别不就是个 NLP 细节吗,为什么对 GEO 重要?
它和知识图谱存在度、品牌提及有什么区别?
加了 sameAs 标记,实体就一定能被解析吗?
为什么知名品牌比我更容易被解析?
实体识别最常见的失败是什么?
延伸阅读
参考来源
一手来源
- Large Language Models Struggle to Learn Long-Tail Knowledge (Kandpal, Deng, Roberts, Wallace & Raffel, ICML 2023) · arXiv / ICML 2023 (PMLR v202) · 2023-07-27
- When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories (Mallen et al., ACL 2023) · ACL 2023 (Long Papers) · 2023-07-02
- Introducing the Knowledge Graph: things, not strings · Google (Amit Singhal, The Keyword) · 2012-05-16
- Organization structured data (sameAs disambiguation) · Google Search Central · 2026-04-15
- sameAs — Schema.org property · Schema.org
- GEO: Generative Engine Optimization (Aggarwal et al., KDD '24) · arXiv / ACM SIGKDD · 2024-08-25
二手来源
- Why entity authority is the foundation of AI search visibility · Search Engine Land (Benu Aggarwal)