概念 · 信号

知识图谱存在度

速览要点

是什么: 在 AI 引擎所信任的几张图谱里，有没有一条结构化实体节点属于你（Wikipedia 词条、Wikidata 条目、Google 知识图谱或知识面板里的条目），它是否准确，是否已经被你认领
为什么重要: 它扮演的是放大器：训练阶段会抬高模型对你的初始印象，检索阶段会帮引擎把同名实体分清楚；但它本身并不能让你的某句话进入答案
在哪里起作用: 它属于始终在线的底层资产，会在两个环节被用到：训练阶段塑造先验，检索阶段用于消歧。这两个环节都早于可引用性与 E-E-A-T 决定是否采信的那一步
必须讲清的边界: 它负责放大，但不替你写进答案；它要靠外部承认，不能自我宣告。没有外部佐证就建出来的节点，算不上存在度，只是一句无人佐证的说法
它不是解析: 节点本身存不存在，是这一条要讲的；把你在页面上的名字对应到这条节点上去，是实体识别要讲的。存在度说的是这条节点有没有，不是把名字与节点对应起来的那一步

1. 知识图谱存在度是什么

GEO Wiki 工作定义：作为 GEO 信号的知识图谱存在度，指的是在 AI 引擎所信任的某张图谱里，是否有一条属于你的结构化实体节点（Wikipedia 词条、Wikidata 条目、Google 知识图谱或知识面板里的条目），以及它是否准确、是否已经被你认领。

这里只回答一个更窄的问题：存不存在这样一条可信节点，可以让模型把你认出来、再借它放大。至于怎么把页面上出现的名字对应到节点上，见实体识别。

2. 节点只负责放大，不负责把你写进答案：最关键的一点

这一点和几个相邻条目讲的是同一个道理。实体识别 §6 说「解析靠外部信息相互印证，不靠你自己说了算」，品牌提及 §5 说「光有链接、没有提及，撑不起权威」，Schema.org for AI 说「标记是申报，不是奖项」，E-E-A-T §6 说「靠赢得，不靠贴标签」。底层都是这一句：节点的作用是放大器，并不是替你写进答案的那一步。它抬高初始印象，给解析提供一个落脚点，但它既不能让某句话被引用，也不能靠你单方面宣告就凭空成立。

之所以叫「放大」，而且是双重放大，是因为节点不会只在一个环节被用到，而是两次：

   站外关注度、提及     ◄── 靠赢得：品牌提及
            │
            ▼
   [ 结构化节点 ]   ◄── 本条目
   Wikipedia、Wikidata、Google 知识图谱
      │                       │
      ▼（训练阶段）            ▼（检索、采信阶段）
   先验更强               帮助消歧与回忆
   （Wikipedia 在            （在直接调用
   预训练语料里）             Google 索引的
                              AI 界面上）
      └──────────┬───────────┘
                 ▼
   放大归放大，那段话仍然要自己写得能被引述
   （可引用性）、也要被信任（E-E-A-T）

关键在它什么时候起作用。节点是始终在线的底层资产，不是引擎在生成答案那一刻临时算出来的：它会先在训练阶段把模型对你的先验抬高，再在检索阶段帮引擎把同名实体分清楚。这两件事都比 Answer Loop §3 里可引用性与 E-E-A-T 把关、决定要不要采信的那一步发生得更早。至于哪一段话最后被引用，节点本身并不参与决定。

有三条边界，得先讲清楚：

存在度 ≠ 可被引述。 让一句话能被原样取用，见可引用性。
存在度 ≠ 被信任。 这条节点本身是不是一个值得信的权威，见 E-E-A-T。
存在度 ≠ 解析。 把你在页面上的名字对应到这条节点上去，见实体识别；节点本身存不存在才是这里在讲的，这跟实体识别 §2 的第三条边界正好是从两边看同一件事。

3. 机制：三层节点之间如何串联

知识图谱存在度不是单一的一件事，而是分散在三张图谱里的三条节点。三层的入场难度各不相同，数据流向也有固定的方向。

层	是什么	入场难度	为什么能放大 AI 引用
Wikipedia	人工编辑、由关注度门槛把关的百科词条	最难（必须先通过编辑流程的审核）	单层里分量最重的放大器：在预训练语料里权重最高的来源之一；§6 证据中度量实体热度的代理指标恰好就是 Wikipedia 的页面浏览量
Wikidata	结构化、机器可读的条目（带 Q 编号）	比 Wikipedia 宽松不少	sameAs 在外部通常就指向它；它的数据再向下流入 Google 知识图谱和许多下游图谱
Google 知识图谱、知识面板	Google 自己维护的实体库（MID、KGMID）	可以认领，但不能自由修改	为 Google AI Overviews 与 Google Gemini 的实体理解提供底层支撑；数据来自 Wikipedia、Wikidata 与公开网络

数据流向（节点居中负责放大，从来不是源头）：

  站外关注度 ─► Wikipedia ─► （预训练先验）
            │               └─────►┐
            └─► Wikidata ──────────┼─► Google 知识图谱 ─► Google 各 AI 界面
                                    （sameAs 通常就指它）

这条链接如何接回 Schema，一句话说清楚。sameAs 是把页面显式接入图谱的那条声明：哪些标记会带 sameAs，参见 Schema.org for AI §4；它指向的目标是什么，往下看就是。具体的 JSON-LD 代码块在 Schema.org for AI 与 Schema 落地 playbook 里。简单说，sameAs 表达的是「本页讲的这个实体就是 wikidata.org/wiki/Q… 那一条」；而它所指向的目标，也就是一条可信节点，正是本条要讲的事。

4. 杠杆：如何让节点存在、并且算数（讲的是思路，不是操作手册）

下面从思路上列出几个着力点，每一条都注明它对应 §3 里的哪一层。真正的执行步骤（怎么积累关注度、怎么提交条目、怎么认领面板、怎么把 sameAs 接上）在 Schema 落地 playbook 里；其中关注度那一半暂时还没有对应的操作手册，§8 会再提一次。

着力点	怎么建立或强化存在度	对应到哪一层	失败的样子
独立、可靠的站外报道（关注度的源头）	有了它，你才够资格拥有一条站得住的节点	Wikipedia、Wikidata	没有关注度就硬建的页面，一律会被回退（这份关注度要靠品牌提及去积累）
一条准确、来源扎实、标识符没填错的 Wikidata 条目	给开放图谱留一条干净、机器可读的节点	Wikidata	条目内容单薄、来源都是自己引自己，可信度低，随时会被删除
一条已认领、已验证的 Google 实体（认领知识面板）	让你有权修正并稳住这条私有节点	Google 知识图谱	没有认领或者认领错了面板，呈现出来的就是过时数据或张冠李戴的信息
站内指向节点的 sameAs	把页面接入图谱的那条显式声明，告诉引擎哪条节点是你的	全部	节点是存在的，但始终没有与你建立对应关系（这一步对接属于实体识别）
节点上的信息与站内身份保持一致（名称、NAP、限定词都一致）	节点和站点之间能互相印证	全部	节点和站点不一致，外部印证无从建立

收尾一句，这跟实体识别 §4 讲的「身份不是你说有就有」是同一回事：节点不是你自己写出来的；要先靠站外关注度赢得「有节点的资格」，存在度只是这份外部佐证沉淀下来的结果。 节点本身是否可信，见 E-E-A-T。

5. 不同平台上，存在度是怎么兑现的（共通点与差异）

§2、§3 那套放大机制在哪个平台都成立，这部分是不变的。会变的只是每个平台具体看的是哪一层。

平台	主要靠哪一层节点
Google AI Overviews、AI Mode	直接读 Google 自家的知识图谱，再加 Wikidata，能用上知识面板那种级别的实体信息
Google Gemini	由 Google 的实体图谱提供支撑；采信环节会用到知识图谱里的节点
ChatGPT、Perplexity（实时抓取这类）	它们读不到 Google 知识图谱；存在度主要来自模型先验里的 Wikipedia，外加一份实时抓取的 Wikipedia 页面，而且这部分常常被过度引用

「过度引用」并不是坊间感觉，而是有实测的：2025 年一份引用模式分析显示，Wikipedia 是 ChatGPT 单一被引用最多的来源，大约占全部引用的 7.8%（Profound，AI Platform Citation Patterns）。这是一家厂商的实测数据，看方向即可，不要当作精确系数。

多语言场景下，同一个实体在每种语言里都得各自有一条节点（中文 Wikipedia、Wikidata 与英文版各算各的），具体见 Multilingual GEO。

6. 证据说了什么，又没说什么

放大效应这件事，方向上是有可靠佐证的；但在品牌层面投入越多、回报是不是就越稳，目前没有定论。这张表的读法和全站读 Aggarwal 一样：看方向，不要纠结具体数字。

已经成立的部分	边界要怎么划
一个实体在外部被讨论得越多，模型回忆它的事实就越稳定：热门实体被处理得四平八稳，长尾实体则不然（Kandpal 等，arXiv:2211.08411；Mallen 等，ACL 2023）	在三个共用这对来源的条目里，这里的引用方式最贴近原文：研究用 Wikipedia 页面浏览量来度量实体热度，用 Wikidata 事实来度量事实回忆，因此图谱语料里的存在度，几乎就等于研究实际在测的那个变量。不过仍要交代清楚：他们测的是事实问答，并不是「品牌一旦上了 Wikipedia 页面，引用率就会随之上升」；把结论延伸到品牌层面，本质上是类比，不是直接结论。同一对来源在三处各取一个侧面：品牌提及 §4 取的是它作为先验信号的那一面，实体识别 §6 取的是「越知名越容易被解析」这条规律，这里取的是「存在度负责放大」的那一面
直接调用 Google 索引的那类平台，要靠一层显式的知识图谱来做解析与放大：Google「实体，不是字符串」的思路，最早可以追溯到知识图谱，2012	它影响的是能不能被识别、会不会被放大这一层，不是排名加分项（参见 Schema.org for AI §6）
AI 答案引擎在合成答案时确实重度依赖 Wikipedia：至少在 2025 年的一次引用审计里，它是 ChatGPT 被引用最多的来源（Profound，2025）	这是从业层面、厂商口径的佐证，能说明 Wikipedia 这条节点的放大效果确实存在，但不构成对机制本身或效应量的独立证明；它就是一次厂商实测，看方向即可

必须讲清的空白：生成式引擎优化里那个标志性的杠杆，也就是 Aggarwal 等（KDD ‘24，arXiv:2311.09735；论文精读），它度量的是页内内容改写（加引用、加统计、加引述），跟知识图谱存在度完全不是同一件事。它给出的「最高约 40%」那个数字，不能直接套用到「拿下一个 Wikipedia 页面」上。把它搬到这里，正是站内多个条目反复提醒要避开的那种过度外推。

跟实体识别 §6 讲的「靠多方印证，不靠自己说了算」、E-E-A-T §6 讲的「靠赢得，不靠贴标签」是同一个道理：存在度要靠关注度赢得，赢不来就没有。一条没有外部佐证、纯属自己写出来的节点，算不上存在度，只是一句空话。

7. 反模式：硬造节点与伪造链接

下面这些误区，跟实体识别 §7、品牌提及 §8、Schema.org for AI §7 防的是同一类错误。

常见误判	看着像对的地方	实际上哪里错了
「花钱找代理『保证』给我们做一条 Wikipedia 页面」	看着像绕过编辑流程、直接拿下最重那条节点的捷径	Wikipedia 的关注度由编辑流程把关，付费创建不披露属于违规，会被回退甚至被加上违规标记（Wikipedia:Notability；Paid-contribution disclosure）；一条被删过的页面比根本没建还要糟糕
「自己建一条 Wikidata 条目，不就进图谱了？」	看上去是一件门槛不高又被允许的事	内容单薄、来源都是自己引自己的条目，达不到 Wikidata 收录所要求的「严肃、公开可查的参考来源」（Wikidata:Notability），可信度很低，随时会被删除；存在度 ≠ 这条节点值得被信任（E-E-A-T）
「我们已经有知识面板了，所以会被引用」	看着像已经到位了	面板只是实体识别呈现出来的形态，不等于被引用：能被原样引述是可引用性的事，被不被信是 E-E-A-T 的事；节点是放大器，并不是替你写进答案的那一步
「我们已经有 Wikipedia 页面了，所以已经被解析了」	看着像已经到位了	这跟实体识别 §7 是同一种误判，只是反过来看：节点存在是这一条要讲的，把你在页面上的名字对应到节点上是实体识别要讲的
「伪造一条指向某个知名 Wikidata 条目的 sameAs」	看上去像瞬间就接通了	它过不了外部印证这一关，跟伪造作者署名过不了 E-E-A-T §7、伪造 `Organization` 标记过不了 Schema.org for AI §7 是一回事；这种造假链接迟早被识破

总结一句：节点是别人的提及最终落到的对象，不是一条你可以自己开辟出来的捷径；拥有它的资格要靠站外关注度赢得，赢不来就没有；自己硬写一条节点，本质上只是一句无人佐证的话。

8. 对 GEO 来说为什么重要、又该怎么做

知识图谱存在度是实体层下面一直在背景里运转的放大器：它强化先验，也给解析留下一个可以落脚的位置。它要和几件事放在一起看：赢得它的那批站外信号（品牌提及）、用到它的那一步解析（实体识别），以及指向它的那些标记（Schema.org for AI）。这里还得指出一个落差：sameAs 那条链接怎么接，Schema 落地已经讲完了；但关注度、Wikipedia 这一侧暂时还没有现成的操作手册，本节因此只点明这个空白，而不去硬链一个尚不存在的页面。

你想做的事	从这里入手
赢得能让节点站得住的站外报道	品牌提及
让你的提及在解析时落到这条节点上	实体识别
部署那条把页面接入节点的 sameAs	Schema 落地
弄清楚哪些标记会影响实体层	Schema.org for AI
检查这条节点本身的信任面	E-E-A-T
看它在整条回路里的位置	Answer Loop
把这一切串起来的方法论	生成式引擎优化

参考资料

学术：

Kandpal, N., Deng, H., Roberts, A., Wallace, E. & Raffel, C. (2023). Large Language Models Struggle to Learn Long-Tail Knowledge. ICML 2023 (PMLR v202). arXiv:2211.08411
Mallen, A., Asai, A., Zhong, V., Das, R., Khashabi, D. & Hajishirzi, H. (2023). When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories. ACL 2023. ACL Anthology · arXiv:2212.10511
Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · 论文精读。边界参照；知识图谱存在度不是被测变量

官方：

Google — Introducing the Knowledge Graph: things, not strings（2012-05-16）：奠定「实体，而非字符串」这一模型
Google Knowledge Panel Help — Get verified on Google：认领知识面板
Google Search Central — Organization structured data：sameAs「在后台用于把你的组织与其他组织区分开」
Schema.org — sameAs：「无歧义地标明该项身份的参考网页 URL」

政策：

Wikipedia — Notability：「获得独立于其自身、可靠来源的大量报道，即被推定为适合收录」
Wikipedia — Paid-contribution disclosure：付费编辑必须披露
Wikidata — Notability：条目需对应「一个可清晰辨识的概念或实体，且能以严肃、公开可查的参考来源描述」

业界：

Profound — AI Platform Citation Patterns（2025-06-05）：Wikipedia 是 ChatGPT 被引用最多的来源（约 7.8%）；看方向，厂商实测

常见问题

为什么「上 Wikipedia」对 AI 引用的放大效果这么明显？

Wikipedia 词条在这套图谱里是单个节点中分量最重的一个。它是 LLM 预训练语料中权重最高的来源之一，内容会直接喂进模型的先验；它的数据又会向下游流入 Wikidata 和 Google 知识图谱，因此在那些直接调用 Google 索引的 AI 界面上同样能起作用；在长尾知识研究（Kandpal 等，ICML 2023；Mallen 等，ACL 2023）里，研究者甚至直接拿 Wikipedia 页面浏览量来度量实体的热度，结论是一个实体在外部被讨论得越多，模型回忆它的事实就越稳定。Wikipedia 在这几层里同时起作用，但效果终究是放大，而不是替你写答案：它能抬高初始印象，能给消歧提供一个落点，却不会让你某一段具体的话原样进入回答。

它和实体识别、品牌提及到底差在哪？

知识图谱存在度说的是节点本身这件资产：是否有一条属于你的可信节点，准不准确，是否已被认领。实体识别说的是另一件事，把页面上出现的名字对应到这条节点上去。品牌提及讲的则是站外那些不带链接、为节点积累关注度的口碑信号。提及积累起关注度，节点是这份关注度最终落到的对象，实体识别再把名字与节点对应起来。实体识别 §2 已经反过来把这条边界写过一遍：「解析 ≠ 节点存在」。

我们已经有了知识面板，是不是就一定会被引用？

不会。知识面板只是实体识别呈现出来的一种形态，说明 Google 内部已经承认你这条节点。也就是说放大确实在起作用，但和「被引用」是两码事。你某一段话之后会不会被取用进答案，看的是它本身的结构（可引用性）和来源是否被信任（E-E-A-T），由引擎在采信那一步决定，节点并不参与那一步。有了节点，你确实更容易被检索到、第一印象也更好，但不会因此就变成一个值得被原样引述的页面。

自己动手建一个 Wikidata 条目或者 Wikipedia 页面，能不能算存在度？

不算。Wikipedia 的关注度门槛由编辑流程把关：一个主题只有被独立、可靠的来源大量报道过，才被推定为可以收录；不披露身份的付费创建属于违规，会被回退甚至被加上违规标记，而一条被删掉的页面比根本没有更糟。同理，自己写一个、没有正式公开参考来源的 Wikidata 条目，可信度很低，随时可能被删除。存在度是靠站外关注度赢得的，不是你自己宣告就能成立的：一条只有你一个人为其担保的节点，本质上还是一句无人佐证的说法，和 E-E-A-T 里伪造作者署名属于同一种失败方式。

伪造一条指向某个知名 Wikidata 条目的 sameAs，能不能把别人的存在度借过来？

借不到，这种造假迟早被识破。sameAs 是把页面接入图谱的那条显式声明（哪些标记会带它，参见 Schema.org for AI §4），但引擎只在全网其他信息都能相互印证时，才会拿这条声明去缩小候选范围。把 sameAs 指向一个其实并不属于你的知名节点，会在外部印证这一步就被拦下，跟伪造的 Organization 标记在 Schema.org for AI §7 被拦下、伪造的作者署名在 E-E-A-T §7 被拦下是同一回事。这条声明必须指向一条真的属于你的节点；至于「把名字与节点对应起来」那一步本身，是实体识别要做的事。

参考来源

一手来源

Large Language Models Struggle to Learn Long-Tail Knowledge (Kandpal, Deng, Roberts, Wallace & Raffel, ICML 2023) · arXiv / ICML 2023 (PMLR v202) · 2023-07-27
When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories (Mallen et al., ACL 2023) · ACL 2023 (Long Papers) · 2023-07-02
Introducing the Knowledge Graph: things, not strings · Google (Amit Singhal, The Keyword) · 2012-05-16
Organization structured data (sameAs disambiguation) · Google Search Central · 2026-04-15
sameAs — Schema.org property · Schema.org
Get verified on Google (claim a knowledge panel) · Google Knowledge Panel Help
Wikipedia:Notability — the general notability guideline · Wikipedia (Wikimedia Foundation)
Wikipedia:Paid-contribution disclosure · Wikipedia (Wikimedia Foundation)
Wikidata:Notability · Wikidata (Wikimedia Foundation)
GEO: Generative Engine Optimization (Aggarwal et al., KDD '24) · arXiv / ACM SIGKDD · 2024-08-25

二手来源

AI Platform Citation Patterns (Wikipedia = ChatGPT's most-cited source) · Profound