跳到正文
概念 · 信号

知识图谱存在度

速览要点

是什么
在 AI 引擎所信任的几张图谱里,有没有一条结构化实体节点属于你(Wikipedia 词条、Wikidata 条目、Google 知识图谱或知识面板里的条目),它是否准确,是否已经被你认领
为什么重要
它扮演的是放大器:训练阶段会抬高模型对你的初始印象,检索阶段会帮引擎把同名实体分清楚;但它本身并不能让你的某句话进入答案
在哪里起作用
它属于始终在线的底层资产,会在两个环节被用到:训练阶段塑造先验,检索阶段用于消歧。这两个环节都早于可引用性与 E-E-A-T 决定是否采信的那一步
必须讲清的边界
它负责放大,但不替你写进答案;它要靠外部承认,不能自我宣告。没有外部佐证就建出来的节点,算不上存在度,只是一句无人佐证的说法
它不是解析
节点本身存不存在,是这一条要讲的;把你在页面上的名字对应到这条节点上去,是实体识别要讲的。存在度说的是这条节点有没有,不是把名字与节点对应起来的那一步

1. 知识图谱存在度是什么

GEO Wiki 工作定义:作为 GEO 信号的知识图谱存在度,指的是在 AI 引擎所信任的某张图谱里,是否有一条属于你的结构化实体节点(Wikipedia 词条、Wikidata 条目、Google 知识图谱或知识面板里的条目),以及它是否准确、是否已经被你认领。

这里只回答一个更窄的问题:存不存在这样一条可信节点,可以让模型把你认出来、再借它放大。至于怎么把页面上出现的名字对应到节点上,见 实体识别

2. 节点只负责放大,不负责把你写进答案:最关键的一点

这一点和几个相邻条目讲的是同一个道理。实体识别 §6 说「解析靠外部信息相互印证,不靠你自己说了算」,品牌提及 §5 说「光有链接、没有提及,撑不起权威」,Schema.org for AI 说「标记是申报,不是奖项」,E-E-A-T §6 说「靠赢得,不靠贴标签」。底层都是这一句:节点的作用是放大器,并不是替你写进答案的那一步。它抬高初始印象,给解析提供一个落脚点,但它既不能让某句话被引用,也不能靠你单方面宣告就凭空成立。

之所以叫「放大」,而且是双重放大,是因为节点不会只在一个环节被用到,而是两次:

   站外关注度、提及     ◄── 靠赢得:品牌提及


   [ 结构化节点 ]   ◄── 本条目
   Wikipedia、Wikidata、Google 知识图谱
      │                       │
      ▼(训练阶段)            ▼(检索、采信阶段)
   先验更强               帮助消歧与回忆
   (Wikipedia 在            (在直接调用
   预训练语料里)             Google 索引的
                              AI 界面上)
      └──────────┬───────────┘

   放大归放大,那段话仍然要自己写得能被引述
   (可引用性)、也要被信任(E-E-A-T)

关键在它什么时候起作用。节点是始终在线的底层资产,不是引擎在生成答案那一刻临时算出来的:它会先在训练阶段把模型对你的先验抬高,再在检索阶段帮引擎把同名实体分清楚。这两件事都比 Answer Loop §3可引用性E-E-A-T 把关、决定要不要采信的那一步发生得更早。至于哪一段话最后被引用,节点本身并不参与决定。

有三条边界,得先讲清楚:

  • 存在度 ≠ 可被引述。 让一句话能被原样取用,见 可引用性
  • 存在度 ≠ 被信任。 这条节点本身是不是一个值得信的权威,见 E-E-A-T
  • 存在度 ≠ 解析。 把你在页面上的名字对应到这条节点上去,见 实体识别;节点本身存不存在才是这里在讲的,这跟 实体识别 §2 的第三条边界正好是从两边看同一件事。

3. 机制:三层节点之间如何串联

知识图谱存在度不是单一的一件事,而是分散在三张图谱里的三条节点。三层的入场难度各不相同,数据流向也有固定的方向。

是什么入场难度为什么能放大 AI 引用
Wikipedia人工编辑、由关注度门槛把关的百科词条最难(必须先通过编辑流程的审核)单层里分量最重的放大器:在预训练语料里权重最高的来源之一;§6 证据中度量实体热度的代理指标恰好就是 Wikipedia 的页面浏览量
Wikidata结构化、机器可读的条目(带 Q 编号)比 Wikipedia 宽松不少sameAs 在外部通常就指向它;它的数据再向下流入 Google 知识图谱和许多下游图谱
Google 知识图谱、知识面板Google 自己维护的实体库(MID、KGMID)可以认领,但不能自由修改Google AI OverviewsGoogle Gemini 的实体理解提供底层支撑;数据来自 Wikipedia、Wikidata 与公开网络

数据流向(节点居中负责放大,从来不是源头):

  站外关注度 ─► Wikipedia ─► (预训练先验)
            │               └─────►┐
            └─► Wikidata ──────────┼─► Google 知识图谱 ─► Google 各 AI 界面
                                    (sameAs 通常就指它)

这条链接如何接回 Schema,一句话说清楚。sameAs 是把页面显式接入图谱的那条声明:哪些标记会带 sameAs,参见 Schema.org for AI §4;它指向的目标是什么,往下看就是。具体的 JSON-LD 代码块在 Schema.org for AISchema 落地 playbook 里。简单说,sameAs 表达的是「本页讲的这个实体就是 wikidata.org/wiki/Q… 那一条」;而它所指向的目标,也就是一条可信节点,正是本条要讲的事。

4. 杠杆:如何让节点存在、并且算数(讲的是思路,不是操作手册)

下面从思路上列出几个着力点,每一条都注明它对应 §3 里的哪一层。真正的执行步骤(怎么积累关注度、怎么提交条目、怎么认领面板、怎么把 sameAs 接上)在 Schema 落地 playbook 里;其中关注度那一半暂时还没有对应的操作手册,§8 会再提一次。

着力点怎么建立或强化存在度对应到哪一层失败的样子
独立、可靠的站外报道(关注度的源头)有了它,你才够资格拥有一条站得住的节点Wikipedia、Wikidata没有关注度就硬建的页面,一律会被回退(这份关注度要靠 品牌提及 去积累)
一条准确、来源扎实、标识符没填错的 Wikidata 条目给开放图谱留一条干净、机器可读的节点Wikidata条目内容单薄、来源都是自己引自己,可信度低,随时会被删除
一条已认领、已验证的 Google 实体(认领知识面板)让你有权修正并稳住这条私有节点Google 知识图谱没有认领或者认领错了面板,呈现出来的就是过时数据或张冠李戴的信息
站内指向节点的 sameAs把页面接入图谱的那条显式声明,告诉引擎哪条节点是你的全部节点是存在的,但始终没有与建立对应关系(这一步对接属于 实体识别
节点上的信息与站内身份保持一致(名称、NAP、限定词都一致)节点和站点之间能互相印证全部节点和站点不一致,外部印证无从建立

收尾一句,这跟 实体识别 §4 讲的「身份不是你说有就有」是同一回事:节点不是你自己写出来的;要先靠站外关注度赢得「有节点的资格」,存在度只是这份外部佐证沉淀下来的结果。 节点本身是否可信,见 E-E-A-T

5. 不同平台上,存在度是怎么兑现的(共通点与差异)

§2、§3 那套放大机制在哪个平台都成立,这部分是不变的。会变的只是每个平台具体看的是哪一层

平台主要靠哪一层节点
Google AI Overviews、AI Mode直接读 Google 自家的知识图谱,再加 Wikidata,能用上知识面板那种级别的实体信息
Google Gemini由 Google 的实体图谱提供支撑;采信环节会用到知识图谱里的节点
ChatGPT、Perplexity(实时抓取这类)它们读不到 Google 知识图谱;存在度主要来自模型先验里的 Wikipedia,外加一份实时抓取的 Wikipedia 页面,而且这部分常常被过度引用

「过度引用」并不是坊间感觉,而是有实测的:2025 年一份引用模式分析显示,Wikipedia 是 ChatGPT 单一被引用最多的来源,大约占全部引用的 7.8%(Profound,AI Platform Citation Patterns)。这是一家厂商的实测数据,看方向即可,不要当作精确系数。

多语言场景下,同一个实体在每种语言里都得各自有一条节点(中文 Wikipedia、Wikidata 与英文版各算各的),具体见 Multilingual GEO。

6. 证据说了什么,又没说什么

放大效应这件事,方向上是有可靠佐证的;但在品牌层面投入越多、回报是不是就越稳,目前没有定论。这张表的读法和全站读 Aggarwal 一样:看方向,不要纠结具体数字。

已经成立的部分边界要怎么划
一个实体在外部被讨论得越多,模型回忆它的事实就越稳定:热门实体被处理得四平八稳,长尾实体则不然(Kandpal 等,arXiv:2211.08411;Mallen 等,ACL 2023在三个共用这对来源的条目里,这里的引用方式最贴近原文:研究用 Wikipedia 页面浏览量来度量实体热度,用 Wikidata 事实来度量事实回忆,因此图谱语料里的存在度,几乎就等于研究实际在测的那个变量。不过仍要交代清楚:他们测的是事实问答,并不是「品牌一旦上了 Wikipedia 页面,引用率就会随之上升」;把结论延伸到品牌层面,本质上是类比,不是直接结论。同一对来源在三处各取一个侧面:品牌提及 §4 取的是它作为先验信号的那一面,实体识别 §6 取的是「越知名越容易被解析」这条规律,这里取的是「存在度负责放大」的那一面
直接调用 Google 索引的那类平台,要靠一层显式的知识图谱来做解析与放大:Google「实体,不是字符串」的思路,最早可以追溯到 知识图谱,2012它影响的是能不能被识别、会不会被放大这一层,不是排名加分项(参见 Schema.org for AI §6
AI 答案引擎在合成答案时确实重度依赖 Wikipedia:至少在 2025 年的一次引用审计里,它是 ChatGPT 被引用最多的来源(Profound,2025这是从业层面、厂商口径的佐证,能说明 Wikipedia 这条节点的放大效果确实存在,但不构成对机制本身或效应量的独立证明;它就是一次厂商实测,看方向即可

必须讲清的空白生成式引擎优化 里那个标志性的杠杆,也就是 Aggarwal 等(KDD ‘24,arXiv:2311.09735论文精读),它度量的是页内内容改写(加引用、加统计、加引述),跟知识图谱存在度完全不是同一件事。它给出的「最高约 40%」那个数字,不能直接套用到「拿下一个 Wikipedia 页面」上。把它搬到这里,正是站内多个条目反复提醒要避开的那种过度外推。

实体识别 §6 讲的「靠多方印证,不靠自己说了算」、E-E-A-T §6 讲的「靠赢得,不靠贴标签」是同一个道理:存在度要靠关注度赢得,赢不来就没有。一条没有外部佐证、纯属自己写出来的节点,算不上存在度,只是一句空话。

7. 反模式:硬造节点与伪造链接

下面这些误区,跟 实体识别 §7品牌提及 §8Schema.org for AI §7 防的是同一类错误。

常见误判看着像对的地方实际上哪里错了
「花钱找代理『保证』给我们做一条 Wikipedia 页面」看着像绕过编辑流程、直接拿下最重那条节点的捷径Wikipedia 的关注度由编辑流程把关,付费创建不披露属于违规,会被回退甚至被加上违规标记(Wikipedia:NotabilityPaid-contribution disclosure);一条被删过的页面比根本没建还要糟糕
「自己建一条 Wikidata 条目,不就进图谱了?」看上去是一件门槛不高又被允许的事内容单薄、来源都是自己引自己的条目,达不到 Wikidata 收录所要求的「严肃、公开可查的参考来源」(Wikidata:Notability),可信度很低,随时会被删除;存在度 ≠ 这条节点值得被信任(E-E-A-T
「我们已经有知识面板了,所以会被引用」看着像已经到位了面板只是实体识别呈现出来的形态,不等于被引用:能被原样引述是 可引用性 的事,被不被信是 E-E-A-T 的事;节点是放大器,并不是替你写进答案的那一步
「我们已经有 Wikipedia 页面了,所以已经被解析了」看着像已经到位了这跟 实体识别 §7 是同一种误判,只是反过来看:节点存在是这一条要讲的,把你在页面上的名字对应到节点上实体识别 要讲的
「伪造一条指向某个知名 Wikidata 条目的 sameAs」看上去像瞬间就接通了它过不了外部印证这一关,跟伪造作者署名过不了 E-E-A-T §7、伪造 Organization 标记过不了 Schema.org for AI §7 是一回事;这种造假链接迟早被识破

总结一句:节点是别人的提及最终落到的对象,不是一条你可以自己开辟出来的捷径;拥有它的资格要靠站外关注度赢得,赢不来就没有;自己硬写一条节点,本质上只是一句无人佐证的话。

8. 对 GEO 来说为什么重要、又该怎么做

知识图谱存在度是实体层下面一直在背景里运转的放大器:它强化先验,也给解析留下一个可以落脚的位置。它要和几件事放在一起看:赢得它的那批站外信号(品牌提及)、用到它的那一步解析(实体识别),以及指向它的那些标记(Schema.org for AI)。这里还得指出一个落差:sameAs 那条链接怎么接,Schema 落地 已经讲完了;但关注度、Wikipedia 这一侧暂时还没有现成的操作手册,本节因此只点明这个空白,而不去硬链一个尚不存在的页面。

你想做的事从这里入手
赢得能让节点站得住的站外报道品牌提及
让你的提及在解析时落到这条节点上实体识别
部署那条把页面接入节点的 sameAsSchema 落地
弄清楚哪些标记会影响实体层Schema.org for AI
检查这条节点本身的信任面E-E-A-T
看它在整条回路里的位置Answer Loop
把这一切串起来的方法论生成式引擎优化

参考资料

学术:

  • Kandpal, N., Deng, H., Roberts, A., Wallace, E. & Raffel, C. (2023). Large Language Models Struggle to Learn Long-Tail Knowledge. ICML 2023 (PMLR v202). arXiv:2211.08411
  • Mallen, A., Asai, A., Zhong, V., Das, R., Khashabi, D. & Hajishirzi, H. (2023). When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories. ACL 2023. ACL Anthology · arXiv:2212.10511
  • Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · 论文精读。边界参照;知识图谱存在度不是被测变量

官方:

政策:

  • Wikipedia — Notability:「获得独立于其自身、可靠来源的大量报道,即被推定为适合收录」
  • Wikipedia — Paid-contribution disclosure:付费编辑必须披露
  • Wikidata — Notability:条目需对应「一个可清晰辨识的概念或实体,且能以严肃、公开可查的参考来源描述」

业界:

  • Profound — AI Platform Citation Patterns(2025-06-05):Wikipedia 是 ChatGPT 被引用最多的来源(约 7.8%);看方向,厂商实测

常见问题

为什么「上 Wikipedia」对 AI 引用的放大效果这么明显?
Wikipedia 词条在这套图谱里是单个节点中分量最重的一个。它是 LLM 预训练语料中权重最高的来源之一,内容会直接喂进模型的先验;它的数据又会向下游流入 Wikidata 和 Google 知识图谱,因此在那些直接调用 Google 索引的 AI 界面上同样能起作用;在长尾知识研究(Kandpal 等,ICML 2023;Mallen 等,ACL 2023)里,研究者甚至直接拿 Wikipedia 页面浏览量来度量实体的热度,结论是一个实体在外部被讨论得越多,模型回忆它的事实就越稳定。Wikipedia 在这几层里同时起作用,但效果终究是放大,而不是替你写答案:它能抬高初始印象,能给消歧提供一个落点,却不会让你某一段具体的话原样进入回答。
它和实体识别、品牌提及到底差在哪?
知识图谱存在度说的是节点本身这件资产:是否有一条属于你的可信节点,准不准确,是否已被认领。实体识别说的是另一件事,把页面上出现的名字对应到这条节点上去。品牌提及讲的则是站外那些不带链接、为节点积累关注度的口碑信号。提及积累起关注度,节点是这份关注度最终落到的对象,实体识别再把名字与节点对应起来。实体识别 §2 已经反过来把这条边界写过一遍:「解析 ≠ 节点存在」。
我们已经有了知识面板,是不是就一定会被引用?
不会。知识面板只是实体识别呈现出来的一种形态,说明 Google 内部已经承认你这条节点。也就是说放大确实在起作用,但和「被引用」是两码事。你某一段话之后会不会被取用进答案,看的是它本身的结构(可引用性)和来源是否被信任(E-E-A-T),由引擎在采信那一步决定,节点并不参与那一步。有了节点,你确实更容易被检索到、第一印象也更好,但不会因此就变成一个值得被原样引述的页面。
自己动手建一个 Wikidata 条目或者 Wikipedia 页面,能不能算存在度?
不算。Wikipedia 的关注度门槛由编辑流程把关:一个主题只有被独立、可靠的来源大量报道过,才被推定为可以收录;不披露身份的付费创建属于违规,会被回退甚至被加上违规标记,而一条被删掉的页面比根本没有更糟。同理,自己写一个、没有正式公开参考来源的 Wikidata 条目,可信度很低,随时可能被删除。存在度是靠站外关注度赢得的,不是你自己宣告就能成立的:一条只有你一个人为其担保的节点,本质上还是一句无人佐证的说法,和 E-E-A-T 里伪造作者署名属于同一种失败方式。
伪造一条指向某个知名 Wikidata 条目的 sameAs,能不能把别人的存在度借过来?
借不到,这种造假迟早被识破。sameAs 是把页面接入图谱的那条显式声明(哪些标记会带它,参见 Schema.org for AI §4),但引擎只在全网其他信息都能相互印证时,才会拿这条声明去缩小候选范围。把 sameAs 指向一个其实并不属于你的知名节点,会在外部印证这一步就被拦下,跟伪造的 Organization 标记在 Schema.org for AI §7 被拦下、伪造的作者署名在 E-E-A-T §7 被拦下是同一回事。这条声明必须指向一条真的属于你的节点;至于「把名字与节点对应起来」那一步本身,是实体识别要做的事。

延伸阅读

参考来源

一手来源

  1. Large Language Models Struggle to Learn Long-Tail Knowledge (Kandpal, Deng, Roberts, Wallace & Raffel, ICML 2023) · arXiv / ICML 2023 (PMLR v202) · 2023-07-27
  2. When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories (Mallen et al., ACL 2023) · ACL 2023 (Long Papers) · 2023-07-02
  3. Introducing the Knowledge Graph: things, not strings · Google (Amit Singhal, The Keyword) · 2012-05-16
  4. Organization structured data (sameAs disambiguation) · Google Search Central · 2026-04-15
  5. sameAs — Schema.org property · Schema.org
  6. Get verified on Google (claim a knowledge panel) · Google Knowledge Panel Help
  7. Wikipedia:Notability — the general notability guideline · Wikipedia (Wikimedia Foundation)
  8. Wikipedia:Paid-contribution disclosure · Wikipedia (Wikimedia Foundation)
  9. Wikidata:Notability · Wikidata (Wikimedia Foundation)
  10. GEO: Generative Engine Optimization (Aggarwal et al., KDD '24) · arXiv / ACM SIGKDD · 2024-08-25

二手来源

  1. AI Platform Citation Patterns (Wikipedia = ChatGPT's most-cited source) · Profound
最近更新: 2026-05-19 作者: Ray Yang 主题: 信号