跳到正文
标准 · 基础设施

Sitemap 与 IndexNow

速览要点

它们是什么
两种 URL 提交协议:sitemap.xml(2005,pull 模式,几乎所有主流搜索引擎都消费)和 IndexNow(2021,push 模式,只有 Microsoft 与 Yandex 阵营消费)
对 AI 搜索的作用
两者对 AI 搜索可见性的作用都要先走宿主搜索索引:Google AI Overviews 沿用 Google 索引里的 sitemap 行为,Bing Copilot 沿用 Bing 索引里的 sitemap 与 IndexNow;独立答案引擎不读这两份文件
IndexNow 参与方(2026-05)
Microsoft Bing、Yandex、Naver、Seznam.cz、Yep。Google 自 2021 年那次测试公告之后没有加入;任何 AI 厂商的第一方爬虫也都没有加入
最常见的失误
向 IndexNow 推送 URL,期望 ChatGPT、Perplexity 或 Claude 跟着刷新:这是认错了参与名单。IndexNow → Bing → Copilot 是它进入 AI 答案的唯一一条路;独立引擎按自己的节奏抓取
在 Answer Loop 里的位置
在 AI 爬虫的上游,解决的是发现,不是引用。属于必要条件,不是充分条件:被提交不等于会被原文采用

1. 什么是 sitemap.xml 和 IndexNow

sitemap.xml 和 IndexNow 是两种 URL 提交协议,要解决的问题相邻但并不相同。sitemap.xml 更早,2005 年作为开放标准发布(sitemaps.org),走的是 pull 模式:发布方在固定路径上托管一份 URL 清单,搜索引擎按各自的抓取节奏来取。所有主流搜索爬虫都会消费它,Googlebot、Bingbot、YandexBot 都在其中。

IndexNow 是新的那一种,2021 年由 Microsoft 与 Yandex 联合推出(indexnow.org),走的是 push 模式:发布方在 URL 发生变更的那一刻向一个参与中的 endpoint 发出通知,接收方会在分钟级刷新自己的索引。截至 2026-05 的参与方名单是 Microsoft Bing、Yandex、Naver、Seznam.cz、Yepindexnow.org)。Google 自 2021 年那次测试公告之后没有加入;任何 AI 厂商的第一方爬虫也都没有加入。

对 GEO 来说,关键的事实在更下一层:这两套机制对 AI 搜索的作用,都要先经过宿主搜索索引这一道。Google AI Overviews 之所以沿用 Google 那一侧的 sitemap 行为,是因为 AIO 的采信(grounding)就建立在 Google 经典网页索引之上;Bing Copilot 同理,沿用 Bing 那一侧的 sitemap 与 IndexNow。独立的答案引擎则不一样:ChatGPT SearchPerplexityClaude 各自按自己的节奏跑独立的检索(retrieval)爬虫,三家公开的爬虫文档里都没有任何关于读取 sitemap.xml 或 IndexNow 的说明。

在 Answer Loop 的链条上,这一层位于 AI 爬虫上游:先发现(你出现在某份 URL 清单里),再抓取(一只爬虫来取你),再可检索(你已经在它的索引里),最后才轮到 可引用性(被读到之后能不能被原文采用)。提交是必要条件,不是充分条件;做对了,你只是拿到一个候选位置,离被引用还差一步。

2. 协议的实际做法

两种协议在五个落地维度上各不相同,一张表过一遍:

维度sitemap.xmlIndexNow
标准sitemaps.org(2005,开放协议)indexnow.org(2021,Microsoft + Yandex)
模式Pull:引擎按自身抓取节奏取走Push:发布方在 URL 变更时主动通知
消费方Googlebot、Bingbot、YandexBot,以及几乎所有主流搜索爬虫Microsoft Bing、Yandex、Naver、Seznam.cz、Yep。Google 没有加入,任何 AI 厂商的第一方爬虫也都没有加入
延迟小时到天级,看引擎的抓取节奏分钟级,变更时主动推送
声明位置robots.txt 里的 Sitemap: 指令,加上可选的 Search Console / Webmaster Tools 提交URL 变更时,向任意一个参与中的 endpoint 发一个 HTTP 请求,带上 URL 与一把 key
规模上限单文件 50,000 条 URL、50 MB(未压缩);超过的站点用 sitemap index(sitemaps.org单批 POST 最多 10,000 条 URL;key 是任意 token,托管在站点根目录

IndexNow 在发布方这一端的接口刻意做得很轻:URL 变更时发一次 HTTP 请求,站点根放一个 key 文件,没有 API token,也不需要为每家引擎单独做身份验证。一次最小化的 push 长这样:

# IndexNow 最小 push:只演示原理,不是完整的 client

1. 在站点根托管 <your-key>.txt,文件内容就是 <your-key>
   例:https://example.com/abc123.txt  →  内容:abc123

2. URL 变更时,GET(单条形式):
   https://api.indexnow.org/IndexNow?url=https://example.com/page&key=abc123

   或 POST(批量形式,单批最多 10,000 条):
   POST https://<participating-engine>/indexnow
   Content-Type: application/json
   { "host": "example.com",
     "key": "abc123",
     "urlList": ["https://example.com/page1", "https://example.com/page2"] }

3. 接收方会把这次提交自动分发给其他 IndexNow 参与方
   (Bing → Yandex → Naver → Seznam → Yep)。
   只 push 一次,五家全到。

完整的 JSON 形式与各引擎的 endpoint 列表见 官方规范。包括 Cloudflare 在内的 CDN 都提供边缘侧一键开关,可以代为推送 IndexNow(Cloudflare,2021),所以很多站点其实早就在不写一行代码的情况下就发出了 IndexNow 信号。

关于 Google 和 IndexNow 的关系,还得补一句。Google 在 2021 年 11 月宣布过要以可持续性为目标测试这套协议(Search Engine Land,2021-11-09),但测试并没有走到采纳那一步;到 2024 年,独立报道的判断仍然一样(ppc.land,2024-12-30)。落到操作层面就是一句话:一次 IndexNow 推送能到 Bing、Yandex、Naver、Seznam、Yep;由此再继续走到 AI 答案侧的,只剩 Bing Copilot 一家。

3. 各 AI 引擎的影响——对照表

这张表的判定逻辑只有一条:这家 AI 引擎,有没有沿用一个本身就消费这些协议的宿主搜索索引。按这条标准,引擎刚好分成三类。

AI 引擎sitemap.xmlIndexNow为什么
Google AI Overviews沿用(经 Google 索引)不消费,Google 没有加入 IndexNowAIO 的采信建立在 Google 经典网页索引之上;通过 Search Console 提交 sitemap 会加速 Google 的发现,候选池资格也跟着上去
Bing Copilot沿用(经 Bing 索引)沿用(经 Bing 索引)IndexNow 是 Microsoft 主推的协议;Copilot 沿用 Bing 索引,所以一次推送让 Bing 在分钟级刷新,Copilot 的采信候选池也同步刷新
ChatGPT Search · Perplexity · Claude间接:三家各自按自己的节奏跑独立的检索爬虫;robots.txt 里的 Sitemap: 指令可能帮上发现这一步,但并非必需不消费:三家公开的爬虫文档都没提 IndexNow,也没提任何 URL 提交协议每家维护独立的检索索引,对外没有任何一种 URL 提交通道

这张表的关键读法是:提交协议要起作用,前提是 AI 引擎沿用了一个本身就消费它们的宿主搜索索引。Google AI Overviews 沿用一处;Bing Copilot 沿用两处(sitemap 加 IndexNow);独立答案引擎一处都不沿用,它们靠自己抓取。所以「推送 IndexNow 就能让 ChatGPT 引用我」这个想法,是把整一个类别的关系搞错了(详见 §6)。

4. 「提交给 AI 索引」:能做什么,不能做什么

在这一层上,从业者问得最多的就是一句:「我怎么把 URL 提交给 ChatGPT、Perplexity 或 Claude?」截至 2026-05,答案是:直接提交,做不到。任何一家主流的独立答案引擎都没有第一方的 URL 提交通道。

真实存在的提交通道(每一种都借助宿主搜索索引,间接抵达 AI 答案侧):

  • Google Search Console:sitemap 提交与 URL Inspection 把内容送进 Google 经典网页索引,AI Overviews 直接沿用这套索引(Build and submit a sitemap
  • Bing Webmaster Tools:sitemap 提交与 URL Submit 把内容送进 Bing 索引,Bing Copilot 直接沿用
  • IndexNow:推送通知让 Bing 索引(以及 Yandex、Naver、Seznam、Yep 的索引)在分钟级刷新;再经 Bing 抵达 Copilot,是目前延迟最低的一条路径(How to add IndexNow

不存在的提交通道

  • OpenAI、Anthropic、Perplexity 三家都没有第一方的 URL 提交 API;三家的爬虫文档讲的都是 robots.txt、IP 段白名单和访问策略,对怎么提交 URL 只字未提(OpenAIAnthropicPerplexity
  • 「Google 接受 IndexNow」这件事并不成立,是一个反复被问到的误问,Google 至今没有加入这套协议
  • 任何一种能一次抵达所有 AI 答案侧的统一通道

一句话:今天并没有「提交给 AI」这回事,能做的只是「提交给宿主搜索索引」,再等 AI 答案侧自己去继承。客户问「我把页面推到哪儿,ChatGPT 或 Perplexity 才看得到」的时候,答案不在哪个提交协议里:它在两件事上——让页面在检索爬虫抵达之后能被原文采用(可引用性),并确保那只爬虫确实能抵达你的页面(AI 爬虫)。

5. sitemap.xml ≠ llms.txt ≠ robots.txt:三个文件,三份工作

任何一份完整的「爬虫与发现」配置里都会出现三个根级别的文件,三者经常被混为一谈。每个文件都只做一件事,并且不去做另外两件。

文件它做什么它不做什么
robots.txt访问控制:决定爬虫能不能抓取某一条路径不列 URL,不传达新鲜度,也不声明完整性
sitemap.xml发现 + 完备性:这里列的是我希望被索引的全部页面不做精选,不授予访问权限,也不是质量信号
llms.txt精选 + 干净排版:先读这几页,用干净的 markdown既不授予也不拒绝访问,不声明完整性,也不传达索引意图

最重要的一点:sitemap.xml 不是精选清单,不是访问规则,也不是「最佳页面」目录,而是一份完备性清单。 把 sitemap.xml 改成「只给 AI 引擎看挑过的页面」是用错了协议本身的职能:精选这件事属于 llms.txt;sitemap.xml 必须反映你希望被索引的全部内容,缺失会被引擎当作覆盖不足。同一套三文件对照,从 llms.txt 一侧再看一遍可见 llms.txt §4,两边互相参照就够了。

6. 反模式:提交什么时候适得其反或白做了

下面这几种做法乍听都合理,实际上各有各的错:有的把协议的覆盖面搞错了,有的把参与名单搞错了,有的把文件本身的职能搞错了。

反模式听起来对的理由实际为什么错
「推送 IndexNow 之后,页面就会出现在 ChatGPT、Perplexity 或者 Claude 里」IndexNow 是开放标准,有些 AI 厂商也说自己「尊重 Web 标准」IndexNow 的参与方名单(indexnow.org)只有 Bing、Yandex、Naver、Seznam、Yep,没有任何一家 AI 厂商的爬虫在里面。IndexNow → Bing → Copilot 才是它通往 AI 答案侧的唯一一条路
「精选 sitemap.xml,只把好的页面给 AI 引擎看」精选听起来正合 GEO 的方向,量少质高用错了 sitemap.xml 的本职。这套协议讲究的是完备性:你希望被索引的全部 URL 都该列进来。引擎把精选后的子集读作覆盖信号,而不是质量信号。精选这件事属于 llms.txt
「往 sitemap.xml 里塞 noindex 或 canonical 指向别处的 URL,反正越多越好」凭「越多发现越广」的直觉引擎会把 sitemap 与页面信号之间的不一致当作质量信号上的噪声。Google 的 sitemap 文档明确列了哪些 URL 该进、哪些不该进(Build and submit a sitemap
「往 Google 试一下 IndexNow,反正也不吃亏」推送总比拉取快;最差的结果不过是没动静自 2021 年那次测试公告之后,Google 一直没有加入 IndexNow(Search Engine Land,2021;到 2024 年,独立报道仍是同一判断 ppc.land)。这种提交无处可去,但它在监控面板里制造的噪声是真实存在的。Google 这条路径只能走 Search Console

提交是一道基本卫生项,不是 GEO 的发力点。 它让你在宿主索引那一头拿到候选资格;至于这份资格会不会被某家 AI 答案侧沿用,要看具体引擎。真正决定你能不能从候选池里被选中的信号在别处:可引用性E-E-A-T实体识别。在提交这一层上投入过头(精挑 sitemap、向不参与的引擎推送 IndexNow)拉不动引用;投入不足则连候选资格都丢掉。做对就行,不必反复经营。

7. 这件事对 GEO 意味着什么 + 该怎么做

你的需求从这里开始
让 Google 发现我的站点,从而获得 AIO 候选资格Google Search Console 的 sitemap 提交(Build and submit a sitemap)+ robots.txt 里的 Sitemap: 指令
让 Bing 发现我的站点,从而获得 Copilot 候选资格Bing Webmaster Tools 的 sitemap + IndexNow 接入(How to add IndexNow
让新 URL 在分钟级被 Bing / Copilot 拿到indexnow.org/documentation 接 IndexNow;最小调用形式见 §2
让 ChatGPT、Perplexity 或者 Claude 引用我目前没有提交通道,把精力放到 可引用性,同时确保检索爬虫能抵达页面(见 AI 爬虫
把索引覆盖和爬虫访问一起放进一次 GEO 整体审计GEO 审计:sitemap 是否存在、爬虫能否抵达,是两个检查项
让爬虫到了页面之后能真正解析出内容SSR for AI Crawlers:另一类问题,另一种修法
在协议层面管控爬虫访问AI 爬虫 · robots.txt
区分 sitemap.xml、llms.txt、robots.txt见上文 §5;同一组对照从 llms.txt 一侧再看一遍可见 llms.txt §4

sitemap.xml 是 GEO 绝不能放掉的基本卫生项;IndexNow 对经 Bing Copilot 抵达的那部分 AI 曝光来说,是一笔成本极低、值得做的投入。 两者都不是 GEO 的发力点;发力点仍然在 可引用性E-E-A-T实体识别。把索引这一层做对,再把边际投入花到真正决定引用的地方去。

参考资料

一手来源(协议规范):

一手来源(引擎文档):

一手来源(历史锚点):

二手来源(独立报道与基础设施):

常见问题

提交 sitemap 或推送 IndexNow,能让我的页面被 AI 搜索引擎引用吗?
只能间接做到,并且只对那些复用了宿主索引的引擎管用。提交 sitemap 让 Google 把你收进索引,你才进得了 Google AI Overviews 的候选池;提交 sitemap 或推送 IndexNow 让 Bing 把你收进索引,你才进得了 Bing Copilot 的候选池。ChatGPT Search、Perplexity、Claude 各自按自己的节奏跑独立的检索爬虫,三家公开的爬虫文档都没有提到读取 sitemap.xml 或 IndexNow([OpenAI](https://platform.openai.com/docs/bots);[Anthropic](https://support.claude.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler);[Perplexity](https://docs.perplexity.ai/guides/bots))。提交只是拿到候选资格的必要条件,并不能保证你被引用。
Google 现在接受 IndexNow 提交吗?
截至 2026-05,不接受。Google 在 2021 年 11 月宣布要测试这套协议([Search Engine Land](https://searchengineland.com/google-is-testing-the-indexnow-protocol-for-sustainability-375932)),但一直没有真正加入;到 2024 年,独立报道的判断仍然一样([ppc.land,2024-12-30](https://ppc.land/googles-absence-from-indexnow-raises-questions-about-web-indexing-standards/))。在 Google 这一侧,可用的提交通道仍然是 robots.txt 里的 `Sitemap:` 指令、Search Console 的 sitemap 提交,以及 URL Inspection;另外还有一个用途非常窄的 Indexing API,只接收招聘启事与直播内容。
ChatGPT Search、Perplexity、Claude 会读 sitemap.xml 或 IndexNow 吗?
三家爬虫文档里都没有写到读取这两份文件。OpenAI、Anthropic、Perplexity 的公开爬虫页讲的都是 robots.txt、IP 段白名单和访问策略,对 URL 提交只字未提。落到操作上,它们的检索爬虫会按自己的节奏来找你的页面,所以真正值得投入的两件事是:让爬虫能抵达页面([AI 爬虫](/zh/ai-crawlers)),让它读到之后能直接采用你的原文([可引用性](/zh/citability)),而不是去找一个提交协议。
我能不能挑着写 sitemap.xml,只把好的页面给 AI 引擎看?
不能,这种做法用错了协议本身。sitemap.xml 是一份完备性清单:你希望被索引的全部 URL 都该列进这同一份规范文件里。引擎把精选过的子集当作覆盖缺口来读,而不是质量信号;Google 自己的 sitemap 文档也明确列出了哪些 URL 应该进、哪些不该进([Build and submit a sitemap](https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap))。精选属于 [llms.txt](/zh/llms-txt) 要做的事,访问控制属于 [robots.txt](/zh/robots-txt) 要做的事;sitemap.xml 表达的是「我希望被索引的内容全部在这里」。
今天该怎么把 URL 提交给 AI 引擎?
任何一家主流的独立答案引擎都没有第一方的「提交给 AI」通道。能走的路径只有一条:先提交给宿主搜索索引,让 AI 答案侧顺势沿用。能用的通道也就两组:Google Search Console(对应 AIO)、Bing Webmaster Tools 或 IndexNow(对应 Copilot)。至于 ChatGPT、Perplexity、Claude,发力点比这更靠前:把 robots 策略写对,让检索爬虫到达时拿到一份干净的 SSR 响应([SSR for AI Crawlers](/zh/ssr-for-ai-crawlers)),并把页面写成读完就能被原文采用的样子([可引用性](/zh/citability))。

延伸阅读

参考来源

一手来源

  1. Sitemaps XML format — Protocol · sitemaps.org
  2. IndexNow — Documentation · indexnow.org
  3. IndexNow — homepage (participating engines) · indexnow.org
  4. How to add IndexNow to your website (Bing Webmaster Tools) · Microsoft Bing
  5. Build and submit a sitemap · Google Search Central · 2025-12-10
  6. Bing Webmaster Guidelines · Microsoft Bing
  7. Overview of OpenAI Crawlers (GPTBot / OAI-SearchBot / ChatGPT-User) · OpenAI
  8. Does Anthropic crawl data from the web, and how can site owners block the crawler? · Anthropic · 2026-04-07
  9. Perplexity Crawlers · Perplexity AI
  10. Google is testing the IndexNow protocol for sustainability · Search Engine Land · 2021-11-09

二手来源

  1. Google's absence from IndexNow raises questions about web indexing standards · ppc.land
  2. Cloudflare now supports IndexNow · Cloudflare
  3. IndexNow — new initiative by Microsoft and Yandex to push content to search engines · Search Engine Land
最近更新: 2026-05-23 作者: Ray Yang 主题: 基础设施