Sitemap 与 IndexNow
速览要点
- 它们是什么
- 两种 URL 提交协议:sitemap.xml(2005,pull 模式,几乎所有主流搜索引擎都消费)和 IndexNow(2021,push 模式,只有 Microsoft 与 Yandex 阵营消费)
- 对 AI 搜索的作用
- 两者对 AI 搜索可见性的作用都要先走宿主搜索索引:Google AI Overviews 沿用 Google 索引里的 sitemap 行为,Bing Copilot 沿用 Bing 索引里的 sitemap 与 IndexNow;独立答案引擎不读这两份文件
- IndexNow 参与方(2026-05)
- Microsoft Bing、Yandex、Naver、Seznam.cz、Yep。Google 自 2021 年那次测试公告之后没有加入;任何 AI 厂商的第一方爬虫也都没有加入
- 最常见的失误
- 向 IndexNow 推送 URL,期望 ChatGPT、Perplexity 或 Claude 跟着刷新:这是认错了参与名单。IndexNow → Bing → Copilot 是它进入 AI 答案的唯一一条路;独立引擎按自己的节奏抓取
- 在 Answer Loop 里的位置
- 在 AI 爬虫的上游,解决的是发现,不是引用。属于必要条件,不是充分条件:被提交不等于会被原文采用
1. 什么是 sitemap.xml 和 IndexNow
sitemap.xml 和 IndexNow 是两种 URL 提交协议,要解决的问题相邻但并不相同。sitemap.xml 更早,2005 年作为开放标准发布(sitemaps.org),走的是 pull 模式:发布方在固定路径上托管一份 URL 清单,搜索引擎按各自的抓取节奏来取。所有主流搜索爬虫都会消费它,Googlebot、Bingbot、YandexBot 都在其中。
IndexNow 是新的那一种,2021 年由 Microsoft 与 Yandex 联合推出(indexnow.org),走的是 push 模式:发布方在 URL 发生变更的那一刻向一个参与中的 endpoint 发出通知,接收方会在分钟级刷新自己的索引。截至 2026-05 的参与方名单是 Microsoft Bing、Yandex、Naver、Seznam.cz、Yep(indexnow.org)。Google 自 2021 年那次测试公告之后没有加入;任何 AI 厂商的第一方爬虫也都没有加入。
对 GEO 来说,关键的事实在更下一层:这两套机制对 AI 搜索的作用,都要先经过宿主搜索索引这一道。Google AI Overviews 之所以沿用 Google 那一侧的 sitemap 行为,是因为 AIO 的采信(grounding)就建立在 Google 经典网页索引之上;Bing Copilot 同理,沿用 Bing 那一侧的 sitemap 与 IndexNow。独立的答案引擎则不一样:ChatGPT Search、Perplexity、Claude 各自按自己的节奏跑独立的检索(retrieval)爬虫,三家公开的爬虫文档里都没有任何关于读取 sitemap.xml 或 IndexNow 的说明。
在 Answer Loop 的链条上,这一层位于 AI 爬虫 的上游:先发现(你出现在某份 URL 清单里),再抓取(一只爬虫来取你),再可检索(你已经在它的索引里),最后才轮到 可引用性(被读到之后能不能被原文采用)。提交是必要条件,不是充分条件;做对了,你只是拿到一个候选位置,离被引用还差一步。
2. 协议的实际做法
两种协议在五个落地维度上各不相同,一张表过一遍:
| 维度 | sitemap.xml | IndexNow |
|---|---|---|
| 标准 | sitemaps.org(2005,开放协议) | indexnow.org(2021,Microsoft + Yandex) |
| 模式 | Pull:引擎按自身抓取节奏取走 | Push:发布方在 URL 变更时主动通知 |
| 消费方 | Googlebot、Bingbot、YandexBot,以及几乎所有主流搜索爬虫 | Microsoft Bing、Yandex、Naver、Seznam.cz、Yep。Google 没有加入,任何 AI 厂商的第一方爬虫也都没有加入 |
| 延迟 | 小时到天级,看引擎的抓取节奏 | 分钟级,变更时主动推送 |
| 声明位置 | robots.txt 里的 Sitemap: 指令,加上可选的 Search Console / Webmaster Tools 提交 | URL 变更时,向任意一个参与中的 endpoint 发一个 HTTP 请求,带上 URL 与一把 key |
| 规模上限 | 单文件 50,000 条 URL、50 MB(未压缩);超过的站点用 sitemap index(sitemaps.org) | 单批 POST 最多 10,000 条 URL;key 是任意 token,托管在站点根目录 |
IndexNow 在发布方这一端的接口刻意做得很轻:URL 变更时发一次 HTTP 请求,站点根放一个 key 文件,没有 API token,也不需要为每家引擎单独做身份验证。一次最小化的 push 长这样:
# IndexNow 最小 push:只演示原理,不是完整的 client
1. 在站点根托管 <your-key>.txt,文件内容就是 <your-key>
例:https://example.com/abc123.txt → 内容:abc123
2. URL 变更时,GET(单条形式):
https://api.indexnow.org/IndexNow?url=https://example.com/page&key=abc123
或 POST(批量形式,单批最多 10,000 条):
POST https://<participating-engine>/indexnow
Content-Type: application/json
{ "host": "example.com",
"key": "abc123",
"urlList": ["https://example.com/page1", "https://example.com/page2"] }
3. 接收方会把这次提交自动分发给其他 IndexNow 参与方
(Bing → Yandex → Naver → Seznam → Yep)。
只 push 一次,五家全到。
完整的 JSON 形式与各引擎的 endpoint 列表见 官方规范。包括 Cloudflare 在内的 CDN 都提供边缘侧一键开关,可以代为推送 IndexNow(Cloudflare,2021),所以很多站点其实早就在不写一行代码的情况下就发出了 IndexNow 信号。
关于 Google 和 IndexNow 的关系,还得补一句。Google 在 2021 年 11 月宣布过要以可持续性为目标测试这套协议(Search Engine Land,2021-11-09),但测试并没有走到采纳那一步;到 2024 年,独立报道的判断仍然一样(ppc.land,2024-12-30)。落到操作层面就是一句话:一次 IndexNow 推送能到 Bing、Yandex、Naver、Seznam、Yep;由此再继续走到 AI 答案侧的,只剩 Bing Copilot 一家。
3. 各 AI 引擎的影响——对照表
这张表的判定逻辑只有一条:这家 AI 引擎,有没有沿用一个本身就消费这些协议的宿主搜索索引。按这条标准,引擎刚好分成三类。
| AI 引擎 | sitemap.xml | IndexNow | 为什么 |
|---|---|---|---|
| Google AI Overviews | 沿用(经 Google 索引) | 不消费,Google 没有加入 IndexNow | AIO 的采信建立在 Google 经典网页索引之上;通过 Search Console 提交 sitemap 会加速 Google 的发现,候选池资格也跟着上去 |
| Bing Copilot | 沿用(经 Bing 索引) | 沿用(经 Bing 索引) | IndexNow 是 Microsoft 主推的协议;Copilot 沿用 Bing 索引,所以一次推送让 Bing 在分钟级刷新,Copilot 的采信候选池也同步刷新 |
| ChatGPT Search · Perplexity · Claude | 间接:三家各自按自己的节奏跑独立的检索爬虫;robots.txt 里的 Sitemap: 指令可能帮上发现这一步,但并非必需 | 不消费:三家公开的爬虫文档都没提 IndexNow,也没提任何 URL 提交协议 | 每家维护独立的检索索引,对外没有任何一种 URL 提交通道 |
这张表的关键读法是:提交协议要起作用,前提是 AI 引擎沿用了一个本身就消费它们的宿主搜索索引。Google AI Overviews 沿用一处;Bing Copilot 沿用两处(sitemap 加 IndexNow);独立答案引擎一处都不沿用,它们靠自己抓取。所以「推送 IndexNow 就能让 ChatGPT 引用我」这个想法,是把整一个类别的关系搞错了(详见 §6)。
4. 「提交给 AI 索引」:能做什么,不能做什么
在这一层上,从业者问得最多的就是一句:「我怎么把 URL 提交给 ChatGPT、Perplexity 或 Claude?」截至 2026-05,答案是:直接提交,做不到。任何一家主流的独立答案引擎都没有第一方的 URL 提交通道。
真实存在的提交通道(每一种都借助宿主搜索索引,间接抵达 AI 答案侧):
- Google Search Console:sitemap 提交与 URL Inspection 把内容送进 Google 经典网页索引,AI Overviews 直接沿用这套索引(Build and submit a sitemap)
- Bing Webmaster Tools:sitemap 提交与 URL Submit 把内容送进 Bing 索引,Bing Copilot 直接沿用
- IndexNow:推送通知让 Bing 索引(以及 Yandex、Naver、Seznam、Yep 的索引)在分钟级刷新;再经 Bing 抵达 Copilot,是目前延迟最低的一条路径(How to add IndexNow)
不存在的提交通道:
- OpenAI、Anthropic、Perplexity 三家都没有第一方的 URL 提交 API;三家的爬虫文档讲的都是 robots.txt、IP 段白名单和访问策略,对怎么提交 URL 只字未提(OpenAI;Anthropic;Perplexity)
- 「Google 接受 IndexNow」这件事并不成立,是一个反复被问到的误问,Google 至今没有加入这套协议
- 任何一种能一次抵达所有 AI 答案侧的统一通道
一句话:今天并没有「提交给 AI」这回事,能做的只是「提交给宿主搜索索引」,再等 AI 答案侧自己去继承。客户问「我把页面推到哪儿,ChatGPT 或 Perplexity 才看得到」的时候,答案不在哪个提交协议里:它在两件事上——让页面在检索爬虫抵达之后能被原文采用(可引用性),并确保那只爬虫确实能抵达你的页面(AI 爬虫)。
5. sitemap.xml ≠ llms.txt ≠ robots.txt:三个文件,三份工作
任何一份完整的「爬虫与发现」配置里都会出现三个根级别的文件,三者经常被混为一谈。每个文件都只做一件事,并且不去做另外两件。
| 文件 | 它做什么 | 它不做什么 |
|---|---|---|
| robots.txt | 访问控制:决定爬虫能不能抓取某一条路径 | 不列 URL,不传达新鲜度,也不声明完整性 |
| sitemap.xml | 发现 + 完备性:这里列的是我希望被索引的全部页面 | 不做精选,不授予访问权限,也不是质量信号 |
| llms.txt | 精选 + 干净排版:先读这几页,用干净的 markdown | 既不授予也不拒绝访问,不声明完整性,也不传达索引意图 |
最重要的一点:sitemap.xml 不是精选清单,不是访问规则,也不是「最佳页面」目录,而是一份完备性清单。 把 sitemap.xml 改成「只给 AI 引擎看挑过的页面」是用错了协议本身的职能:精选这件事属于 llms.txt;sitemap.xml 必须反映你希望被索引的全部内容,缺失会被引擎当作覆盖不足。同一套三文件对照,从 llms.txt 一侧再看一遍可见 llms.txt §4,两边互相参照就够了。
6. 反模式:提交什么时候适得其反或白做了
下面这几种做法乍听都合理,实际上各有各的错:有的把协议的覆盖面搞错了,有的把参与名单搞错了,有的把文件本身的职能搞错了。
| 反模式 | 听起来对的理由 | 实际为什么错 |
|---|---|---|
| 「推送 IndexNow 之后,页面就会出现在 ChatGPT、Perplexity 或者 Claude 里」 | IndexNow 是开放标准,有些 AI 厂商也说自己「尊重 Web 标准」 | IndexNow 的参与方名单(indexnow.org)只有 Bing、Yandex、Naver、Seznam、Yep,没有任何一家 AI 厂商的爬虫在里面。IndexNow → Bing → Copilot 才是它通往 AI 答案侧的唯一一条路 |
| 「精选 sitemap.xml,只把好的页面给 AI 引擎看」 | 精选听起来正合 GEO 的方向,量少质高 | 用错了 sitemap.xml 的本职。这套协议讲究的是完备性:你希望被索引的全部 URL 都该列进来。引擎把精选后的子集读作覆盖信号,而不是质量信号。精选这件事属于 llms.txt |
「往 sitemap.xml 里塞 noindex 或 canonical 指向别处的 URL,反正越多越好」 | 凭「越多发现越广」的直觉 | 引擎会把 sitemap 与页面信号之间的不一致当作质量信号上的噪声。Google 的 sitemap 文档明确列了哪些 URL 该进、哪些不该进(Build and submit a sitemap) |
| 「往 Google 试一下 IndexNow,反正也不吃亏」 | 推送总比拉取快;最差的结果不过是没动静 | 自 2021 年那次测试公告之后,Google 一直没有加入 IndexNow(Search Engine Land,2021;到 2024 年,独立报道仍是同一判断 ppc.land)。这种提交无处可去,但它在监控面板里制造的噪声是真实存在的。Google 这条路径只能走 Search Console |
提交是一道基本卫生项,不是 GEO 的发力点。 它让你在宿主索引那一头拿到候选资格;至于这份资格会不会被某家 AI 答案侧沿用,要看具体引擎。真正决定你能不能从候选池里被选中的信号在别处:可引用性、E-E-A-T、实体识别。在提交这一层上投入过头(精挑 sitemap、向不参与的引擎推送 IndexNow)拉不动引用;投入不足则连候选资格都丢掉。做对就行,不必反复经营。
7. 这件事对 GEO 意味着什么 + 该怎么做
| 你的需求 | 从这里开始 |
|---|---|
| 让 Google 发现我的站点,从而获得 AIO 候选资格 | Google Search Console 的 sitemap 提交(Build and submit a sitemap)+ robots.txt 里的 Sitemap: 指令 |
| 让 Bing 发现我的站点,从而获得 Copilot 候选资格 | Bing Webmaster Tools 的 sitemap + IndexNow 接入(How to add IndexNow) |
| 让新 URL 在分钟级被 Bing / Copilot 拿到 | 按 indexnow.org/documentation 接 IndexNow;最小调用形式见 §2 |
| 让 ChatGPT、Perplexity 或者 Claude 引用我 | 目前没有提交通道,把精力放到 可引用性,同时确保检索爬虫能抵达页面(见 AI 爬虫) |
| 把索引覆盖和爬虫访问一起放进一次 GEO 整体审计 | GEO 审计:sitemap 是否存在、爬虫能否抵达,是两个检查项 |
| 让爬虫到了页面之后能真正解析出内容 | SSR for AI Crawlers:另一类问题,另一种修法 |
| 在协议层面管控爬虫访问 | AI 爬虫 · robots.txt |
| 区分 sitemap.xml、llms.txt、robots.txt | 见上文 §5;同一组对照从 llms.txt 一侧再看一遍可见 llms.txt §4 |
sitemap.xml 是 GEO 绝不能放掉的基本卫生项;IndexNow 对经 Bing Copilot 抵达的那部分 AI 曝光来说,是一笔成本极低、值得做的投入。 两者都不是 GEO 的发力点;发力点仍然在 可引用性、E-E-A-T、实体识别。把索引这一层做对,再把边际投入花到真正决定引用的地方去。
参考资料
一手来源(协议规范):
- sitemaps.org — Sitemaps XML format — Protocol(2005 年起的开放标准)
- indexnow.org — Documentation · Homepage(参与方名单)
一手来源(引擎文档):
- Google Search Central — Build and submit a sitemap
- Microsoft Bing — How to add IndexNow to your website · Bing Webmaster Guidelines
- OpenAI — Overview of OpenAI Crawlers(无 URL 提交协议相关说明)
- Anthropic — Does Anthropic crawl data from the web(无 URL 提交协议相关说明)
- Perplexity — Perplexity Crawlers(无 URL 提交协议相关说明)
一手来源(历史锚点):
- Search Engine Land — Google is testing the IndexNow protocol for sustainability(2021-11-09;那次没有转化为采纳的测试公告)
二手来源(独立报道与基础设施):
- ppc.land — Google’s absence from IndexNow raises questions about web indexing standards(2024-12-30;对当前状态的判断)
- Cloudflare — Cloudflare now supports IndexNow(2021-10-18;边缘代为推送 IndexNow)
- Search Engine Land — IndexNow — new initiative by Microsoft and Yandex(2021-10-18;上线时的独立报道)
常见问题
提交 sitemap 或推送 IndexNow,能让我的页面被 AI 搜索引擎引用吗?
Google 现在接受 IndexNow 提交吗?
ChatGPT Search、Perplexity、Claude 会读 sitemap.xml 或 IndexNow 吗?
我能不能挑着写 sitemap.xml,只把好的页面给 AI 引擎看?
今天该怎么把 URL 提交给 AI 引擎?
延伸阅读
参考来源
一手来源
- Sitemaps XML format — Protocol · sitemaps.org
- IndexNow — Documentation · indexnow.org
- IndexNow — homepage (participating engines) · indexnow.org
- How to add IndexNow to your website (Bing Webmaster Tools) · Microsoft Bing
- Build and submit a sitemap · Google Search Central · 2025-12-10
- Bing Webmaster Guidelines · Microsoft Bing
- Overview of OpenAI Crawlers (GPTBot / OAI-SearchBot / ChatGPT-User) · OpenAI
- Does Anthropic crawl data from the web, and how can site owners block the crawler? · Anthropic · 2026-04-07
- Perplexity Crawlers · Perplexity AI
- Google is testing the IndexNow protocol for sustainability · Search Engine Land · 2021-11-09