技术 GEO 进阶
第 3 步 / 共 8
robots.txt 与访问控制
robots.txt 是手上成本最低、出现也最早的一根杠杆,同时也是面对 AI 爬虫最容易用错的一根。常见的误区是默认一条规则就能管住所有 bot,但各家厂商对协议的遵守程度并不一致;allow 与 disallow 的优先级在真实流量规模下,还有几处足以反咬一口的细节。
本步要读
- robots.txt Wiki
- Google-Extended Wiki · 即将上线
读完本步,你应当能回答
- 怎么写一条只放行特定 AI bot 的 robots.txt 规则?
- allow 与 disallow 冲突时,优先级到底怎么算?
- 哪些 AI bot 真的遵守 robots.txt,哪些已有公开案例证明会无视它?