跳到正文
第 3 步 / 共 8

robots.txt 与访问控制

robots.txt 是手上成本最低、出现也最早的一根杠杆,同时也是面对 AI 爬虫最容易用错的一根。常见的误区是默认一条规则就能管住所有 bot,但各家厂商对协议的遵守程度并不一致;allow 与 disallow 的优先级在真实流量规模下,还有几处足以反咬一口的细节。

本步要读

  1. robots.txt
    Wiki
  2. Google-Extended
    Wiki · 即将上线

读完本步,你应当能回答

  • 怎么写一条只放行特定 AI bot 的 robots.txt 规则?
  • allow 与 disallow 冲突时,优先级到底怎么算?
  • 哪些 AI bot 真的遵守 robots.txt,哪些已有公开案例证明会无视它?