跳到正文
第 1 步 / 共 8

AI 爬虫的三种类型

动手改 robots.txt 之前,先看清「是谁在抓、为了什么」。三类爬虫的访问后果完全不同:拦错一类,最后挡掉的很可能是引用通道,训练通道反倒留着,这是这一层代价最高的一种错误。

本步要读

  1. AI 爬虫
    Wiki
  2. ChatGPT-User
    Wiki · 即将上线

读完本步,你应当能回答

  • 主流 AI 爬虫都有哪些?如何通过 User-Agent 把它们认出来?
  • 为什么有的引擎从不抓你,却照样能引用你?
  • 哪些爬虫是在训练模型,哪些是在用户提问的当下实时抓取?