跳到正文

← 学习路径

技术 GEO

工程师——爬虫、llms.txt、Schema、渲染、基础设施。

面向
负责站点基础设施的工程师(DevOps、平台工程、SEO 工程)。
建议先掌握
GEO 入门第 1 步(定义)。
走完这条路径后
能端到端审计并加固站点的 AI 爬虫接入面。
  1. AI 爬虫的三种类型

    动手之前,先看清是谁在抓你的源站。AI 爬虫分三类:训练用、检索用、用户触发抓取;每一类的访问后果完全不同,决策要按类做,不要按 bot 做。

  2. 三大 bot 逐个拆:GPTBot、ClaudeBot、PerplexityBot

    三大主流 AI 爬虫要分头看。各自的 User-Agent、抓取频率、opt-out 信号都不一样,先从你日志里出现最多的那一个查起。

  3. robots.txt 与访问控制

    技术 GEO 里最早能动的一根杠杆。规则写错,要么对 AI 全员隐身,要么任由抓取却换不回引用;allow 与 disallow 的优先级在真实站点上也有几处容易踩坑的细节。

  4. llms.txt

    一份面向 LLM 的新兴发布约定:比 sitemap 更轻、比 robots.txt 更语义化。本质是一张押在未来的票,不是已经跑通的引用通道。

  5. Schema.org 与 JSON-LD

    Schema.org 不是排名信号,也不是引用信号,它是底层基础设施:让机器读得懂你是谁、和谁有关系。JSON-LD 是今天唯一值得用的序列化形式,Microdata 和 RDFa 已是历史遗留。

  6. 渲染方式:SSR vs CSR 对 AI 爬虫的差别

    内容只有跑完 JavaScript 才看得见,就等于在那批不执行 JS 的 AI 爬虫面前彻底消失。Core Web Vitals 是另一回事:对 AI Overviews 有直接影响,对 ChatGPT 和 Perplexity 基本算噪声。

  7. Sitemap 与 IndexNow

    Sitemap.xml 和 IndexNow 不直接对接 AI 引擎,只能经由宿主搜索的索引中转:AIO 走 Google、Copilot 走 Bing;ChatGPT、Perplexity、Claude 这两个文件都不读。

  8. 动手做:给自己的站跑一次接入审计

    把前面七步对着自己的域名跑一次真实审计。6 层依赖阶梯负责把一堆零散发现整理成排好顺序、能直接放进 sprint 的待办清单。