技术 GEO

工程师——爬虫、llms.txt、Schema、渲染、基础设施。

面向: 负责站点基础设施的工程师（DevOps、平台工程、SEO 工程）。
建议先掌握: GEO 入门第 1 步（定义）。
走完这条路径后: 能端到端审计并加固站点的 AI 爬虫接入面。

AI 爬虫的三种类型
动手之前，先看清是谁在抓你的源站。AI 爬虫分三类：训练用、检索用、用户触发抓取；每一类的访问后果完全不同，决策要按类做，不要按 bot 做。
三大 bot 逐个拆：GPTBot、ClaudeBot、PerplexityBot
三大主流 AI 爬虫要分头看。各自的 User-Agent、抓取频率、opt-out 信号都不一样，先从你日志里出现最多的那一个查起。
robots.txt 与访问控制
技术 GEO 里最早能动的一根杠杆。规则写错，要么对 AI 全员隐身，要么任由抓取却换不回引用；allow 与 disallow 的优先级在真实站点上也有几处容易踩坑的细节。
llms.txt
一份面向 LLM 的新兴发布约定：比 sitemap 更轻、比 robots.txt 更语义化。本质是一张押在未来的票，不是已经跑通的引用通道。
Schema.org 与 JSON-LD
Schema.org 不是排名信号，也不是引用信号，它是底层基础设施：让机器读得懂你是谁、和谁有关系。JSON-LD 是今天唯一值得用的序列化形式，Microdata 和 RDFa 已是历史遗留。
渲染方式：SSR vs CSR 对 AI 爬虫的差别
内容只有跑完 JavaScript 才看得见，就等于在那批不执行 JS 的 AI 爬虫面前彻底消失。Core Web Vitals 是另一回事：对 AI Overviews 有直接影响，对 ChatGPT 和 Perplexity 基本算噪声。
Sitemap 与 IndexNow
Sitemap.xml 和 IndexNow 不直接对接 AI 引擎，只能经由宿主搜索的索引中转：AIO 走 Google、Copilot 走 Bing；ChatGPT、Perplexity、Claude 这两个文件都不读。
动手做：给自己的站跑一次接入审计
把前面七步对着自己的域名跑一次真实审计。6 层依赖阶梯负责把一堆零散发现整理成排好顺序、能直接放进 sprint 的待办清单。