技术 GEO
工程师——爬虫、llms.txt、Schema、渲染、基础设施。
- 面向
- 负责站点基础设施的工程师(DevOps、平台工程、SEO 工程)。
- 建议先掌握
- GEO 入门第 1 步(定义)。
- 走完这条路径后
- 能端到端审计并加固站点的 AI 爬虫接入面。
- AI 爬虫的三种类型
动手之前,先看清是谁在抓你的源站。AI 爬虫分三类:训练用、检索用、用户触发抓取;每一类的访问后果完全不同,决策要按类做,不要按 bot 做。
- 三大 bot 逐个拆:GPTBot、ClaudeBot、PerplexityBot
三大主流 AI 爬虫要分头看。各自的 User-Agent、抓取频率、opt-out 信号都不一样,先从你日志里出现最多的那一个查起。
- robots.txt 与访问控制
技术 GEO 里最早能动的一根杠杆。规则写错,要么对 AI 全员隐身,要么任由抓取却换不回引用;allow 与 disallow 的优先级在真实站点上也有几处容易踩坑的细节。
- llms.txt
一份面向 LLM 的新兴发布约定:比 sitemap 更轻、比 robots.txt 更语义化。本质是一张押在未来的票,不是已经跑通的引用通道。
- Schema.org 与 JSON-LD
Schema.org 不是排名信号,也不是引用信号,它是底层基础设施:让机器读得懂你是谁、和谁有关系。JSON-LD 是今天唯一值得用的序列化形式,Microdata 和 RDFa 已是历史遗留。
- 渲染方式:SSR vs CSR 对 AI 爬虫的差别
内容只有跑完 JavaScript 才看得见,就等于在那批不执行 JS 的 AI 爬虫面前彻底消失。Core Web Vitals 是另一回事:对 AI Overviews 有直接影响,对 ChatGPT 和 Perplexity 基本算噪声。
- Sitemap 与 IndexNow
Sitemap.xml 和 IndexNow 不直接对接 AI 引擎,只能经由宿主搜索的索引中转:AIO 走 Google、Copilot 走 Bing;ChatGPT、Perplexity、Claude 这两个文件都不读。
- 动手做:给自己的站跑一次接入审计
把前面七步对着自己的域名跑一次真实审计。6 层依赖阶梯负责把一堆零散发现整理成排好顺序、能直接放进 sprint 的待办清单。