Perplexity AI
速览要点
- 运营方
- Perplexity
- 创立时间
- 2022
- 官方文档
- https://docs.perplexity.ai
- 引擎类别
- 原生答案引擎:实时检索网络是默认路径,而非附加能力
- 引用行为
- 每条答案默认都带编号、可点击的内联引用(citation)
- 爬虫
- PerplexityBot(建索引)· Perplexity-User(用户触发的实时取回)
- 程序化接入
- Sonar API,返回答案以及 citations / search_results 来源数组
- GEO 意义
- GEO 奠基基准论文(Aggarwal 等,KDD '24)采用的实测引擎基线
爬虫 User-Agent
- PerplexityBot
- Perplexity-User
1. Perplexity AI 是什么
Perplexity 自我定位为答案引擎(answer engine),既不是搜索引擎,也不是聊天机器人。它「实时检索互联网」,并把「答案直接给在前面,附带来源与引用(citation)」,而不是给一列链接(见 Perplexity 官方技术 FAQ)。
在生成式引擎的分类里,Perplexity 属于原生答案引擎——实时检索是默认方式,每条答案天生引用密集。Perplexity 之所以是优先级最高的平台条目,正因为采信(grounding)在这里看得见,用它来讲清引用 vs 提及模型最为直观。
同名的有三件不同的东西,先分清楚:
| 名称 | 是什么 |
|---|---|
| Perplexity AI | 产品 / 生成式引擎本体(即本页) |
| PerplexityBot / Perplexity-User | 检索爬虫与 2024 年的 robots.txt 争议——见 PerplexityBot |
| Perplexity(公司) | 公司主体、融资、Pro 订阅——见 Perplexity(公司) |
2. 它如何工作
Perplexity 是通用 Answer Loop 的一个实例:查询改写或扩展 → 实时检索网络 → 采信(grounding)选段 → LLM 合成 → 编号引用回填。下面列出这个平台特有的差异。
| 平台特有的特性 | 它如何改变 GEO |
|---|---|
| 默认就实时检索 | 能否被命中取决于一次实时取回,而非一份预建索引,更接近「此刻是否可检索」而非「排名第几」 |
| 后端模型可替换 | 合成所用的 LLM 会变,你能掌控的只是被检索、被采信这一步,而非模型本身 |
| Pro Search(多步检索) | 把一个问题拆成多个子查询,比拼话题覆盖广度,而非某个精确匹配的页面 |
| Focus / 来源域过滤 | 用户可限定来源(如学术或社交),因此某一领域内的权威度会被单独筛出 |
| Spaces | 持久化集合会反复重新检索来源,长期保持可检索会持续累积优势 |
选段这一步偏好可检索、结构清晰、可直接引述的段落。可引用性在 Perplexity 上之所以格外吃重,根源就在这里:相比任何 SERP 内嵌型引擎,这里真正算赢的是一个可被取用的内容块(chunk),而不是一个排名靠前的页面。
3. 爬虫与 user-agent
Perplexity 运营两个有文档记载的爬虫——下面是摘要与速查;爬虫识别、IP 校验、以及 2024 年的 robots.txt 争议与事件时间线,见 PerplexityBot。
| User-agent | 用途 | robots.txt | 典型触发场景 |
|---|---|---|---|
PerplexityBot | 在 Perplexity 搜索结果中收录并链接站点,不用于训练基础模型 | 文档说明遵守 robots.txt,禁止它则页面正文不被收录 | 后台建索引的抓取 |
Perplexity-User | 为回答某个具体用户问题而访问页面 | 由用户发起,因此通常不套用 robots.txt 限制 | 真实用户的提问需要这个页面 |
两个 user-agent 都发布了 IP 段 JSON 端点,可用来做白名单校验(见 Perplexity Crawlers 与 Perplexity 如何遵守 robots.txt)。是否放行、怎样校验真伪、以及围绕访问控制的争论,都属于审计议题,见 PerplexityBot。
4. 引用偏好
这一节对 GEO 的价值最大。由于 Perplexity 天生引用密集,它倾向于引用什么、又跳过什么,可以直接转化为可执行的动作。
| 高频被引 | 高频被跳过 | 它隐含的信号 |
|---|---|---|
| 结构清晰、标题层级分明的页面 | 取回时无法渲染的、强依赖 JavaScript 的内容 | 服务端渲染、保证可检索,见 PerplexityBot |
| 具体的事实、数字、日期 | 没有可取用断言的空泛营销文案 | 事实密度,见 GEO |
| 自包含、可直接引述的段落 | 只有在整页语境里才说得通的内容 | 内容块独立性,见 可引用性 |
| 新近、带日期的材料 | 陈旧或无日期的页面 | 时效性与可见的日期 |
| 该话题下的权威域 | 登录墙或付费墙后的正文 | 来源权威度与开放可读 |
和其他类别的引擎对比,一句话就够:相比 Google AI Overviews 这类 SERP 内嵌型引擎,Perplexity 单条答案给出的引用更多;相比 ChatGPT Search 这类检索增强对话型,它把引用呈现得更显眼。引用密度越高,结构性可引用性在这里能起的作用就比在别处都大。
5. API 与接入
Sonar API 是程序化接口:它既返回合成后的答案,也返回答案背后的来源。Perplexity 对 GEO 之所以可度量,根源正在于此。
| 返回字段 | 内容 |
|---|---|
choices | 合成后的答案,沿用 OpenAI 兼容的响应结构 |
citations | 用于生成本次答案的来源 URL |
search_results | 逐来源对象:title、url、date、snippet、source |
模型档位从 sonar(轻量的带采信检索)、sonar-pro(复杂查询与追问),到 sonar-reasoning-pro 与 sonar-deep-research(见 Sonar 模型与 Chat Completions 参考)。对 GEO 而言,重点不在有哪些模型可选,而在 citations、search_results 让「我的内容是否被引用」变成一个可以自动化查询的问题,AI 引用追踪 也正是据此把这台引擎作为基准。完整的 API 参考请查阅官方文档。
6. 历史与时间线
这里只记录与 GEO 相关的里程碑,即影响检索、引用或可见度机制的变更。融资轮次见 Perplexity(公司),爬虫争议时间线见 PerplexityBot。
| 日期 | 里程碑 | 对 GEO 的意义 |
|---|---|---|
| 2022 年 12 月 | 公开上线 | 首个进入主流的引用密集型答案引擎 |
| 2023–2024 年 | Copilot 演进为 Pro Search | 多步检索,胜出的是话题覆盖而非单个页面 |
| 2024 年 5 月 | Pages | Perplexity 自动生成的页面本身就是一类带来源引用的内容呈现面 |
| 2025 年 1 月 | Sonar / Sonar Pro API | 引用变得可程序化抽取,GEO 度量得以规模化 |
| 2025 年 2 月 | Deep Research | 长篇多源报告抬高了对来源权威度与深度的门槛 |
| 2025 年 9 月 | Search API | 一个与对话补全分开、专用于检索的接口 |
(日期取自 Perplexity 官方博客与 TechCrunch,其中 Copilot 更名 Pro Search 的月份为近似值。)
7. 实测引用行为
Perplexity 不只是一台引擎,它是GEO 研究反复选用的那台实测引擎基线:它的引用可程序化抽取,因而结果可复现。
奠基论文 GEO: Generative Engine Optimization(Aggarwal 等,KDD ‘24;arXiv:2311.09735)测试了两台引擎:一套内部 GPT-3.5 装置,以及作为真实世界检验的 Perplexity.ai。内容实质类改写,即加入引用、统计数据、引述,在内部装置上把论文的可见度指标提升至多约 40%,但在真实的 Perplexity.ai 上仅至多约 22%。
按论文自身的口径,这个数字要放在它的适用范围内来理解:
- 它是一个分方法、分领域的上限,针对的是 2023–2024 形态的引擎,不能当作普遍可期的结果。
- 它不能跨引擎、跨领域外推,同样的改写在 ChatGPT Search 或 Google AI Overviews 上表现并不一样。
- C-SEO Bench(Puerto 等)给出了反证:一旦多方对同一引擎同时做优化,许多对话式 SEO 改写会失效,甚至适得其反,单方提升只是上限,不是均衡结果。
该采用的是方向,而不是那个具体数字。 还有一处佐证:Liu 等的 Evaluating Verifiability in Generative Search Engines 发现,早期答案引擎的引用往往并不严谨。这也是另一个理由,说明引用行为要持续度量,不能默认它成立,AI 引用追踪 一贯强调的也正是这一点。
8. 针对 Perplexity 的优化
下面是 Perplexity 特有的优先事项;完整的 GEO 全流程见 GEO 与各 playbook。
| 打法 | 为什么在 Perplexity 上更有效 | 完整内容见 |
|---|---|---|
| 自包含、可引述的内容块 | 天生引用密集,可取用的段落直接胜出 | 可引用性 |
| 高密度的事实 / 数字 / 日期 | 选段偏好具体、可归属的断言 | GEO |
| 服务端渲染、可抓取的 HTML | 实时取回无法引用它渲染不出来的内容 | PerplexityBot |
| 可见的发布 / 更新日期 | 时效性在实时检索里被加权 | 可引用性 |
| 话题广度优先于单个精确匹配页 | Pro Search 会扩展为多个子查询 | Answer Loop |
| 追踪自己的引用份额(Sonar API 或人工) | 引用可抽取,要度量而非靠猜 | AI 引用追踪 |
9. Perplexity 对 GEO 为何重要
在所有引擎里,Perplexity 的采信过程最透明,也最可度量:透明,是因为每条答案都附带来源;可度量,是因为 Sonar API 会把这些来源以数据形式返回。正因如此,它既最适合用来讲 引用 vs 提及,也成了 GEO 实测的默认基线。
| 引擎特性 | 它放大的 GEO 抓手 | 完整内容见 |
|---|---|---|
| 默认引用密集 | 结构性可引用性 | 可引用性 |
| 实时检索为默认路径 | 可抓取性与时效性 | PerplexityBot |
| 引用可程序化抽取 | 持续度量 | AI 引用追踪 |
| 原生答案引擎 | 整套 GEO 方法在这里杠杆最大 | GEO |
Perplexity 是生成式引擎里最纯粹的原生答案引擎样本。如果你能在这里被引用,就说明你对这台引擎的理解是对路的,而把引擎当作 GEO 的优化对象,要的就是这一步。
参考资料
Perplexity 官方文档(截至 2026-05):
- What is an answer engine, and how does Perplexity work as one?
- Perplexity Crawlers(PerplexityBot / Perplexity-User) · How Perplexity follows robots.txt
- Sonar API — Quickstart · Chat Completions reference · Models
- Perplexity Pages · Introducing the Sonar Pro API · Introducing Perplexity Deep Research
学术:
- Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K. & Deshpande, A. (2024). GEO: Generative Engine Optimization. KDD ‘24. arXiv:2311.09735 · ACM DL
- Puerto, H., Gubri, M., Green, S., Oh, A. & Yun, S. (2025). C-SEO Bench: Does Conversational SEO Work? arXiv:2506.11097
- Liu, N. F., Zhang, T. & Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. Findings of EMNLP 2023. arXiv:2304.09848
业界:
- TechCrunch — Perplexity launches Sonar, an API for AI search(2025-01-21)
常见问题
Perplexity 是搜索引擎还是聊天机器人?
PerplexityBot 遵守 robots.txt 吗?
怎么让我的内容被 Perplexity 引用?
Perplexity 为什么被当作 GEO 基准基线?
GEO 论文里约 40% 的提升适用于 Perplexity 吗?
相关
参考来源
一手来源
- What is an answer engine, and how does Perplexity work as one? · Perplexity AI
- PerplexityBot — Perplexity Crawlers · Perplexity AI
- How does Perplexity follow robots.txt? · Perplexity AI
- Sonar API — Quickstart · Perplexity AI
- Sonar API — Chat Completions reference · Perplexity AI
- Sonar — Models · Perplexity AI
- Perplexity Pages · Perplexity AI · 2024-05-30
- Introducing the Sonar Pro API · Perplexity AI · 2025-01-21
- Introducing Perplexity Deep Research · Perplexity AI · 2025-02-14
- GEO: Generative Engine Optimization (Aggarwal et al., KDD '24) · arXiv · 2024-06-28
- GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25
- C-SEO Bench: Does Conversational SEO Work? (Puerto et al.) · arXiv · 2025-06-12
- Evaluating Verifiability in Generative Search Engines (Liu et al.) · arXiv · 2023-10-23
二手来源
- Perplexity launches Sonar, an API for AI search · TechCrunch