概念 · 信号

多模态信号

速览要点

是什么: 围绕非文本资产（图片、视频、音频、图表）形成的一组信号，决定 AI 引擎能否读懂、采信并引用它们
2026 年的主导通道: 文本通道，包括 alt、说明、文字稿、schema、周边正文，而不是像素。当下供给 AI 答案的网页抓取链路仍以文本为主
两种读取方式的差别: 索引集成型（Google AIO）复用 Google 已有的图片与视频索引；实时调取型（ChatGPT、Perplexity、带浏览的 Claude）抓取时读 HTML，基本不做 OCR 与转录
视频侧收益最大的一步: 补一份同页文字稿。没有文字稿的自托管视频，在实时调取型 AI 那里近乎不存在
speakable schema 的真实范围: 截至 2025 年 12 月仍是 beta，仅限美国、英语、新闻网站、Google Assistant TTS；并不是一个通用的「这段内容对 AI 友好」信号

1. 多模态信号是什么

多模态信号，是围绕非文本资产（图片、视频、音频、图表）形成的一组信号，决定 AI 引擎能否读懂、采信并把这些资产引用进答案。这是生成式引擎优化信号谱里的「多模态」这一项，也是 E-E-A-T 在非文本资产上对应的可信度判定。

有一点要先讲清楚：当下大多数 AI 引擎在「读多模态」这件事上，一半是真看像素，一半是读文本通道。前沿的多模态大模型（GPT-4V、Gemini、带视觉的 Claude）在直接拿到一张图时确实能看见它（见 OpenAI GPT-4V 系统卡片、Gemini 技术报告）。但供给答案引擎的网页抓取链路，绝大多数情况下传给模型的仍是文本而不是像素。所以对引擎来说，alt 文本、说明、文字稿、schema 标记，就是这份资产本身。

GEO Wiki 工作定义：多模态信号是非文本资产面向 AI 可读的一组信号，主要由三层构成：文本通道（alt、说明、文字稿、周边正文）、结构化数据通道（ImageObject、VideoObject、AudioObject、Dataset）、溯源通道（C2PA 内容凭证、EXIF、IPTC），共同决定一段非文本资产能否被采信进 AI 生成的答案。

下面按顺序讨论四类资产：图片、视频、音频、图表与数据。决定这四类怎么被读的是同一套机制：索引集成型 AI 与实时调取型 AI 在读取非文本资产上的差别。这套差别放在 §3，是后文一切论述的依据。

2. 四类资产，一表概览

下面这张表是后面分章的总图，每一行对应后面一节。

资产类型	主要文本通道	主要结构化数据通道	在 AI 答案里的露面位置
图片	`alt` 属性、说明、周边正文	`ImageObject`（`caption`、`contentUrl`、`license`、`creator`、`embeddedTextCaption`）	AIO 答案里的图片卡片；图片结果的横向跳转；带引用回答旁边的缩略图
视频	同页文字稿、字幕（SRT/VTT）、描述	`VideoObject`（`description`、`transcript`、`thumbnailUrl`、`uploadDate`、`contentUrl`、`duration`）	AIO 视频卡片；带时间戳的「跳到这一段」；从 YouTube 抓取的文字稿被整段引用
音频	文字稿、节目说明、单集介绍	`AudioObject`（`transcript`、`contentUrl`、`caption`）与 `PodcastEpisode`（`audio`、`partOfSeries`、`episodeNumber`）	AIO 播客卡片；Google Assistant TTS（speakable 的窄场景）
图表、表格、示意图	同页 HTML 数据表、说明、在正文里点明关键数字	`Dataset`（`distribution`、`variableMeasured`、`measurementTechnique`）	在答案里被当作数据表引用，几乎不会以像素图的形式被引

有两点值得放慢看。第一：每一行的「主要文本通道」就是答案引擎真正吃进去的那一层信号。第二：VideoObject 本身就带一个明确的 transcript 字段，Schema.org 把它定义为「该对象的文字稿」，标记设计本身就已默认了「以文本通道为主」这条规律。后面四节分别走一遍这四类资产，先在 §3 把决定一切的读取方式差别讲清楚。

3. 两种读取方式：索引集成型 vs 实时调取型

后面所有讨论都建立在这一组差别之上。它和 Schema.org for AI §5 里讲的「索引集成 vs 实时抓取」是同一类机制，只是这里换到非文本资产上看。

索引集成型 AI（Google AI Overviews、走 Search 路径的 Gemini）：复用的是 Google 已经存在十年以上的图片与视频索引。图片 alt 早就被 Google 解析；YouTube 自动字幕与上传字幕走的是同一套基础设施，远在 AIO 出现之前就已经在为 Google Video Search 服务。AIO 的图片卡片来自 Google 图片库，背后的多模态抽取在常规索引阶段就完成了，并非答案生成时现做。AI Overviews 那一项「Core Web Vitals 与多模态信号达标」也是复用 Google 原有的质量系统，并非 AIO 专门叠加的一层（见 Google Search Central — AI features and your website）。

实时调取型 AI（ChatGPT search、Perplexity、带浏览的 Claude）：抓取时直接读 HTML。它看得到 alt 属性和周边的正文。它不会在抓取阶段对图片做 OCR，不会转录视频，不会处理音频。如果文本通道里没描述这份资产，那这份资产对它就形同不存在。

有一处必须区分清楚：当用户直接上传图片、视频或 PDF 给 ChatGPT 或 Perplexity 时，这些产品确实会对上传的文件跑视觉识别与 OCR。那是「用户上传」这条路径，不是「网页抓取」这条路径。你站点上那张图，被检索链路读到的是 alt 与说明，而不是像素。模型的能力，不等于检索链路的能力。

引擎	图片读取方式	视频读取方式	音频读取方式
Google AI Overviews	索引阶段做视觉识别，配合 alt、说明、ImageObject；AIO 答案里直接出图片卡片	索引阶段、YouTube CC 基础设施、VideoObject 三者配合；AIO 答案里出带时间戳的视频卡片	索引阶段配合 AudioObject；播客卡片；speakable 用于新闻 TTS 这个窄场景
ChatGPT search	读 `alt` 与周边正文；抓取时不做 OCR	读文字稿与描述；抓取时不做转录	读文字稿与节目说明；抓取时不做转录
Perplexity	读 `alt` 与周边正文；抓取时不做 OCR	读文字稿与描述	读文字稿与节目说明
Google Gemini	走 Search 路径（索引集成型），底层是原生多模态模型	走 Search 路径，配合 YouTube 基础设施	走 Search 路径，配合 AudioObject
Genspark	多模态优先的答案形态（Sparkpages），公开资料较少	同上	同上

后面 §4–§7 都从这一条结论出发：在两种读取方式下，文本通道都是非文本资产的主导信号。对索引集成型 AI 而言，这层文本早在 AI 答案出现之前就已被索引完毕；对实时调取型 AI 而言，像素处理至今没有纳入抓取链路。先把文本通道做扎实，溯源与像素级能力的影响只在边际上发挥作用。

4. 图片：alt、说明、ImageObject、溯源

图片是信号积累最久、文本通道最成熟的一类资产。三层信号按顺序讨论。

文本通道是最关键的一环。alt 属性、紧邻图片的说明文字、图片附近一处描述性的标题，这层文本任何 AI 读取方式都会拿到。Google 自己的图片最佳实践讲得很直：「Google 综合使用 alt 文本、计算机视觉算法以及页面内容，来理解一张图片的主题」（Google Search Central，2026-03-02 更新）。WCAG 无障碍要求与 AI 抽取启发式在这里高度重合：屏幕阅读器需要看到什么，实时调取型 AI 看到的就是什么。W3C 1.1.1 准则（非文本内容）明确要求「所有面向用户的非文本内容必须配有等效作用的文字替代」（W3C WAI）。

结构化数据通道：ImageObject 字段包含 caption、contentUrl、license、creator、embeddedTextCaption、exifData、representativeOfPage 等（schema.org/ImageObject）。商品场景对应 Product.image，文章场景对应 Article.image。完整的标记规范详见 Schema.org for AI，这里只说明哪些字段真正承载多模态信息。

溯源通道：C2PA 内容凭证是一套跨厂商的密码学证明，用于标记图片的来源与编辑历史。EXIF 相机元数据、IPTC 图片署名分别记录摄影师、版权、来源。2025-11，IPTC 图片元数据标准 v2025.1 新增了一个明确的「AI System Used」字段，用于标记生成图片所用的模型（官方示例直接点了 ChatGPT、DALL-E、Google Gemini）（IPTC）。溯源信号是新冒出来的一类信任判定依据，和 E-E-A-T 在文字作者署名上要求的那一套是同一类机制。

信号	索引集成型怎么读	实时调取型怎么读
`alt` 属性	两边都读；AIO 用它评估图片卡片相关性	读；主要的文本通道
说明 / 周边正文	两边都读	读
`ImageObject` JSON-LD	AIO 解析为结构化数据	当作页面文本读（见 Schema.org for AI §5）
C2PA、EXIF、IPTC	AIO 可在索引层做核验	一般不抓取这层二进制元数据；HTML 里也不会显式露出

对实时调取型 AI 而言，图片本身看不见，只有它的文本通道存在。量级最大的两个场景，一是电商商品图（alt 写商品名加关键变体），二是编辑摄影（alt 写场景、主体、背景），但这套做法本身是通用的。

5. 视频：文字稿、字幕、VideoObject 与托管选择

视频是托管方式直接决定信号格局的一类资产。同一段视频，上传到 YouTube，与自托管且不配文字稿，在 AI 可读性上完全是两种命运；标记再齐整也补不回来。

文本通道：同页文字稿（多数站点上收益最大的单点动作）、SRT/VTT 字幕、视频描述、视频标题。文字稿是视频里讲过的内容进入实时调取型抓取链路的唯一形式。

结构化数据通道：VideoObject 有一个明确的 transcript 字段，Schema.org 给的定义就是「该对象的文字稿」（schema.org/VideoObject）。其余关键字段：description、thumbnailUrl、uploadDate、contentUrl、embedUrl、duration（ISO 8601）。按 Schema.org for AI 的判断：AIO 直接解析，实时调取把它当页面文本读。

托管选择带来的差别：YouTube 与 Vimeo 自动生成字幕与文字稿，Google 的索引早已在持续消化这些数据。Google 自己的视频 SEO 最佳实践给出的建议是「为每段视频建立独立的观看页」（Google Search Central，2025-12-18 更新）。一段不带文字稿的自托管视频，在两种读取方式下基本都不可见：页面上只有一个 <video> 标签，再无别的内容。

托管选择	文字稿是否可得	AI 可读性
YouTube 或 Vimeo 嵌入	自动字幕，上传者可手动补	高。AIO 直接拿到文字稿；实时调取读嵌入周围的 HTML 加上平台可访问到的文字稿
自托管，配同页文字稿	人工撰写，正文里就有	高。两种读取方式都能读到这段文字稿
自托管，只配 VTT 或 SRT	仅外挂字幕文件，正文里没有	中等。索引集成型会抓外挂文件；许多实时调取型抓取器不会取这一层
自托管，无文字稿	无	近乎不存在

有一条子原则值得点明：把字幕烧进视频像素里的做法，对所有文本通道阅读者都是不可读的，只有外挂的字幕文件才有效。这和图片里「把文字渲染成图片」是同一类失误：像素不是文本。对于以视频为核心的站点（出版机构、教育科技、视频优先的内容业务），托管选择带来的差距，通常比标记是否齐整更大。

6. 音频与 speakable schema：比想象中窄得多

先把多模态领域里流传最广的一个误解讲清楚：speakable schema 让内容「对语音 AI 友好」。按多数人理解的那种「通用语音 AI 信号」，它做不到。

speakable 的实际范围，按 Google 自己最近一次（2025-12-10）更新的官方文档：仍是beta，服务对象限定为「在美国、把 Google Home 设备设置为英语的用户，以及发布英语内容的出版方」（Google Search Central — Speakable）。这套「美国、英语、新闻」三重限制已经维持了多年，2025-12-10 这次更新也没有放宽其中任何一条。它的目标场景是 Google Assistant 的 TTS 朗读，并不是一个通用的「这段内容对 AI 友好」信号。

下面是音频侧真正可用的那一套，多数读者要的就是这一段：

文字稿与视频侧是同一个着力点，作用同样压倒一切。一档没有文字稿的播客，对实时调取型 AI 等于不存在；它讲过的话从未进入文本通道。
节目说明、单集介绍承担的是「搜索引擎可见的摘要」这一角色，实时调取型 AI 看的就是这一段。
AudioObject 字段包括 transcript、contentUrl、caption、encodingFormat、duration（schema.org/AudioObject）。PodcastEpisode 字段包括 partOfSeries、episodeNumber、duration、datePublished 以及内嵌的 audio（一个 AudioObject）（schema.org/PodcastEpisode）。注意：文字稿挂在内嵌的 AudioObject 上，并不是直接挂在 PodcastEpisode 上。

speakable 服务的是 TTS 朗读，文字稿服务的是 AI 可读性，两件事不要混在一起。也不要被厂商或平台的宣传带偏：speakable 标记常常被包装成一个通用的 AI 可读性手段，但规范本身远未覆盖到那一层。

7. 图表、表格与示意图：把数据当作文本

这是四节里最短的一节。规则本身不复杂，但对以数据为核心的分析型内容收益最大。

核心一句：抽取启发式读的是HTML 数据表，而不是像素渲染后的图表。一张 PNG 形式的柱状图对实时调取型 AI 是不可读的；一张柱状图加上它背后的数据表，则是完全可读的。两种范式覆盖了这套规则的绝大部分：

图表配数据表回退：可视化部分给人看，把背后的数字以 HTML <table>（或纯文本）形式同页放出，让文本通道把信息载过去。
说明配关键数字：一段说明用文字把头条数字、来源、时间区间写清楚，无论图表本身能否被读到都能被引用。

<!-- 给人看 -->
<img src="/charts/q1-revenue.png" alt="季度营收走势，2024 Q1 至 2026 Q1，单位百万美元">

<!-- 给 AI 用：数据表回退 -->
<figcaption>季度营收从 1200 万美元（2024 Q1）增长到 1900 万美元（2026 Q1），上涨 58%。</figcaption>
<table>
  <thead><tr><th>季度</th><th>营收（百万美元）</th></tr></thead>
  <tbody>
    <tr><td>2024 Q1</td><td>12</td></tr>
    <tr><td>2025 Q1</td><td>15</td></tr>
    <tr><td>2026 Q1</td><td>19</td></tr>
  </tbody>
</table>

Schema.org 提供了 Dataset（schema.org/Dataset）用于发布数据集，以及 Table 一类的语义用于表格内容；但这里要先迈过的门槛是 HTML 数据表本身，标记只是锦上添花。数据表也是可引用性里可引用度最高的内容形态之一：同一段能让图表被读到的写法，往往也能被直接整段引进 AI 答案。

8. 信任与溯源：非文本资产的 E-E-A-T 那一面

非文本资产同样要过信任这一关。一批没有任何溯源的 AI 批量生成图片、一段署名作者实际并不存在的视频、一张数字写得很漂亮却无法核验来源的图表，触发的都是同一类信任判断，与 AI 内容检测在文字侧针对「AI 规模化批量产出」的那一套机制完全一致。机制相同，只是资产形态换了。

资产	溯源信号	成熟度（截至 2026-05）
图片	C2PA 内容凭证；EXIF 相机元数据；IPTC 图片署名 + 新增的「AI System Used」字段（v2025.1）；`ImageObject.creator`	C2PA 采用面在扩大（指导委员会包含 Adobe、Microsoft、BBC、OpenAI、Sony；普通成员包含 NYT、Nikon、Canon，见 C2PA Membership）；EXIF/IPTC 成熟；IPTC v2025.1 的 AI 生成字段是新引入的（IPTC，2025-11-27）
视频	`VideoObject.creator`/`publisher`；平台频道认证（YouTube）；上传时间一致性；AI 生成视频上的 SynthID 水印（Google DeepMind）	以 YouTube 托管为前提时较成熟；SynthID 对 Google 出品的 AI 视频已在使用
音频	`AudioObject.creator`；托管平台认证；AI 生成音频上的 SynthID 水印	中等成熟；SynthID 对 Google 出品的 AI 音频已在使用
图表/数据	标注数据来源；附上方法说明；放出可下载的原始数据；让背后的数字本身可被核验	完全成熟。这就是常规的引用规范

SynthID 是 Google DeepMind 的水印技术，覆盖图片、视频、音频、文本四种形态。官方页面给出的说法是：「水印嵌入在 Google 各类生成式 AI 消费产品中，肉眼无法察觉，但可以被 SynthID 的技术检出」（Google DeepMind）。该页面并未公布具体的检出准确率数字；把它当作一个方向可靠、量级尚未测量的信号即可，这种处理方式和 AI 内容检测 §6 对水印类机制的整体建议一致。

需要说明的边界是：图片溯源生态（C2PA、SynthID、IPTC 的 AI 生成字段）确实在落地、确实在扩散，但截至 2026-05，它还没有成为任何一家主流 AI 引擎已经确认的引用门槛。方向可信，系数尚无测量。

9. 证据可信到哪里，又止于哪里

照例采用「方向有据，量级无测」这套框架，与多语言 GEO §7、实体识别 §6 在各自论题下用的是同一类做法：机制方向有据可循，具体到「某项标记带来 N% 的引用率提升」这类量级数字，则没有公开严谨的测量。

已可成立的结论	该被收窄的解读
Google 自己也在明确推荐多模态卫生。「用高质量的图片和视频补充正文」是 8 条官方建议之一（Google Search Central, 2025-05、Search Engine Land 的报道）	这是引用面最大的厂商给出的一个方向性信号，并不是一份测量。提升幅度并未公开发布；行业报道也指出 Google「给出的具体可执行细节有限」
AIO 答案里的图片卡片与视频卡片是可观察到的。任何商品、菜谱、教程、视觉类研究查询的 AIO 回答都会出	这是结构性事实，不是测量。具体哪张图被选进卡片并无公开文档；不要从卡片出现的位置反推「排名要素」
YouTube 文字稿确实能进入 Google 索引。AI Overviews 回答里出现过逐句来自 YouTube 自动字幕的引用	这是行业观察，不是严谨基准。方向（YouTube 文字稿进入 AIO）可信度高；某个频道或某段视频的引用率不是一个已知系数
多模态大模型在被直接喂图时可以描述图片（GPT-4V 系统卡片、Gemini 技术报告）	这是模型本身的能力，不是检索链路的能力。当下供给答案引擎的检索链路仍主要传递文本，而不是像素。所以「AI 搜索引擎能看见我的图片」是过度外推
C2PA、SynthID 这一整套溯源生态真的在扩散。Adobe、Microsoft、BBC、OpenAI、Sony 在 C2PA 指导委员会，NYT、Nikon、Canon 是普通成员（C2PA Membership）；SynthID 已嵌入 Google 的生成式消费产品	采用面已被证实；对 AI 引用行为的影响并未被测量。截至 2026-05，它仍不是任何一家主流 AI 引擎已确认的引用门槛
两种读取方式下，文本通道都是主导信号。任何一家实时调取型 AI 都能验证：被引回来的，就是这份资产的 `alt`、周边正文、文字稿	这是 2026-05 这个时点的快照。等多模态原生检索器更广泛落地，这一论断会被削弱；本条目的 `lastUpdated` 与 `nextReviewDue` 就是给这件事预留的时间戳

照例给出一句必须讲清楚的边界：**截至 2026-05，没有任何公开发表的严谨基准，测量过某一项多模态标记选择（alt 文本质量、ImageObject 完整度、文字稿到位与否、C2PA 证明是否齐全）带来的引用率提升幅度。**以上四项的方向都可信，量级都不可信。任何「图片让 AI 引用率提升了 N%」的说法都属于过度宣称。请相信方向、把文本通道做扎实，不要把没有公开测量的系数搬进投资决策。

10. 反模式：多模态里最常见的误读

下面列出本条目要纠正的几种误读，写法与可引用性 §6、多语言 GEO §8 的反模式表保持一致。

误读	看上去为什么对	实际为什么不对
「alt 文本堆关键词能帮 AI 找到我的图片」	看起来是把关键词堆砌延伸到一个新阵地	Google 明确警告：在 alt 属性里堆砌关键词「会带来负面的用户体验，也可能让你的站点被判定为垃圾」（Google Images best practices）。AI 质量系统识别并降权这一模式，见 AI 内容检测
「把正文渲染成图片」：用图片输出整段文字	看起来很有设计感，排版完全可控	像素里的文字对任何文本通道阅读者都是不可读的；OCR 不在实时调取型检索链路的常规流程里。这层文字只对一个恰好被直接喂图的视觉模型可见，对网页检索链路则不存在
「自托管视频不配文字稿也没事：音频本身会说话」	看起来很直观，人耳确实听得到	视频里讲过的内容从未进入文本通道；实时调取型 AI 看到的只有一个 `<video>` 标签。在以视频为主的站点上，加一段同页文字稿就是单点收益最大的改动
「speakable schema 能让我的内容变成语音 AI 友好」	看起来是面向 AI 与语音场景最合适的标记	speakable 至今仍是 beta，仅限美国、英语、新闻、Google Assistant TTS（Google Search Central — Speakable，2025-12-10）。多年没有放宽。它并不是一个通用的 AI 可读性信号
「柱状图做成图片就够了，反正人能看懂」	看起来已经够用，图就在眼前	抽取启发式读的是 HTML 数据表，不是像素图。实时调取型 AI 看到的是一个 `<figure>` 加一段 alt，仅此而已。图里的那些数字，只有写成文字才会进入答案链路
「批量上线 AI 生成的库存图，不带任何溯源」	看起来是用低成本拿到视觉覆盖	文字侧那种「AI 规模化批量产出」的模式，在 AI 内容检测里讲过，在图片侧也会触发。C2PA、IPTC v2025.1 的「AI System Used」字段、SynthID 水印，AI 引擎要找的正是这一类信任信号；一批没有任何证明的 AI 图片，会被当成多模态版的批量生成内容来读
「我刚把这张图喂给 GPT-4o 它认得出来，AI 搜索引擎肯定也看得到」	看起来很自然：同一家厂的同一个模型	模型能力不等于检索链路能力。用户上传那条路径会跑视觉，网页抓取那条路径大多还是把文本传给模型。挂在你页面上的那张图，对它来说依然是 `alt` 加说明，不是像素

真正的失误几乎从来不是「我们忘了打标记」，而是把「多模态」当成视觉问题来做。但在 2026 年，它绝大多数时候依然是一个文本通道的问题。

11. 多模态信号与 GEO 的关系，以及该怎么动手

多模态 GEO 不是一门独立于 AI 的新学科。它是把可引用性与 E-E-A-T 应用到非文本资产上，再用 §3 那套读取方式差别当尺子，判断哪种做法在哪条通道上真正起作用。这些做法本身并不新，只是把已有的几门学科按不同资产类型重新组合而已。

你的需求	从这里开始
把图片、视频、音频或图表的标记做对	Schema 实施手册
选定标记格式（JSON-LD、RDFa、Microdata）	JSON-LD
端到端审计一个站点的多模态层	完整 GEO 审计手册
让页面的文本通道真的能被抽出来	可引用性手册、可引用性概念
给非文本资产校准信任信号	E-E-A-T、AI 内容检测（AI 规模化批量产出反模式）
看清楚标记词汇本身	Schema.org for AI
把资产作者绑定到一个创作者实体上	实体识别、知识图谱存在度
看它在 answer loop 里处于哪一步	Answer Loop
把这一切组合起来的整体方法	生成式引擎优化

落地的看法是：在动标记或溯源之前，先把每份非文本资产的文本通道审一遍。多数团队会发现，真正卡住自己的并不是少打了一段 ImageObject 标记，而是视频没有文字稿、内容图片没有 alt、图表只有 PNG 没有底层数据、AI 生成的图片批量上线却没有任何证明。先把文本通道做扎实，溯源与像素级能力的影响只在边际上发挥作用。

要查这个词本身及其相邻词，见 GEO 术语表。

参考资料

官方 / 标准：

Schema.org — ImageObject · VideoObject · AudioObject · PodcastEpisode · Dataset
Google Search Central — Google Images best practices（2026-03-02 更新）· Video SEO best practices（2025-12-18 更新）· Speakable (SpeakableSpecification) structured data（2025-12-10 更新，仍是 beta）· AI features and your website · Top ways to ensure your content performs well in Google’s AI experiences on Search
W3C WAI — Understanding Success Criterion 1.1.1: Non-text Content
IPTC — Photo Metadata Standard（v2025.1，2025-11-27，新增「AI System Used」字段）
C2PA — Coalition for Content Provenance and Authenticity · Membership · Specifications
Google DeepMind — SynthID（图片 / 视频 / 音频 / 文本水印）

厂商 / 技术：

OpenAI — GPT-4V(ision) 系统卡片（2023-09-25）
Google DeepMind — Gemini: A Family of Highly Capable Multimodal Models（arXiv:2312.11805，2023-12-19）· Introducing Gemini（2023-12-06）。原文：「Gemini 在设计上就是原生多模态的，从预训练阶段开始就同时跨多种模态」

行业：

Search Engine Land — Goodwin, D.（2025-05-21）. Google shares 8 ways to be successful with AI Search experiences

常见问题

GEO 里所谓的多模态信号是指什么？

指围绕非文本内容（图片、视频、音频、图表）形成的一组信号，决定 AI 引擎能否读懂、采信并把这些资产引用进答案。2026 年里，所谓「读懂」主要是读懂随资产一起出现的那层文本（alt 文本、说明文字、文字稿、schema 标记），而不是像素级视觉。原因是结构性的：当下供给答案引擎的检索链路向模型传递的仍是文本，即便底层模型本身就是原生多模态的。

GPT-4V 和 Gemini 不是能直接看图吗？文本通道为什么还重要？

模型本身的能力，和检索链路的能力，是两件事。GPT-4V 在用户上传图片时确实能描述图片（见 OpenAI 系统卡片），Gemini 在预训练阶段就是原生多模态（见 Gemini 技术报告）。但当 ChatGPT search 或 Perplexity 从网上抓取你的页面时，通常只把正文抽出来交给模型，并不会把图片一起递过去。所以在 2026 年，无论底层模型多么擅长识图，答案模型实际看到的，仍然是这张图周围的那层文本（alt、周边正文、文字稿）。

多模态里收益最大的单点动作是什么？

对多数站点来说，是给每段视频补一份同页文字稿。YouTube 嵌入自带 Google 的自动字幕基础设施；不带文字稿的自托管 `<video>` 标签，对实时调取型 AI 近乎不存在，因为视频里讲过的内容从未进入文本通道。文字稿就是这段资产进入答案链路的唯一入口。

speakable schema 能让我的内容变成「语音 AI 可读」吗？

不能。这是多模态领域里流传最广的误解。speakable 这一项结构化数据至今仍是 beta，只面向美国、英语、新闻类站点，用途是给 Google Assistant 做 TTS 朗读（详见 Google 官方文档，最近一次更新为 2025-12-10）。这套限制已经维持多年没有放宽。它并不是一个通用的「这段内容对 AI 友好」信号。音频侧真正可用的，是同页文字稿，而不是 speakable 标记。

AI 搜索引擎真的会因为页面里有图片就把它排得更高吗？

Google 的官方说法是：要出现在 AI Overviews 或 AI Mode 里，并没有任何超出常规 SEO 的额外要求（见「AI features and your website」官方文档）。但 Google 在 2025 年 5 月的「在 AI 搜索里取得成功的 8 种方式」里，确实把「用高质量的图片和视频补充正文」列为其中一条建议。值得相信的是这个方向（多模态卫生是被官方点名的优化项之一）；不值得相信的是「图片能让 AI 引用率提升 N%」这一类没有公开测量过的具体数字。

参考来源

一手来源

ImageObject — Schema.org · Schema.org
VideoObject — Schema.org · Schema.org
AudioObject — Schema.org · Schema.org
PodcastEpisode — Schema.org · Schema.org
Dataset — Schema.org · Schema.org
Google Images best practices · Google Search Central · 2026-03-02
Video SEO best practices · Google Search Central · 2025-12-18
Speakable (SpeakableSpecification) structured data · Google Search Central · 2025-12-10
AI features and your website · Google Search Central · 2025-12-10
Top ways to ensure your content performs well in Google's AI experiences on Search · Google Search Central · 2025-05-21
Understanding Success Criterion 1.1.1: Non-text Content · W3C Web Accessibility Initiative
Coalition for Content Provenance and Authenticity (C2PA) · C2PA
C2PA Membership · C2PA
C2PA Specifications · C2PA
SynthID — identifying AI-generated content · Google DeepMind
IPTC Photo Metadata Standard (v2025.1) · International Press Telecommunications Council · 2025-11-27
GPT-4V(ision) system card · OpenAI · 2023-09-25
Gemini: A Family of Highly Capable Multimodal Models · Google DeepMind / arXiv · 2023-12-19
Introducing Gemini: our largest and most capable AI model · Google · 2023-12-06

二手来源

Google shares 8 ways to be successful with AI Search experiences · Search Engine Land (Danny Goodwin)