多模态信号
速览要点
- 是什么
- 围绕非文本资产(图片、视频、音频、图表)形成的一组信号,决定 AI 引擎能否读懂、采信并引用它们
- 2026 年的主导通道
- 文本通道,包括 alt、说明、文字稿、schema、周边正文,而不是像素。当下供给 AI 答案的网页抓取链路仍以文本为主
- 两种读取方式的差别
- 索引集成型(Google AIO)复用 Google 已有的图片与视频索引;实时调取型(ChatGPT、Perplexity、带浏览的 Claude)抓取时读 HTML,基本不做 OCR 与转录
- 视频侧收益最大的一步
- 补一份同页文字稿。没有文字稿的自托管视频,在实时调取型 AI 那里近乎不存在
- speakable schema 的真实范围
- 截至 2025 年 12 月仍是 beta,仅限美国、英语、新闻网站、Google Assistant TTS;并不是一个通用的「这段内容对 AI 友好」信号
1. 多模态信号是什么
多模态信号,是围绕非文本资产(图片、视频、音频、图表)形成的一组信号,决定 AI 引擎能否读懂、采信并把这些资产引用进答案。这是 生成式引擎优化 信号谱里的「多模态」这一项,也是 E-E-A-T 在非文本资产上对应的可信度判定。
有一点要先讲清楚:当下大多数 AI 引擎在「读多模态」这件事上,一半是真看像素,一半是读文本通道。前沿的多模态大模型(GPT-4V、Gemini、带视觉的 Claude)在直接拿到一张图时确实能看见它(见 OpenAI GPT-4V 系统卡片、Gemini 技术报告)。但供给答案引擎的网页抓取链路,绝大多数情况下传给模型的仍是文本而不是像素。所以对引擎来说,alt 文本、说明、文字稿、schema 标记,就是这份资产本身。
GEO Wiki 工作定义:多模态信号是非文本资产面向 AI 可读的一组信号,主要由三层构成:文本通道(alt、说明、文字稿、周边正文)、结构化数据通道(ImageObject、VideoObject、AudioObject、Dataset)、溯源通道(C2PA 内容凭证、EXIF、IPTC),共同决定一段非文本资产能否被采信进 AI 生成的答案。
下面按顺序讨论四类资产:图片、视频、音频、图表与数据。决定这四类怎么被读的是同一套机制:索引集成型 AI 与实时调取型 AI 在读取非文本资产上的差别。这套差别放在 §3,是后文一切论述的依据。
2. 四类资产,一表概览
下面这张表是后面分章的总图,每一行对应后面一节。
| 资产类型 | 主要文本通道 | 主要结构化数据通道 | 在 AI 答案里的露面位置 |
|---|---|---|---|
| 图片 | alt 属性、说明、周边正文 | ImageObject(caption、contentUrl、license、creator、embeddedTextCaption) | AIO 答案里的图片卡片;图片结果的横向跳转;带引用回答旁边的缩略图 |
| 视频 | 同页文字稿、字幕(SRT/VTT)、描述 | VideoObject(description、transcript、thumbnailUrl、uploadDate、contentUrl、duration) | AIO 视频卡片;带时间戳的「跳到这一段」;从 YouTube 抓取的文字稿被整段引用 |
| 音频 | 文字稿、节目说明、单集介绍 | AudioObject(transcript、contentUrl、caption)与 PodcastEpisode(audio、partOfSeries、episodeNumber) | AIO 播客卡片;Google Assistant TTS(speakable 的窄场景) |
| 图表、表格、示意图 | 同页 HTML 数据表、说明、在正文里点明关键数字 | Dataset(distribution、variableMeasured、measurementTechnique) | 在答案里被当作数据表引用,几乎不会以像素图的形式被引 |
有两点值得放慢看。第一:每一行的「主要文本通道」就是答案引擎真正吃进去的那一层信号。第二:VideoObject 本身就带一个明确的 transcript 字段,Schema.org 把它定义为「该对象的文字稿」,标记设计本身就已默认了「以文本通道为主」这条规律。后面四节分别走一遍这四类资产,先在 §3 把决定一切的读取方式差别讲清楚。
3. 两种读取方式:索引集成型 vs 实时调取型
后面所有讨论都建立在这一组差别之上。它和 Schema.org for AI §5 里讲的「索引集成 vs 实时抓取」是同一类机制,只是这里换到非文本资产上看。
索引集成型 AI(Google AI Overviews、走 Search 路径的 Gemini):复用的是 Google 已经存在十年以上的图片与视频索引。图片 alt 早就被 Google 解析;YouTube 自动字幕与上传字幕走的是同一套基础设施,远在 AIO 出现之前就已经在为 Google Video Search 服务。AIO 的图片卡片来自 Google 图片库,背后的多模态抽取在常规索引阶段就完成了,并非答案生成时现做。AI Overviews 那一项「Core Web Vitals 与多模态信号达标」也是复用 Google 原有的质量系统,并非 AIO 专门叠加的一层(见 Google Search Central — AI features and your website)。
实时调取型 AI(ChatGPT search、Perplexity、带浏览的 Claude):抓取时直接读 HTML。它看得到 alt 属性和周边的正文。它不会在抓取阶段对图片做 OCR,不会转录视频,不会处理音频。如果文本通道里没描述这份资产,那这份资产对它就形同不存在。
有一处必须区分清楚:当用户直接上传图片、视频或 PDF 给 ChatGPT 或 Perplexity 时,这些产品确实会对上传的文件跑视觉识别与 OCR。那是「用户上传」这条路径,不是「网页抓取」这条路径。你站点上那张图,被检索链路读到的是 alt 与说明,而不是像素。模型的能力,不等于检索链路的能力。
| 引擎 | 图片读取方式 | 视频读取方式 | 音频读取方式 |
|---|---|---|---|
| Google AI Overviews | 索引阶段做视觉识别,配合 alt、说明、ImageObject;AIO 答案里直接出图片卡片 | 索引阶段、YouTube CC 基础设施、VideoObject 三者配合;AIO 答案里出带时间戳的视频卡片 | 索引阶段配合 AudioObject;播客卡片;speakable 用于新闻 TTS 这个窄场景 |
| ChatGPT search | 读 alt 与周边正文;抓取时不做 OCR | 读文字稿与描述;抓取时不做转录 | 读文字稿与节目说明;抓取时不做转录 |
| Perplexity | 读 alt 与周边正文;抓取时不做 OCR | 读文字稿与描述 | 读文字稿与节目说明 |
| Google Gemini | 走 Search 路径(索引集成型),底层是原生多模态模型 | 走 Search 路径,配合 YouTube 基础设施 | 走 Search 路径,配合 AudioObject |
| Genspark | 多模态优先的答案形态(Sparkpages),公开资料较少 | 同上 | 同上 |
后面 §4–§7 都从这一条结论出发:在两种读取方式下,文本通道都是非文本资产的主导信号。对索引集成型 AI 而言,这层文本早在 AI 答案出现之前就已被索引完毕;对实时调取型 AI 而言,像素处理至今没有纳入抓取链路。先把文本通道做扎实,溯源与像素级能力的影响只在边际上发挥作用。
4. 图片:alt、说明、ImageObject、溯源
图片是信号积累最久、文本通道最成熟的一类资产。三层信号按顺序讨论。
文本通道是最关键的一环。alt 属性、紧邻图片的说明文字、图片附近一处描述性的标题,这层文本任何 AI 读取方式都会拿到。Google 自己的图片最佳实践讲得很直:「Google 综合使用 alt 文本、计算机视觉算法以及页面内容,来理解一张图片的主题」(Google Search Central,2026-03-02 更新)。WCAG 无障碍要求与 AI 抽取启发式在这里高度重合:屏幕阅读器需要看到什么,实时调取型 AI 看到的就是什么。W3C 1.1.1 准则(非文本内容)明确要求「所有面向用户的非文本内容必须配有等效作用的文字替代」(W3C WAI)。
结构化数据通道:ImageObject 字段包含 caption、contentUrl、license、creator、embeddedTextCaption、exifData、representativeOfPage 等(schema.org/ImageObject)。商品场景对应 Product.image,文章场景对应 Article.image。完整的标记规范详见 Schema.org for AI,这里只说明哪些字段真正承载多模态信息。
溯源通道:C2PA 内容凭证是一套跨厂商的密码学证明,用于标记图片的来源与编辑历史。EXIF 相机元数据、IPTC 图片署名分别记录摄影师、版权、来源。2025-11,IPTC 图片元数据标准 v2025.1 新增了一个明确的「AI System Used」字段,用于标记生成图片所用的模型(官方示例直接点了 ChatGPT、DALL-E、Google Gemini)(IPTC)。溯源信号是新冒出来的一类信任判定依据,和 E-E-A-T 在文字作者署名上要求的那一套是同一类机制。
| 信号 | 索引集成型怎么读 | 实时调取型怎么读 |
|---|---|---|
alt 属性 | 两边都读;AIO 用它评估图片卡片相关性 | 读;主要的文本通道 |
| 说明 / 周边正文 | 两边都读 | 读 |
ImageObject JSON-LD | AIO 解析为结构化数据 | 当作页面文本读(见 Schema.org for AI §5) |
| C2PA、EXIF、IPTC | AIO 可在索引层做核验 | 一般不抓取这层二进制元数据;HTML 里也不会显式露出 |
对实时调取型 AI 而言,图片本身看不见,只有它的文本通道存在。量级最大的两个场景,一是电商商品图(alt 写商品名加关键变体),二是编辑摄影(alt 写场景、主体、背景),但这套做法本身是通用的。
5. 视频:文字稿、字幕、VideoObject 与托管选择
视频是托管方式直接决定信号格局的一类资产。同一段视频,上传到 YouTube,与自托管且不配文字稿,在 AI 可读性上完全是两种命运;标记再齐整也补不回来。
文本通道:同页文字稿(多数站点上收益最大的单点动作)、SRT/VTT 字幕、视频描述、视频标题。文字稿是视频里讲过的内容进入实时调取型抓取链路的唯一形式。
结构化数据通道:VideoObject 有一个明确的 transcript 字段,Schema.org 给的定义就是「该对象的文字稿」(schema.org/VideoObject)。其余关键字段:description、thumbnailUrl、uploadDate、contentUrl、embedUrl、duration(ISO 8601)。按 Schema.org for AI 的判断:AIO 直接解析,实时调取把它当页面文本读。
托管选择带来的差别:YouTube 与 Vimeo 自动生成字幕与文字稿,Google 的索引早已在持续消化这些数据。Google 自己的视频 SEO 最佳实践给出的建议是「为每段视频建立独立的观看页」(Google Search Central,2025-12-18 更新)。一段不带文字稿的自托管视频,在两种读取方式下基本都不可见:页面上只有一个 <video> 标签,再无别的内容。
| 托管选择 | 文字稿是否可得 | AI 可读性 |
|---|---|---|
| YouTube 或 Vimeo 嵌入 | 自动字幕,上传者可手动补 | 高。AIO 直接拿到文字稿;实时调取读嵌入周围的 HTML 加上平台可访问到的文字稿 |
| 自托管,配同页文字稿 | 人工撰写,正文里就有 | 高。两种读取方式都能读到这段文字稿 |
| 自托管,只配 VTT 或 SRT | 仅外挂字幕文件,正文里没有 | 中等。索引集成型会抓外挂文件;许多实时调取型抓取器不会取这一层 |
| 自托管,无文字稿 | 无 | 近乎不存在 |
有一条子原则值得点明:把字幕烧进视频像素里的做法,对所有文本通道阅读者都是不可读的,只有外挂的字幕文件才有效。这和图片里「把文字渲染成图片」是同一类失误:像素不是文本。对于以视频为核心的站点(出版机构、教育科技、视频优先的内容业务),托管选择带来的差距,通常比标记是否齐整更大。
6. 音频与 speakable schema:比想象中窄得多
先把多模态领域里流传最广的一个误解讲清楚:speakable schema 让内容「对语音 AI 友好」。按多数人理解的那种「通用语音 AI 信号」,它做不到。
speakable 的实际范围,按 Google 自己最近一次(2025-12-10)更新的官方文档:仍是beta,服务对象限定为「在美国、把 Google Home 设备设置为英语的用户,以及发布英语内容的出版方」(Google Search Central — Speakable)。这套「美国、英语、新闻」三重限制已经维持了多年,2025-12-10 这次更新也没有放宽其中任何一条。它的目标场景是 Google Assistant 的 TTS 朗读,并不是一个通用的「这段内容对 AI 友好」信号。
下面是音频侧真正可用的那一套,多数读者要的就是这一段:
- 文字稿与视频侧是同一个着力点,作用同样压倒一切。一档没有文字稿的播客,对实时调取型 AI 等于不存在;它讲过的话从未进入文本通道。
- 节目说明、单集介绍承担的是「搜索引擎可见的摘要」这一角色,实时调取型 AI 看的就是这一段。
AudioObject字段包括transcript、contentUrl、caption、encodingFormat、duration(schema.org/AudioObject)。PodcastEpisode字段包括partOfSeries、episodeNumber、duration、datePublished以及内嵌的audio(一个 AudioObject)(schema.org/PodcastEpisode)。注意:文字稿挂在内嵌的 AudioObject 上,并不是直接挂在 PodcastEpisode 上。
speakable 服务的是 TTS 朗读,文字稿服务的是 AI 可读性,两件事不要混在一起。也不要被厂商或平台的宣传带偏:speakable 标记常常被包装成一个通用的 AI 可读性手段,但规范本身远未覆盖到那一层。
7. 图表、表格与示意图:把数据当作文本
这是四节里最短的一节。规则本身不复杂,但对以数据为核心的分析型内容收益最大。
核心一句:抽取启发式读的是HTML 数据表,而不是像素渲染后的图表。一张 PNG 形式的柱状图对实时调取型 AI 是不可读的;一张柱状图加上它背后的数据表,则是完全可读的。两种范式覆盖了这套规则的绝大部分:
- 图表配数据表回退:可视化部分给人看,把背后的数字以 HTML
<table>(或纯文本)形式同页放出,让文本通道把信息载过去。 - 说明配关键数字:一段说明用文字把头条数字、来源、时间区间写清楚,无论图表本身能否被读到都能被引用。
<!-- 给人看 -->
<img src="/charts/q1-revenue.png" alt="季度营收走势,2024 Q1 至 2026 Q1,单位百万美元">
<!-- 给 AI 用:数据表回退 -->
<figcaption>季度营收从 1200 万美元(2024 Q1)增长到 1900 万美元(2026 Q1),上涨 58%。</figcaption>
<table>
<thead><tr><th>季度</th><th>营收(百万美元)</th></tr></thead>
<tbody>
<tr><td>2024 Q1</td><td>12</td></tr>
<tr><td>2025 Q1</td><td>15</td></tr>
<tr><td>2026 Q1</td><td>19</td></tr>
</tbody>
</table>
Schema.org 提供了 Dataset(schema.org/Dataset)用于发布数据集,以及 Table 一类的语义用于表格内容;但这里要先迈过的门槛是 HTML 数据表本身,标记只是锦上添花。数据表也是 可引用性 里可引用度最高的内容形态之一:同一段能让图表被读到的写法,往往也能被直接整段引进 AI 答案。
8. 信任与溯源:非文本资产的 E-E-A-T 那一面
非文本资产同样要过信任这一关。一批没有任何溯源的 AI 批量生成图片、一段署名作者实际并不存在的视频、一张数字写得很漂亮却无法核验来源的图表,触发的都是同一类信任判断,与 AI 内容检测 在文字侧针对「AI 规模化批量产出」的那一套机制完全一致。机制相同,只是资产形态换了。
| 资产 | 溯源信号 | 成熟度(截至 2026-05) |
|---|---|---|
| 图片 | C2PA 内容凭证;EXIF 相机元数据;IPTC 图片署名 + 新增的「AI System Used」字段(v2025.1);ImageObject.creator | C2PA 采用面在扩大(指导委员会包含 Adobe、Microsoft、BBC、OpenAI、Sony;普通成员包含 NYT、Nikon、Canon,见 C2PA Membership);EXIF/IPTC 成熟;IPTC v2025.1 的 AI 生成字段是新引入的(IPTC,2025-11-27) |
| 视频 | VideoObject.creator/publisher;平台频道认证(YouTube);上传时间一致性;AI 生成视频上的 SynthID 水印(Google DeepMind) | 以 YouTube 托管为前提时较成熟;SynthID 对 Google 出品的 AI 视频已在使用 |
| 音频 | AudioObject.creator;托管平台认证;AI 生成音频上的 SynthID 水印 | 中等成熟;SynthID 对 Google 出品的 AI 音频已在使用 |
| 图表/数据 | 标注数据来源;附上方法说明;放出可下载的原始数据;让背后的数字本身可被核验 | 完全成熟。这就是常规的引用规范 |
SynthID 是 Google DeepMind 的水印技术,覆盖图片、视频、音频、文本四种形态。官方页面给出的说法是:「水印嵌入在 Google 各类生成式 AI 消费产品中,肉眼无法察觉,但可以被 SynthID 的技术检出」(Google DeepMind)。该页面并未公布具体的检出准确率数字;把它当作一个方向可靠、量级尚未测量的信号即可,这种处理方式和 AI 内容检测 §6 对水印类机制的整体建议一致。
需要说明的边界是:图片溯源生态(C2PA、SynthID、IPTC 的 AI 生成字段)确实在落地、确实在扩散,但截至 2026-05,它还没有成为任何一家主流 AI 引擎已经确认的引用门槛。方向可信,系数尚无测量。
9. 证据可信到哪里,又止于哪里
照例采用「方向有据,量级无测」这套框架,与 多语言 GEO §7、实体识别 §6 在各自论题下用的是同一类做法:机制方向有据可循,具体到「某项标记带来 N% 的引用率提升」这类量级数字,则没有公开严谨的测量。
| 已可成立的结论 | 该被收窄的解读 |
|---|---|
| Google 自己也在明确推荐多模态卫生。「用高质量的图片和视频补充正文」是 8 条官方建议之一(Google Search Central, 2025-05、Search Engine Land 的报道) | 这是引用面最大的厂商给出的一个方向性信号,并不是一份测量。提升幅度并未公开发布;行业报道也指出 Google「给出的具体可执行细节有限」 |
| AIO 答案里的图片卡片与视频卡片是可观察到的。任何商品、菜谱、教程、视觉类研究查询的 AIO 回答都会出 | 这是结构性事实,不是测量。具体哪张图被选进卡片并无公开文档;不要从卡片出现的位置反推「排名要素」 |
| YouTube 文字稿确实能进入 Google 索引。AI Overviews 回答里出现过逐句来自 YouTube 自动字幕的引用 | 这是行业观察,不是严谨基准。方向(YouTube 文字稿进入 AIO)可信度高;某个频道或某段视频的引用率不是一个已知系数 |
| 多模态大模型在被直接喂图时可以描述图片(GPT-4V 系统卡片、Gemini 技术报告) | 这是模型本身的能力,不是检索链路的能力。当下供给答案引擎的检索链路仍主要传递文本,而不是像素。所以「AI 搜索引擎能看见我的图片」是过度外推 |
| C2PA、SynthID 这一整套溯源生态真的在扩散。Adobe、Microsoft、BBC、OpenAI、Sony 在 C2PA 指导委员会,NYT、Nikon、Canon 是普通成员(C2PA Membership);SynthID 已嵌入 Google 的生成式消费产品 | 采用面已被证实;对 AI 引用行为的影响并未被测量。截至 2026-05,它仍不是任何一家主流 AI 引擎已确认的引用门槛 |
两种读取方式下,文本通道都是主导信号。任何一家实时调取型 AI 都能验证:被引回来的,就是这份资产的 alt、周边正文、文字稿 | 这是 2026-05 这个时点的快照。等多模态原生检索器更广泛落地,这一论断会被削弱;本条目的 lastUpdated 与 nextReviewDue 就是给这件事预留的时间戳 |
照例给出一句必须讲清楚的边界:**截至 2026-05,没有任何公开发表的严谨基准,测量过某一项多模态标记选择(alt 文本质量、ImageObject 完整度、文字稿到位与否、C2PA 证明是否齐全)带来的引用率提升幅度。**以上四项的方向都可信,量级都不可信。任何「图片让 AI 引用率提升了 N%」的说法都属于过度宣称。请相信方向、把文本通道做扎实,不要把没有公开测量的系数搬进投资决策。
10. 反模式:多模态里最常见的误读
下面列出本条目要纠正的几种误读,写法与 可引用性 §6、多语言 GEO §8 的反模式表保持一致。
| 误读 | 看上去为什么对 | 实际为什么不对 |
|---|---|---|
| 「alt 文本堆关键词能帮 AI 找到我的图片」 | 看起来是把关键词堆砌延伸到一个新阵地 | Google 明确警告:在 alt 属性里堆砌关键词「会带来负面的用户体验,也可能让你的站点被判定为垃圾」(Google Images best practices)。AI 质量系统识别并降权这一模式,见 AI 内容检测 |
| 「把正文渲染成图片」:用图片输出整段文字 | 看起来很有设计感,排版完全可控 | 像素里的文字对任何文本通道阅读者都是不可读的;OCR 不在实时调取型检索链路的常规流程里。这层文字只对一个恰好被直接喂图的视觉模型可见,对网页检索链路则不存在 |
| 「自托管视频不配文字稿也没事:音频本身会说话」 | 看起来很直观,人耳确实听得到 | 视频里讲过的内容从未进入文本通道;实时调取型 AI 看到的只有一个 <video> 标签。在以视频为主的站点上,加一段同页文字稿就是单点收益最大的改动 |
| 「speakable schema 能让我的内容变成语音 AI 友好」 | 看起来是面向 AI 与语音场景最合适的标记 | speakable 至今仍是 beta,仅限美国、英语、新闻、Google Assistant TTS(Google Search Central — Speakable,2025-12-10)。多年没有放宽。它并不是一个通用的 AI 可读性信号 |
| 「柱状图做成图片就够了,反正人能看懂」 | 看起来已经够用,图就在眼前 | 抽取启发式读的是 HTML 数据表,不是像素图。实时调取型 AI 看到的是一个 <figure> 加一段 alt,仅此而已。图里的那些数字,只有写成文字才会进入答案链路 |
| 「批量上线 AI 生成的库存图,不带任何溯源」 | 看起来是用低成本拿到视觉覆盖 | 文字侧那种「AI 规模化批量产出」的模式,在 AI 内容检测 里讲过,在图片侧也会触发。C2PA、IPTC v2025.1 的「AI System Used」字段、SynthID 水印,AI 引擎要找的正是这一类信任信号;一批没有任何证明的 AI 图片,会被当成多模态版的批量生成内容来读 |
| 「我刚把这张图喂给 GPT-4o 它认得出来,AI 搜索引擎肯定也看得到」 | 看起来很自然:同一家厂的同一个模型 | 模型能力不等于检索链路能力。用户上传那条路径会跑视觉,网页抓取那条路径大多还是把文本传给模型。挂在你页面上的那张图,对它来说依然是 alt 加说明,不是像素 |
真正的失误几乎从来不是「我们忘了打标记」,而是把「多模态」当成视觉问题来做。但在 2026 年,它绝大多数时候依然是一个文本通道的问题。
11. 多模态信号与 GEO 的关系,以及该怎么动手
多模态 GEO 不是一门独立于 AI 的新学科。它是把可引用性与 E-E-A-T 应用到非文本资产上,再用 §3 那套读取方式差别当尺子,判断哪种做法在哪条通道上真正起作用。这些做法本身并不新,只是把已有的几门学科按不同资产类型重新组合而已。
| 你的需求 | 从这里开始 |
|---|---|
| 把图片、视频、音频或图表的标记做对 | Schema 实施 手册 |
| 选定标记格式(JSON-LD、RDFa、Microdata) | JSON-LD |
| 端到端审计一个站点的多模态层 | 完整 GEO 审计 手册 |
| 让页面的文本通道真的能被抽出来 | 可引用性手册、可引用性概念 |
| 给非文本资产校准信任信号 | E-E-A-T、AI 内容检测(AI 规模化批量产出反模式) |
| 看清楚标记词汇本身 | Schema.org for AI |
| 把资产作者绑定到一个创作者实体上 | 实体识别、知识图谱存在度 |
| 看它在 answer loop 里处于哪一步 | Answer Loop |
| 把这一切组合起来的整体方法 | 生成式引擎优化 |
落地的看法是:在动标记或溯源之前,先把每份非文本资产的文本通道审一遍。多数团队会发现,真正卡住自己的并不是少打了一段 ImageObject 标记,而是视频没有文字稿、内容图片没有 alt、图表只有 PNG 没有底层数据、AI 生成的图片批量上线却没有任何证明。先把文本通道做扎实,溯源与像素级能力的影响只在边际上发挥作用。
要查这个词本身及其相邻词,见 GEO 术语表。
参考资料
官方 / 标准:
- Schema.org — ImageObject · VideoObject · AudioObject · PodcastEpisode · Dataset
- Google Search Central — Google Images best practices(2026-03-02 更新)· Video SEO best practices(2025-12-18 更新)· Speakable (SpeakableSpecification) structured data(2025-12-10 更新,仍是 beta)· AI features and your website · Top ways to ensure your content performs well in Google’s AI experiences on Search
- W3C WAI — Understanding Success Criterion 1.1.1: Non-text Content
- IPTC — Photo Metadata Standard(v2025.1,2025-11-27,新增「AI System Used」字段)
- C2PA — Coalition for Content Provenance and Authenticity · Membership · Specifications
- Google DeepMind — SynthID(图片 / 视频 / 音频 / 文本水印)
厂商 / 技术:
- OpenAI — GPT-4V(ision) 系统卡片(2023-09-25)
- Google DeepMind — Gemini: A Family of Highly Capable Multimodal Models(arXiv:2312.11805,2023-12-19)· Introducing Gemini(2023-12-06)。原文:「Gemini 在设计上就是原生多模态的,从预训练阶段开始就同时跨多种模态」
行业:
- Search Engine Land — Goodwin, D.(2025-05-21). Google shares 8 ways to be successful with AI Search experiences
常见问题
GEO 里所谓的多模态信号是指什么?
GPT-4V 和 Gemini 不是能直接看图吗?文本通道为什么还重要?
多模态里收益最大的单点动作是什么?
speakable schema 能让我的内容变成「语音 AI 可读」吗?
AI 搜索引擎真的会因为页面里有图片就把它排得更高吗?
延伸阅读
参考来源
一手来源
- ImageObject — Schema.org · Schema.org
- VideoObject — Schema.org · Schema.org
- AudioObject — Schema.org · Schema.org
- PodcastEpisode — Schema.org · Schema.org
- Dataset — Schema.org · Schema.org
- Google Images best practices · Google Search Central · 2026-03-02
- Video SEO best practices · Google Search Central · 2025-12-18
- Speakable (SpeakableSpecification) structured data · Google Search Central · 2025-12-10
- AI features and your website · Google Search Central · 2025-12-10
- Top ways to ensure your content performs well in Google's AI experiences on Search · Google Search Central · 2025-05-21
- Understanding Success Criterion 1.1.1: Non-text Content · W3C Web Accessibility Initiative
- Coalition for Content Provenance and Authenticity (C2PA) · C2PA
- C2PA Membership · C2PA
- C2PA Specifications · C2PA
- SynthID — identifying AI-generated content · Google DeepMind
- IPTC Photo Metadata Standard (v2025.1) · International Press Telecommunications Council · 2025-11-27
- GPT-4V(ision) system card · OpenAI · 2023-09-25
- Gemini: A Family of Highly Capable Multimodal Models · Google DeepMind / arXiv · 2023-12-19
- Introducing Gemini: our largest and most capable AI model · Google · 2023-12-06
二手来源
- Google shares 8 ways to be successful with AI Search experiences · Search Engine Land (Danny Goodwin)