跳到正文
概念 · 信号

多模态信号

速览要点

是什么
围绕非文本资产(图片、视频、音频、图表)形成的一组信号,决定 AI 引擎能否读懂、采信并引用它们
2026 年的主导通道
文本通道,包括 alt、说明、文字稿、schema、周边正文,而不是像素。当下供给 AI 答案的网页抓取链路仍以文本为主
两种读取方式的差别
索引集成型(Google AIO)复用 Google 已有的图片与视频索引;实时调取型(ChatGPT、Perplexity、带浏览的 Claude)抓取时读 HTML,基本不做 OCR 与转录
视频侧收益最大的一步
补一份同页文字稿。没有文字稿的自托管视频,在实时调取型 AI 那里近乎不存在
speakable schema 的真实范围
截至 2025 年 12 月仍是 beta,仅限美国、英语、新闻网站、Google Assistant TTS;并不是一个通用的「这段内容对 AI 友好」信号

1. 多模态信号是什么

多模态信号,是围绕非文本资产(图片、视频、音频、图表)形成的一组信号,决定 AI 引擎能否读懂、采信并把这些资产引用进答案。这是 生成式引擎优化 信号谱里的「多模态」这一项,也是 E-E-A-T 在非文本资产上对应的可信度判定。

有一点要先讲清楚:当下大多数 AI 引擎在「读多模态」这件事上,一半是真看像素,一半是读文本通道。前沿的多模态大模型(GPT-4V、Gemini、带视觉的 Claude)在直接拿到一张图时确实能看见它(见 OpenAI GPT-4V 系统卡片Gemini 技术报告)。但供给答案引擎的网页抓取链路,绝大多数情况下传给模型的仍是文本而不是像素。所以对引擎来说,alt 文本、说明、文字稿、schema 标记,就是这份资产本身。

GEO Wiki 工作定义多模态信号是非文本资产面向 AI 可读的一组信号,主要由三层构成:文本通道(alt、说明、文字稿、周边正文)、结构化数据通道(ImageObject、VideoObject、AudioObject、Dataset)、溯源通道(C2PA 内容凭证、EXIF、IPTC),共同决定一段非文本资产能否被采信进 AI 生成的答案。

下面按顺序讨论四类资产:图片视频音频图表与数据。决定这四类怎么被读的是同一套机制:索引集成型 AI 与实时调取型 AI 在读取非文本资产上的差别。这套差别放在 §3,是后文一切论述的依据。

2. 四类资产,一表概览

下面这张表是后面分章的总图,每一行对应后面一节。

资产类型主要文本通道主要结构化数据通道在 AI 答案里的露面位置
图片alt 属性、说明、周边正文ImageObjectcaptioncontentUrllicensecreatorembeddedTextCaptionAIO 答案里的图片卡片;图片结果的横向跳转;带引用回答旁边的缩略图
视频同页文字稿、字幕(SRT/VTT)、描述VideoObjectdescriptiontranscriptthumbnailUrluploadDatecontentUrldurationAIO 视频卡片;带时间戳的「跳到这一段」;从 YouTube 抓取的文字稿被整段引用
音频文字稿、节目说明、单集介绍AudioObjecttranscriptcontentUrlcaption)与 PodcastEpisodeaudiopartOfSeriesepisodeNumberAIO 播客卡片;Google Assistant TTS(speakable 的窄场景)
图表、表格、示意图同页 HTML 数据表、说明、在正文里点明关键数字DatasetdistributionvariableMeasuredmeasurementTechnique在答案里被当作数据表引用,几乎不会以像素图的形式被引

有两点值得放慢看。第一:每一行的「主要文本通道」就是答案引擎真正吃进去的那一层信号。第二:VideoObject 本身就带一个明确的 transcript 字段,Schema.org 把它定义为「该对象的文字稿」,标记设计本身就已默认了「以文本通道为主」这条规律。后面四节分别走一遍这四类资产,先在 §3 把决定一切的读取方式差别讲清楚。

3. 两种读取方式:索引集成型 vs 实时调取型

后面所有讨论都建立在这一组差别之上。它和 Schema.org for AI §5 里讲的「索引集成 vs 实时抓取」是同一类机制,只是这里换到非文本资产上看。

索引集成型 AIGoogle AI Overviews、走 Search 路径的 Gemini):复用的是 Google 已经存在十年以上的图片与视频索引。图片 alt 早就被 Google 解析;YouTube 自动字幕与上传字幕走的是同一套基础设施,远在 AIO 出现之前就已经在为 Google Video Search 服务。AIO 的图片卡片来自 Google 图片库,背后的多模态抽取在常规索引阶段就完成了,并非答案生成时现做。AI Overviews 那一项「Core Web Vitals 与多模态信号达标」也是复用 Google 原有的质量系统,并非 AIO 专门叠加的一层(见 Google Search Central — AI features and your website)。

实时调取型 AIChatGPT searchPerplexity、带浏览的 Claude):抓取时直接读 HTML。它看得到 alt 属性和周边的正文。它不会在抓取阶段对图片做 OCR,不会转录视频,不会处理音频。如果文本通道里没描述这份资产,那这份资产对它就形同不存在。

有一处必须区分清楚:当用户直接上传图片、视频或 PDF 给 ChatGPT 或 Perplexity 时,这些产品确实会对上传的文件跑视觉识别与 OCR。那是「用户上传」这条路径,不是「网页抓取」这条路径。你站点上那张图,被检索链路读到的是 alt 与说明,而不是像素。模型的能力,不等于检索链路的能力。

引擎图片读取方式视频读取方式音频读取方式
Google AI Overviews索引阶段做视觉识别,配合 alt、说明、ImageObject;AIO 答案里直接出图片卡片索引阶段、YouTube CC 基础设施、VideoObject 三者配合;AIO 答案里出带时间戳的视频卡片索引阶段配合 AudioObject;播客卡片;speakable 用于新闻 TTS 这个窄场景
ChatGPT searchalt 与周边正文;抓取时不做 OCR读文字稿与描述;抓取时不做转录读文字稿与节目说明;抓取时不做转录
Perplexityalt 与周边正文;抓取时不做 OCR读文字稿与描述读文字稿与节目说明
Google Gemini走 Search 路径(索引集成型),底层是原生多模态模型走 Search 路径,配合 YouTube 基础设施走 Search 路径,配合 AudioObject
Genspark多模态优先的答案形态(Sparkpages),公开资料较少同上同上

后面 §4–§7 都从这一条结论出发:在两种读取方式下,文本通道都是非文本资产的主导信号。对索引集成型 AI 而言,这层文本早在 AI 答案出现之前就已被索引完毕;对实时调取型 AI 而言,像素处理至今没有纳入抓取链路。先把文本通道做扎实,溯源与像素级能力的影响只在边际上发挥作用。

4. 图片:alt、说明、ImageObject、溯源

图片是信号积累最久、文本通道最成熟的一类资产。三层信号按顺序讨论。

文本通道是最关键的一环。alt 属性、紧邻图片的说明文字、图片附近一处描述性的标题,这层文本任何 AI 读取方式都会拿到。Google 自己的图片最佳实践讲得很直:「Google 综合使用 alt 文本、计算机视觉算法以及页面内容,来理解一张图片的主题」(Google Search Central,2026-03-02 更新)。WCAG 无障碍要求与 AI 抽取启发式在这里高度重合:屏幕阅读器需要看到什么,实时调取型 AI 看到的就是什么。W3C 1.1.1 准则(非文本内容)明确要求「所有面向用户的非文本内容必须配有等效作用的文字替代」(W3C WAI)。

结构化数据通道ImageObject 字段包含 captioncontentUrllicensecreatorembeddedTextCaptionexifDatarepresentativeOfPage 等(schema.org/ImageObject)。商品场景对应 Product.image,文章场景对应 Article.image。完整的标记规范详见 Schema.org for AI,这里只说明哪些字段真正承载多模态信息。

溯源通道:C2PA 内容凭证是一套跨厂商的密码学证明,用于标记图片的来源与编辑历史。EXIF 相机元数据、IPTC 图片署名分别记录摄影师、版权、来源。2025-11,IPTC 图片元数据标准 v2025.1 新增了一个明确的「AI System Used」字段,用于标记生成图片所用的模型(官方示例直接点了 ChatGPT、DALL-E、Google Gemini)(IPTC)。溯源信号是新冒出来的一类信任判定依据,和 E-E-A-T 在文字作者署名上要求的那一套是同一类机制。

信号索引集成型怎么读实时调取型怎么读
alt 属性两边都读;AIO 用它评估图片卡片相关性读;主要的文本通道
说明 / 周边正文两边都读
ImageObject JSON-LDAIO 解析为结构化数据当作页面文本读(见 Schema.org for AI §5
C2PA、EXIF、IPTCAIO 可在索引层做核验一般不抓取这层二进制元数据;HTML 里也不会显式露出

对实时调取型 AI 而言,图片本身看不见,只有它的文本通道存在。量级最大的两个场景,一是电商商品图(alt 写商品名加关键变体),二是编辑摄影(alt 写场景、主体、背景),但这套做法本身是通用的。

5. 视频:文字稿、字幕、VideoObject 与托管选择

视频是托管方式直接决定信号格局的一类资产。同一段视频,上传到 YouTube,与自托管且不配文字稿,在 AI 可读性上完全是两种命运;标记再齐整也补不回来。

文本通道:同页文字稿(多数站点上收益最大的单点动作)、SRT/VTT 字幕、视频描述、视频标题。文字稿是视频里讲过的内容进入实时调取型抓取链路的唯一形式。

结构化数据通道VideoObject 有一个明确的 transcript 字段,Schema.org 给的定义就是「该对象的文字稿」(schema.org/VideoObject)。其余关键字段:descriptionthumbnailUrluploadDatecontentUrlembedUrlduration(ISO 8601)。按 Schema.org for AI 的判断:AIO 直接解析,实时调取把它当页面文本读。

托管选择带来的差别:YouTube 与 Vimeo 自动生成字幕与文字稿,Google 的索引早已在持续消化这些数据。Google 自己的视频 SEO 最佳实践给出的建议是「为每段视频建立独立的观看页」(Google Search Central,2025-12-18 更新)。一段不带文字稿的自托管视频,在两种读取方式下基本都不可见:页面上只有一个 <video> 标签,再无别的内容。

托管选择文字稿是否可得AI 可读性
YouTube 或 Vimeo 嵌入自动字幕,上传者可手动补高。AIO 直接拿到文字稿;实时调取读嵌入周围的 HTML 加上平台可访问到的文字稿
自托管,配同页文字稿人工撰写,正文里就有高。两种读取方式都能读到这段文字稿
自托管,只配 VTT 或 SRT仅外挂字幕文件,正文里没有中等。索引集成型会抓外挂文件;许多实时调取型抓取器不会取这一层
自托管,无文字稿近乎不存在

有一条子原则值得点明:把字幕烧进视频像素里的做法,对所有文本通道阅读者都是不可读的,只有外挂的字幕文件才有效。这和图片里「把文字渲染成图片」是同一类失误:像素不是文本。对于以视频为核心的站点(出版机构、教育科技、视频优先的内容业务),托管选择带来的差距,通常比标记是否齐整更大。

6. 音频与 speakable schema:比想象中窄得多

先把多模态领域里流传最广的一个误解讲清楚:speakable schema 让内容「对语音 AI 友好」。按多数人理解的那种「通用语音 AI 信号」,它做不到。

speakable 的实际范围,按 Google 自己最近一次(2025-12-10)更新的官方文档:仍是beta,服务对象限定为「在美国、把 Google Home 设备设置为英语的用户,以及发布英语内容的出版方」(Google Search Central — Speakable)。这套「美国、英语、新闻」三重限制已经维持了多年,2025-12-10 这次更新也没有放宽其中任何一条。它的目标场景是 Google Assistant 的 TTS 朗读,并不是一个通用的「这段内容对 AI 友好」信号。

下面是音频侧真正可用的那一套,多数读者要的就是这一段:

  • 文字稿与视频侧是同一个着力点,作用同样压倒一切。一档没有文字稿的播客,对实时调取型 AI 等于不存在;它讲过的话从未进入文本通道。
  • 节目说明、单集介绍承担的是「搜索引擎可见的摘要」这一角色,实时调取型 AI 看的就是这一段。
  • AudioObject 字段包括 transcriptcontentUrlcaptionencodingFormatdurationschema.org/AudioObject)。PodcastEpisode 字段包括 partOfSeriesepisodeNumberdurationdatePublished 以及内嵌的 audio(一个 AudioObject)(schema.org/PodcastEpisode)。注意:文字稿挂在内嵌的 AudioObject 上,并不是直接挂在 PodcastEpisode 上。

speakable 服务的是 TTS 朗读,文字稿服务的是 AI 可读性,两件事不要混在一起。也不要被厂商或平台的宣传带偏:speakable 标记常常被包装成一个通用的 AI 可读性手段,但规范本身远未覆盖到那一层。

7. 图表、表格与示意图:把数据当作文本

这是四节里最短的一节。规则本身不复杂,但对以数据为核心的分析型内容收益最大。

核心一句:抽取启发式读的是HTML 数据表,而不是像素渲染后的图表。一张 PNG 形式的柱状图对实时调取型 AI 是不可读的;一张柱状图加上它背后的数据表,则是完全可读的。两种范式覆盖了这套规则的绝大部分:

  • 图表配数据表回退:可视化部分给人看,把背后的数字以 HTML <table>(或纯文本)形式同页放出,让文本通道把信息载过去。
  • 说明配关键数字:一段说明用文字把头条数字、来源、时间区间写清楚,无论图表本身能否被读到都能被引用。
<!-- 给人看 -->
<img src="/charts/q1-revenue.png" alt="季度营收走势,2024 Q1 至 2026 Q1,单位百万美元">

<!-- 给 AI 用:数据表回退 -->
<figcaption>季度营收从 1200 万美元(2024 Q1)增长到 1900 万美元(2026 Q1),上涨 58%。</figcaption>
<table>
  <thead><tr><th>季度</th><th>营收(百万美元)</th></tr></thead>
  <tbody>
    <tr><td>2024 Q1</td><td>12</td></tr>
    <tr><td>2025 Q1</td><td>15</td></tr>
    <tr><td>2026 Q1</td><td>19</td></tr>
  </tbody>
</table>

Schema.org 提供了 Datasetschema.org/Dataset)用于发布数据集,以及 Table 一类的语义用于表格内容;但这里要先迈过的门槛是 HTML 数据表本身,标记只是锦上添花。数据表也是 可引用性 里可引用度最高的内容形态之一:同一段能让图表被读到的写法,往往也能被直接整段引进 AI 答案。

8. 信任与溯源:非文本资产的 E-E-A-T 那一面

非文本资产同样要过信任这一关。一批没有任何溯源的 AI 批量生成图片、一段署名作者实际并不存在的视频、一张数字写得很漂亮却无法核验来源的图表,触发的都是同一类信任判断,与 AI 内容检测 在文字侧针对「AI 规模化批量产出」的那一套机制完全一致。机制相同,只是资产形态换了。

资产溯源信号成熟度(截至 2026-05)
图片C2PA 内容凭证;EXIF 相机元数据;IPTC 图片署名 + 新增的「AI System Used」字段(v2025.1);ImageObject.creatorC2PA 采用面在扩大(指导委员会包含 Adobe、Microsoft、BBC、OpenAI、Sony;普通成员包含 NYT、Nikon、Canon,见 C2PA Membership);EXIF/IPTC 成熟;IPTC v2025.1 的 AI 生成字段是新引入的IPTC,2025-11-27)
视频VideoObject.creator/publisher;平台频道认证(YouTube);上传时间一致性;AI 生成视频上的 SynthID 水印(Google DeepMind以 YouTube 托管为前提时较成熟;SynthID 对 Google 出品的 AI 视频已在使用
音频AudioObject.creator;托管平台认证;AI 生成音频上的 SynthID 水印中等成熟;SynthID 对 Google 出品的 AI 音频已在使用
图表/数据标注数据来源;附上方法说明;放出可下载的原始数据;让背后的数字本身可被核验完全成熟。这就是常规的引用规范

SynthID 是 Google DeepMind 的水印技术,覆盖图片、视频、音频、文本四种形态。官方页面给出的说法是:「水印嵌入在 Google 各类生成式 AI 消费产品中,肉眼无法察觉,但可以被 SynthID 的技术检出」(Google DeepMind)。该页面并未公布具体的检出准确率数字;把它当作一个方向可靠、量级尚未测量的信号即可,这种处理方式和 AI 内容检测 §6 对水印类机制的整体建议一致。

需要说明的边界是:图片溯源生态(C2PA、SynthID、IPTC 的 AI 生成字段)确实在落地、确实在扩散,但截至 2026-05,它还没有成为任何一家主流 AI 引擎已经确认的引用门槛。方向可信,系数尚无测量。

9. 证据可信到哪里,又止于哪里

照例采用「方向有据,量级无测」这套框架,与 多语言 GEO §7实体识别 §6 在各自论题下用的是同一类做法:机制方向有据可循,具体到「某项标记带来 N% 的引用率提升」这类量级数字,则没有公开严谨的测量。

已可成立的结论该被收窄的解读
Google 自己也在明确推荐多模态卫生。「用高质量的图片和视频补充正文」是 8 条官方建议之一(Google Search Central, 2025-05Search Engine Land 的报道这是引用面最大的厂商给出的一个方向性信号,并不是一份测量。提升幅度并未公开发布;行业报道也指出 Google「给出的具体可执行细节有限」
AIO 答案里的图片卡片与视频卡片是可观察到的。任何商品、菜谱、教程、视觉类研究查询的 AIO 回答都会出这是结构性事实,不是测量。具体哪张图被选进卡片并无公开文档;不要从卡片出现的位置反推「排名要素」
YouTube 文字稿确实能进入 Google 索引。AI Overviews 回答里出现过逐句来自 YouTube 自动字幕的引用这是行业观察,不是严谨基准。方向(YouTube 文字稿进入 AIO)可信度高;某个频道或某段视频的引用率不是一个已知系数
多模态大模型在被直接喂图时可以描述图片GPT-4V 系统卡片Gemini 技术报告这是模型本身的能力,不是检索链路的能力。当下供给答案引擎的检索链路仍主要传递文本,而不是像素。所以「AI 搜索引擎能看见我的图片」是过度外推
C2PA、SynthID 这一整套溯源生态真的在扩散。Adobe、Microsoft、BBC、OpenAI、Sony 在 C2PA 指导委员会,NYT、Nikon、Canon 是普通成员(C2PA Membership);SynthID 已嵌入 Google 的生成式消费产品采用面已被证实;对 AI 引用行为的影响并未被测量。截至 2026-05,它仍不是任何一家主流 AI 引擎已确认的引用门槛
两种读取方式下,文本通道都是主导信号。任何一家实时调取型 AI 都能验证:被引回来的,就是这份资产的 alt、周边正文、文字稿这是 2026-05 这个时点的快照。等多模态原生检索器更广泛落地,这一论断会被削弱;本条目的 lastUpdatednextReviewDue 就是给这件事预留的时间戳

照例给出一句必须讲清楚的边界:**截至 2026-05,没有任何公开发表的严谨基准,测量过某一项多模态标记选择(alt 文本质量、ImageObject 完整度、文字稿到位与否、C2PA 证明是否齐全)带来的引用率提升幅度。**以上四项的方向都可信,量级都不可信。任何「图片让 AI 引用率提升了 N%」的说法都属于过度宣称。请相信方向、把文本通道做扎实,不要把没有公开测量的系数搬进投资决策。

10. 反模式:多模态里最常见的误读

下面列出本条目要纠正的几种误读,写法与 可引用性 §6多语言 GEO §8 的反模式表保持一致。

误读看上去为什么对实际为什么不对
「alt 文本堆关键词能帮 AI 找到我的图片」看起来是把关键词堆砌延伸到一个新阵地Google 明确警告:在 alt 属性里堆砌关键词「会带来负面的用户体验,也可能让你的站点被判定为垃圾」(Google Images best practices)。AI 质量系统识别并降权这一模式,见 AI 内容检测
「把正文渲染成图片」:用图片输出整段文字看起来很有设计感,排版完全可控像素里的文字对任何文本通道阅读者都是不可读的;OCR 不在实时调取型检索链路的常规流程里。这层文字只对一个恰好被直接喂图的视觉模型可见,对网页检索链路则不存在
「自托管视频不配文字稿也没事:音频本身会说话」看起来很直观,人耳确实听得到视频里讲过的内容从未进入文本通道;实时调取型 AI 看到的只有一个 <video> 标签。在以视频为主的站点上,加一段同页文字稿就是单点收益最大的改动
「speakable schema 能让我的内容变成语音 AI 友好」看起来是面向 AI 与语音场景最合适的标记speakable 至今仍是 beta,仅限美国、英语、新闻、Google Assistant TTS(Google Search Central — Speakable,2025-12-10)。多年没有放宽。它并不是一个通用的 AI 可读性信号
「柱状图做成图片就够了,反正人能看懂」看起来已经够用,图就在眼前抽取启发式读的是 HTML 数据表,不是像素图。实时调取型 AI 看到的是一个 <figure> 加一段 alt,仅此而已。图里的那些数字,只有写成文字才会进入答案链路
「批量上线 AI 生成的库存图,不带任何溯源」看起来是用低成本拿到视觉覆盖文字侧那种「AI 规模化批量产出」的模式,在 AI 内容检测 里讲过,在图片侧也会触发。C2PA、IPTC v2025.1 的「AI System Used」字段、SynthID 水印,AI 引擎要找的正是这一类信任信号;一批没有任何证明的 AI 图片,会被当成多模态版的批量生成内容来读
「我刚把这张图喂给 GPT-4o 它认得出来,AI 搜索引擎肯定也看得到」看起来很自然:同一家厂的同一个模型模型能力不等于检索链路能力。用户上传那条路径会跑视觉,网页抓取那条路径大多还是把文本传给模型。挂在你页面上的那张图,对它来说依然是 alt 加说明,不是像素

真正的失误几乎从来不是「我们忘了打标记」,而是把「多模态」当成视觉问题来做。但在 2026 年,它绝大多数时候依然是一个文本通道的问题。

11. 多模态信号与 GEO 的关系,以及该怎么动手

多模态 GEO 不是一门独立于 AI 的新学科。它是把可引用性与 E-E-A-T 应用到非文本资产上,再用 §3 那套读取方式差别当尺子,判断哪种做法在哪条通道上真正起作用。这些做法本身并不新,只是把已有的几门学科按不同资产类型重新组合而已。

你的需求从这里开始
把图片、视频、音频或图表的标记做对Schema 实施 手册
选定标记格式(JSON-LD、RDFa、Microdata)JSON-LD
端到端审计一个站点的多模态层完整 GEO 审计 手册
让页面的文本通道真的能被抽出来可引用性手册可引用性概念
给非文本资产校准信任信号E-E-A-TAI 内容检测(AI 规模化批量产出反模式)
看清楚标记词汇本身Schema.org for AI
把资产作者绑定到一个创作者实体上实体识别知识图谱存在度
看它在 answer loop 里处于哪一步Answer Loop
把这一切组合起来的整体方法生成式引擎优化

落地的看法是:在动标记或溯源之前,先把每份非文本资产的文本通道审一遍。多数团队会发现,真正卡住自己的并不是少打了一段 ImageObject 标记,而是视频没有文字稿、内容图片没有 alt、图表只有 PNG 没有底层数据、AI 生成的图片批量上线却没有任何证明。先把文本通道做扎实,溯源与像素级能力的影响只在边际上发挥作用。

要查这个词本身及其相邻词,见 GEO 术语表

参考资料

官方 / 标准:

厂商 / 技术:

行业:

常见问题

GEO 里所谓的多模态信号是指什么?
指围绕非文本内容(图片、视频、音频、图表)形成的一组信号,决定 AI 引擎能否读懂、采信并把这些资产引用进答案。2026 年里,所谓「读懂」主要是读懂随资产一起出现的那层文本(alt 文本、说明文字、文字稿、schema 标记),而不是像素级视觉。原因是结构性的:当下供给答案引擎的检索链路向模型传递的仍是文本,即便底层模型本身就是原生多模态的。
GPT-4V 和 Gemini 不是能直接看图吗?文本通道为什么还重要?
模型本身的能力,和检索链路的能力,是两件事。GPT-4V 在用户上传图片时确实能描述图片(见 OpenAI 系统卡片),Gemini 在预训练阶段就是原生多模态(见 Gemini 技术报告)。但当 ChatGPT search 或 Perplexity 从网上抓取你的页面时,通常只把正文抽出来交给模型,并不会把图片一起递过去。所以在 2026 年,无论底层模型多么擅长识图,答案模型实际看到的,仍然是这张图周围的那层文本(alt、周边正文、文字稿)。
多模态里收益最大的单点动作是什么?
对多数站点来说,是给每段视频补一份同页文字稿。YouTube 嵌入自带 Google 的自动字幕基础设施;不带文字稿的自托管 `<video>` 标签,对实时调取型 AI 近乎不存在,因为视频里讲过的内容从未进入文本通道。文字稿就是这段资产进入答案链路的唯一入口。
speakable schema 能让我的内容变成「语音 AI 可读」吗?
不能。这是多模态领域里流传最广的误解。speakable 这一项结构化数据至今仍是 beta,只面向美国、英语、新闻类站点,用途是给 Google Assistant 做 TTS 朗读(详见 Google 官方文档,最近一次更新为 2025-12-10)。这套限制已经维持多年没有放宽。它并不是一个通用的「这段内容对 AI 友好」信号。音频侧真正可用的,是同页文字稿,而不是 speakable 标记。
AI 搜索引擎真的会因为页面里有图片就把它排得更高吗?
Google 的官方说法是:要出现在 AI Overviews 或 AI Mode 里,并没有任何超出常规 SEO 的额外要求(见「AI features and your website」官方文档)。但 Google 在 2025 年 5 月的「在 AI 搜索里取得成功的 8 种方式」里,确实把「用高质量的图片和视频补充正文」列为其中一条建议。值得相信的是这个方向(多模态卫生是被官方点名的优化项之一);不值得相信的是「图片能让 AI 引用率提升 N%」这一类没有公开测量过的具体数字。

延伸阅读

参考来源

一手来源

  1. ImageObject — Schema.org · Schema.org
  2. VideoObject — Schema.org · Schema.org
  3. AudioObject — Schema.org · Schema.org
  4. PodcastEpisode — Schema.org · Schema.org
  5. Dataset — Schema.org · Schema.org
  6. Google Images best practices · Google Search Central · 2026-03-02
  7. Video SEO best practices · Google Search Central · 2025-12-18
  8. Speakable (SpeakableSpecification) structured data · Google Search Central · 2025-12-10
  9. AI features and your website · Google Search Central · 2025-12-10
  10. Top ways to ensure your content performs well in Google's AI experiences on Search · Google Search Central · 2025-05-21
  11. Understanding Success Criterion 1.1.1: Non-text Content · W3C Web Accessibility Initiative
  12. Coalition for Content Provenance and Authenticity (C2PA) · C2PA
  13. C2PA Membership · C2PA
  14. C2PA Specifications · C2PA
  15. SynthID — identifying AI-generated content · Google DeepMind
  16. IPTC Photo Metadata Standard (v2025.1) · International Press Telecommunications Council · 2025-11-27
  17. GPT-4V(ision) system card · OpenAI · 2023-09-25
  18. Gemini: A Family of Highly Capable Multimodal Models · Google DeepMind / arXiv · 2023-12-19
  19. Introducing Gemini: our largest and most capable AI model · Google · 2023-12-06

二手来源

  1. Google shares 8 ways to be successful with AI Search experiences · Search Engine Land (Danny Goodwin)
最近更新: 2026-05-23 作者: Ray Yang 主题: 信号