跳到正文
概念 · 信号

AI 内容识别

速览要点

它把守的是哪一关
在答案循环(answer loop)的第三步「采信」和第四步「合成」上,对应着垃圾内容过滤与信任过滤这两道闸门
生产环境里真的有一个「AI 检测器」吗
没有。主流 AI 与搜索引擎里,没有任何一家公开承认在线上运行这样的分类器;OpenAI 自家做的那一款,也已在 2023 年 7 月因准确率太低而下线
真正被惩罚的是什么
AI 大规模产出时常见的那套模式:批量页面、捏造数据、伪造作者署名、过度分块、Schema 标记越权宣称。这套模式不管是 AI 做的、人工做的,还是人机协作做的,都会被同样惩罚
用了 AI vs. 用了这套模式
用 AI 本身不会被惩罚,被惩罚的是 AI 规模化产出时常见的那套模式。只要有人工把关、有第一手经验、有原创判断,AI 辅助写出来的内容一样可以被采信
这个说法在行业里是通用术语吗
这套现象本身是行业通用的,但引擎在描述自己到底惩罚什么的时候,用的词是「规模化内容滥用(scaled content abuse)」或「低质量内容」,而不是「AI 检测」

1. 「AI 内容识别」到底是什么

「AI 内容识别」这个说法经常被各种文章混在一起谈,但它其实指的是两件完全不同的事;大多数关于「我这页会不会因此被惩罚」的疑问,本质上都源自把这两件事混为一谈。

第一种含义:外部分类器。 这一类是第三方工具(GPTZero、Originality.ai、Copyleaks、Pangram Labs、Turnitin、Hive 等),它们分析一段文字的特征,去预测这段文字是不是模型生成的。这类产品卖给的是出版社、学校、招聘方和合规团队,并不在任何 AI 引擎内部运行;它们给出的分数也不会决定你的页面是否出现在 ChatGPT、Perplexity、Google AI Overviews 或 Bing Copilot 的答案里,更不会影响这些引擎是否引用你。

第二种含义:搜索 / AI 引擎的质量系统。 这一类,是引擎自己在检索、采信(grounding)、合成这几个环节上跑的垃圾内容过滤与信任过滤。它的目标从来不是要给某段文字贴上「AI 写的 / 人写的」标签,而是去惩罚那些常与「低质量产出」「批量滥用」绑在一起的模式;同一套模式不管来自模型、来自内容农场,还是来自过度热心的代运营机构,处理结果都一样。Google 在 2023 年 2 月关于 AI 生成内容的声明2024 年 3 月的「规模化内容滥用」政策 里反复说的就是这一点:该政策适用于「自动化生产、人工生产,或两者结合生产」的内容。

这两种含义之间的差别,下面这张表对得最清楚。

第一种含义:外部分类器第二种含义:引擎质量系统
它是什么一类第三方工具:分析文字特征,预测这段文字是不是模型写出来的引擎自己在检索、采信、合成这几个环节上跑的垃圾内容过滤与信任过滤
由谁部署GPTZero、Originality.ai、Copyleaks、Pangram Labs、Turnitin 等厂商Google、Bing、OpenAI、Perplexity 等引擎自己,跑在引擎内部
实际惩罚什么对引擎自身的决策没有任何作用:它只输出一个分数,怎么处理由人来定看的是模式,不是工具:规模化滥用、捏造数据、伪造作者署名、Schema 标记越权宣称
与 GEO 的相关性既挡不住你的页面进 AI 答案,也推不动你的页面进 AI 答案会在采信阶段把不合格的页面剔除,落在可引用性闸门与 E-E-A-T 信任过滤之前

最关键的一点:引擎并不去判断一段文字到底是不是 AI 写的;它们识别的,是 AI 大规模产出时常见的那套模式,而同一套模式由人工做出来,也会被同样惩罚。 本条目接下来的每一节,都是这一点的具体延展。

2. 这条反信号在答案循环的哪一步触发

这条反信号并不是引擎新加出来的一层。在四步答案循环(answer loop)里,它落在两道本来就有的闸门上,再加上检索之前的一道触发点。

  • 第三步:采信。 过度优化的结构性模式(过度分块、堆砌 FAQ、模板化样板)会在这一步被识别出来;这类页面会进入候选集,但永远不会被选中。这道闸门正是 可引用性 §6 所谓「必要而非充分」的那条边界。
  • 第四步:信任过滤 / 合成。 低质量批量内容、捏造数据、伪造作者署名会在这一步因「来源不可信」被剔除。这道闸门正是 E-E-A-T §7 所谓「赢得不来、标记也没用」的那条边界。
  • 检索之前:标记审查。 与正文对不上的 Schema 或元数据宣称会被识别为「越权」,在检索发生之前就触发反作弊;这道机制和合成阶段的信任过滤是平行运行、互相独立的(参见 Schema for AI)。

把这三道闸门放到一起看,可以归纳出一条统一的结论:这并不是引擎新加出来的一层「AI 检测器」,而是一直在运行的那套垃圾内容与信任过滤系统,只不过现在面对的规模和对手都升级到了 AI 量级。也正因为如此,同一种反模式会在不同的闸门上有不同的名字:在结构这一关上叫「过度优化」,在信任这一关上叫「伪造权威」,在索引这一关上叫「Schema 标记越权」。一个机制,三种呈现形式。

3. 为什么基于分类器的「AI 检测」并不靠谱

实务讨论里最被低估的一点:到目前为止,没有任何一项同行评议研究能证明商业 AI 文本分类器在真实、对抗性的输入上能跑出它们宣传的准确率。厂商的声量很大,学术文献里的证据却很薄。

证据说明了什么
OpenAI 自己下线了自家分类器,2023 年 7 月 20 日OpenAI 在更新说明里直接说:「该 AI 分类器已不再提供,原因是准确率过低。」发布之初它的真阳性率只有 26%、假阳性率 9%;OpenAI 自己也认定,这两个数字哪怕是在非对抗场景下也已经不堪用(来源)。
Liang 等人,Patterns 2023论文给出的结论是:「在常用检测器上,非英语母语者写的 TOEFL 作文有一半以上被错判为『AI 生成』;相比之下,美国 8 年级学生的英文作文几乎都能被正确判定为人写。」(arXiv:2304.02819)这篇论文表面看是讲「歧视非母语者」,但更深一层的发现是:这些分类器把某些文体特征(词汇受限、困惑度低)误当成了模型输出的指纹。
Sadasivan 等人,arXiv 2023论文给出的结论是:「改写攻击足以击穿当前一整批检测器,连带水印的方案和神经网络检测器也在其中。」(arXiv:2303.11156)论文还推出了一条理论上界:当语言模型的文风越来越接近人类,哪怕是理论上最优的检测器,其表现也会逐步逼近随机分类器。

把当前主要的几家厂商列一下:GPTZero(2023 年 1 月创立,宣称「99% 准确率」)、Originality.ai(同样宣称「99% 准确率」,并配套提供抄袭检测与事实核查)、Copyleaks(宣称「99%+ 准确率、0.2% 假阳性率」)、Pangram Labs(宣称「99.98% 准确率」),以及 Turnitin(对于 AI 生成占比 ≥20% 的文档,宣称假阳性率「不到 1%」)。这些数字全都是在厂商自家的基准上跑出来的;到目前为止,没有任何一家拿出过同行评议的评估,能在前面那些学术研究指出的对抗条件下复现自己的宣传值。

结论很直接:把第一种含义下的分类器分数拿来当 GEO 工作的审计输入,并不安全;真正在起作用的那一层,是第二种含义下的引擎质量系统。

4. AI 引擎真正惩罚的是哪些模式

这一节给出可操作的清单:先讲政策,再讲模式。

政策依据。 Google 的一贯立场是:用了 AI 本身并不构成违规;用任何自动化手段(包括 AI 在内)批量生成、以操纵排名为主要目的的内容,才是违规。 2024 年 3 月的核心更新 扩展了垃圾内容政策,明确列出三件事:过期域名滥用、规模化内容滥用、站点信誉滥用。Google 官方的 Spam Policies 页面给规模化内容滥用下的定义是:「为操纵搜索排名而非帮助用户,而批量生成大量页面……包括使用生成式 AI 工具或类似工具生成大量对用户无价值的页面。」Bing 的 Webmaster GuidelinesAI Performance 预览版 沿用的是同一套质量框架。OpenAI、Anthropic、Perplexity 对「能不能用某种工具」这件事没有公开规则,它们依赖的是来源端的权威信号。

模式清单。 下表每一行都是引擎实际会检查的一类模式,并附上同站内对这类模式做完整论证的那个条目。

模式看起来是什么样的为什么被惩罚
批量生成的内容在互不相关的主题上一次性产出大量看似完整、其实低成本的页面大规模的低质量产出可以在统计层面被识别出来;Google 的规模化内容滥用政策明确点名了这种情况。另见 E-E-A-T §7 从信任过滤角度的论证
捏造的统计数据没有来源的数字、可疑的整数比例、引用根本不存在的研究没有来源的数字会被信任过滤识别出来;这正是 可引用性 §6E-E-A-T §7 都会点名的反模式
伪造作者署名 / 虚构资历作者档案在网上找不到对应的 sameAs 关联,没有知识图谱(Knowledge Graph)记录,简介却写得很权威引擎做不出实体解析;E-E-A-T §7 的信任过滤这一行专门覆盖这种情况
过度分块 / FAQ 堆砌大量短小的问句式片段,匹配的却不是任何真实查询看上去像可引用性,但片段本身失去意义、问题也无人在问,会在采信闸门被识别为样板内容
模板化样板同一种结构在多个主题、多个站点上反复堆砌大规模批量内容的典型形态;Google 的规模化内容滥用政策与 Bing 的质量准则都点名了它
Schema / 标记越权宣称结构化数据宣称了作者、评分、组织 sameAs 等属性,正文却给不出对应的支撑被识别为越权后触发反作弊,机制与「伪造权威触发信任过滤」是同一道(详见 Schema for AI
过期域名滥用买下一个原本可信的老域名,转用于完全无关的新内容2024 年 3 月的垃圾内容政策扩展 里被直接点名
无实质的引用堆砌引用数量很多,但每条引用都不真正支撑它旁边的论断引用与论断的错位是可以被识别出来的,会被下调权重;E-E-A-T §7 也有对应的一行

把上面每一行里的「AI」替换成「批量生产」,整张表依然成立。这是更正确的脑中模型:人工产出的内容只要也走了这套模式,会以完全相同的方式失败。

5. 实证依据:Aggarwal 等人对「关键词堆砌」的实测

「这些模式会被惩罚」并不是一个假设。它在 GEO 领域奠基的那篇论文里就有清晰的实证下限。Aggarwal 等人在 GEO-bench 上测试了九种内容改写手法,结果分得很干净:内容实质层面的改写(引用来源、补充统计数据、加入引文)能可观地提升答案可见度;而关键词堆砌,也就是 SEO 的典型条件反射,不仅没有提升,甚至可能产生反效果。 详见 Aggarwal 等人 KDD ‘24 与本站论文条目

比标题数字更值得讲的是它的边界读法。论文给出的是「最高 40%」的提升,但这是某一种手法、在内部评测装置上、对自身指标得出的上限。同一种手法换到真实引擎 Perplexity.ai 上时缩到了约 22%;本站论文条目的批评一节把这道差距部分归因于真实引擎上的信任过滤:那些「捏造统计数据」的改写能在评测装置里赢一次表面胜利,但到了跑着第二种含义系统的真实引擎上就会失分。Puerto 等人的 C-SEO Bench(NeurIPS ‘25 数据集与基准)把这条发现延伸到了「多方博弈」场景:当不止一个作者去追这套手法时,许多原本有效的改写会变得无效,甚至产生反效果。

结论直说:引擎确实会主动惩罚 SEO-垃圾内容式的模式,而这同一套机制,也限制了那些方向本来正确的「内容实质改写」能拿到多少上限。 反模式识别与实质改写天花板,是同一道闸门的两个面向。

6. 水印技术:愿景与现实

水印是每个决策者都会问的问题。截至 2026 年 5 月,它仍属于研究前沿,并不是可以直接拿来做审计的输入。

  • Scott Aaronson 在 2022 年的最早设想(在 Microsoft Research 的一次报告上提出)是第一份具有可信度的密码学水印思路:在模型采样 token 时引入一种只有密钥持有者才能识别的偏置。
  • Google DeepMind 的 SynthID-Text 是迄今最具说服力的生产级方案。它在 2024 年底通过 Hugging Face Transformers 开源,并在 Gemini 中上线;做法是调制 token 的采样概率,让输出对人类读起来无差别,但训练过的模型能识别出来(详见 SynthID)。Dathathri 等人发表在 Nature 的论文报告了一次面向约 2000 万 Gemini 用户的 A/B 实验,结果显示带水印的回答没有出现可观的质量回退。
  • 会让可检测性归零的操作:通过另一个模型改写、轻度的人工编辑、经由不带水印的另一个模型转译、把带水印与不带水印的文本混合。Nature 论文本身也明确指出:对短输出或被大幅改动的输出,检测置信度会显著下降。
  • 目前还缺的东西:跨厂商的强制力。OpenAI、Anthropic、Meta、Google 各自用一套不同的方案,或干脆不用,互不相通,也没有任何规则要求它们必须互通。一段文字只要经过两个模型,几乎一定就不再携带可用的水印。

对 GEO 实务来说,结论只有一句:没有任何一家生产环境中的 AI 引擎以水印作为采信信号;它既不是可被索引的信任代理,也不是审计输入,更不是可以用来争取被引用的杠杆。

7. AI 到底能不能用来写内容?

这是客户最常借本条目问的那个问题;下面给出一个基于事实的判断,而不是一种道德评判:

使用 AI 本身并不会被惩罚;被惩罚的是 AI 规模化时常见的那套模式。 AI 辅助写出来、有人工编辑、有原创思路、有可核实专业度的稿件,并不属于上面那些失败模式。批量生成、没有人工把关的 AI 内容确实会被惩罚;但识别它的方式,是 Google 和 Bing 这十年来一直在跑的同一套质量系统,跟「是人是机器」这道线并无关系。

真正非对称的一步,是去做规模化最难伪造的那件事:与主题之间的第一手接触,也就是 E-E-A-T 里的「经验」一项。具体到亲身的细节、原始数据、写得出真实的地名、写得出有日期的事件、给得出可被核实的论断。这些标记不是模型「写不出来」,而是要在大规模产出里写出来,必须真的做过那件事。

可以停止担心的事情:

  • 你的页面会不会被 GPTZero 或 Originality.ai 「标记」(详见 §3,这些工具并没有进入引擎决策链路的路径)。
  • 用 ChatGPT 辅助的初稿是不是天然会被惩罚(Google 的政策已经明确说不会)。
  • 译者过一遍机器翻译会不会触发识别(详见上文 FAQ,真正的失败模式是「无人复核」,不是机器翻译本身)。

需要开始认真担心的事情:

  • 你的内容是不是带有「没有亲历过那件事,模型根本写不出来」的经验标记。
  • 你的统计数据是不是有来源、可被核实,而不是听起来像真的的整数比例。
  • 你的署名作者是不是真实存在的人,有可以对得上的 sameAs 与知识图谱记录。
  • 你的结构后面有没有真正的实质,而不只是结构的「形」;这正是 可引用性 §6 所谓「必要而非充分」的那一行。

本节最核心的那句话:引擎真正在问的,并不是「这是不是人类写的」,而是「这些主张背后有没有一个能负责的人」。

8. 这件事在 GEO 上的意义 + 接下来怎么做

这条反信号所在的位置,正是 E-E-A-T §9可引用性 §8 都在处理的那道采信瓶颈,只是从「失败的那一面」去看。实质信号会把页面拉上去;规模化滥用模式会把页面拉下来。它们是同一道过滤的两个方向。

你的意图第一站
审计内容是否存在过度优化模式可引用性 §6
检查信任侧的信号:作者、资历、来源E-E-A-T
确认 Schema 没有越权宣称Schema for AI
把这条反信号定位到答案循环里Answer Loop
整体框架生成式引擎优化
实证依据Aggarwal 等人(KDD ‘24)

参考资料

官方平台文档(截至 2026-05):

学术:

  • Dathathri, S. 等(2024)。Scalable watermarking for identifying large language model outputs。Nature 634, 818–823。doi:10.1038/s41586-024-08025-4
  • Liang, W.、Yuksekgonul, M.、Mao, Y.、Wu, E. & Zou, J.(2023)。GPT detectors are biased against non-native English writers。Patterns 4(7), 100779。arXiv:2304.02819
  • Sadasivan, V. S.、Kumar, A.、Balasubramanian, S.、Wang, W. & Feizi, S.(2023)。Can AI-Generated Text be Reliably Detected? arXiv:2303.11156
  • Aggarwal, P. 等(2024)。GEO: Generative Engine Optimization。KDD ‘24。arXiv:2311.09735·ACM DL·本站论文条目
  • Puerto, H.、Gubri, M.、Green, C.、Oh, S. J. & Yun, S.(2025)。C-SEO Bench: Does Conversational SEO Work? NeurIPS ‘25 数据集与基准。arXiv:2506.11097

厂商页面(仅作盘点;不可靠性的论据见 §3):

常见问题

Google 会识别出我用了 ChatGPT 来写这篇文章吗?
Google 并没有在线上跑一个专门判断「这是人写的还是 AI 写的」的分类器。它的立场在 2023 年和 2024 年都重申过,一直没变:在合理范围内借助 AI 完全没问题;但只要是为了操纵排名而批量生产内容,那不管用的是 AI、其他自动化工具,还是人机协作,都属于违反垃圾内容政策。2024 年 3 月的核心更新通过「规模化内容滥用」政策把这一点说得更清楚:该政策适用于「自动化生产、人工生产,或两者结合生产」的内容。Google 真正看的是模式和意图,而不是你用了哪个工具。
GPTZero、Originality.ai、Copyleaks、Pangram、Turnitin 这些 AI 检测器靠谱吗?
这些都是商业产品,自报准确率几乎都标到 99% 以上,但独立、经过同行评议的研究从未复现出这样的数字。Liang 等人在 Patterns 2023 上的论文显示:在常用检测器上,非英语母语者写的 TOEFL 作文有一半以上被错判为「AI 生成」;而美国 8 年级学生的英文作文几乎都能被正确判定为人写。Sadasivan 等人 2023 年的论文则证明,仅靠简单的改写就足以让这些检测器的准确率掉到接近随机猜测。OpenAI 自家做的分类器也已经在 2023 年 7 月以「准确率过低」为由下线。任何分类器给出的分数(哪怕标的是 99%)都只能当作低置信度参考,不能当作证据。
水印技术能解决这个问题吗?
目前还不能,至少没法靠某一家单方面解决。Google DeepMind 的 SynthID-Text(Nature 2024)是迄今最可信的生产级方案:在 Gemini 上已经线上运行,也已经开源;但它只在模型的「原始」输出上具备统计可检测性。只要经过一次改写、一次轻度的人工编辑、用另一个不带水印的模型转译一遍,或者把带水印的文本与不带水印的混在一起,可检测性就会归零。跨厂商层面也没有强制力:OpenAI、Anthropic、Meta、Google 各自一套不同的方案,或干脆不做,彼此互不兼容,也没有任何规则要求它们必须兼容。截至 2026 年 5 月,没有任何一家在生产环境运行的 AI 引擎会拿水印当作采信信号。
我能用 AI 写文章初稿吗?
可以,但有两点需要做到。第一,引擎惩罚的并不是「你用了 AI」本身,而是下面这些具体模式:批量滥用、捏造数据、伪造作者署名、堆砌 FAQ、Schema 标记越权宣称。只要有人工编辑、有原创思路、有可被核实的专业度,AI 辅助写出来的初稿就不会落到上述模式里。第二,真正能拿到加分的,是稿子里那些模型难以批量伪造的「第一手经验」标记:真用过某款产品、写得出真实的地名、写得出有日期的具体事件、拿得出原始数据。引擎真正在问的,并不是「这是不是人写的」,而是「这些说法的背后,有没有一个能负责的人」。
那 AI 翻译的内容呢?
机器翻译本身并不是问题。真正会出问题的,是这几种情况:发布无人复核的翻译稿、原文本身就内容单薄,或者译文里宣称了自己其实并没有的专业度。引擎看的信号和看原文条目时完全一样:作者身份可核实、主张准确、有来源、有时效。一份强稿经过编辑润色翻译过来,可以被采信;而仅靠机器翻译堆出来的单薄稿件会被识别为规模化滥用,换回原文语种发布也是一样的结局。

延伸阅读

参考来源

一手来源

  1. Google Search's guidance about AI-generated content · Google Search Central · 2023-02-08
  2. Using AI-generated content · Google Search Central
  3. What web creators should know about our March 2024 core update and new spam policies · Google Search Central · 2024-03-05
  4. Spam Policies for Google Web Search · Google Search Central
  5. An update to our site reputation abuse policy · Google Search Central · 2024-11-19
  6. New AI classifier for indicating AI-written text · OpenAI · 2023-01-31
  7. SynthID — text watermarking · Google DeepMind
  8. Bing Webmaster Guidelines · Microsoft Bing
  9. Introducing AI Performance in Bing Webmaster Tools (Public Preview) · Microsoft Bing · 2026-02-09
  10. GEO: Generative Engine Optimization (Aggarwal et al., KDD '24) · arXiv · 2024-06-28
  11. GEO: Generative Engine Optimization (KDD '24 Proceedings) · ACM SIGKDD · 2024-08-25

二手来源

  1. Scalable watermarking for identifying large language model outputs (Dathathri et al., Nature 2024) · Nature
  2. GPT detectors are biased against non-native English writers (Liang et al., Patterns 2023) · arXiv / Patterns (Cell Press)
  3. Can AI-Generated Text be Reliably Detected? (Sadasivan et al. 2023) · arXiv
  4. C-SEO Bench: Does Conversational SEO Work? (Puerto et al., NeurIPS '25 D&B) · arXiv / NeurIPS '25 D&B
最近更新: 2026-05-21 作者: Ray Yang 主题: 信号