AI训AI惨遭投毒9次大崩溃，牛津剑桥等惊天发现登Nature封面！

今日应用

腾讯智影是一款云端智能视频创作工具，集素材搜集、视频剪辑、渲染导出和发布于一体的免费在线剪辑平台。强大的AI智能工具，支持文本配音、数字人播报、自动字幕识别、文章转视频、去水印、视频解说、横转竖等功能，拥有丰富的素材库，极大提升创作效率，帮助用户更好地进行视频化的表达。

今日话题

AI训AI惨遭投毒9次大崩溃，牛津剑桥等惊天发现登Nature封面！

重点标签 模型崩溃、AI数据训练、高质量数据荒、统计近似误差、函数表达误差

文章摘要

AI生成数据训练AI模型的风险

近期，牛津、剑桥等机构的研究人员在Nature杂志上发表了一篇论文，指出使用AI生成的数据训练AI模型可能导致模型崩溃。这种现象被称为“模型崩溃”，意味着模型在经过多次迭代后，其输出质量逐渐下降，最终变得毫无意义。研究者通过实验发现，如果在训练过程中不加区分地使用AI产生的内容，模型将逐渐失去对原始数据分布尾部（低概率事件）的感知，导致模型性能不可逆转地下降。

模型崩溃的原因

模型崩溃主要源于三种特定误差源的累积：统计近似误差、函数表达误差和函数近似误差。统计近似误差主要由于样本数量有限而产生，而函数表达误差和函数近似误差则与模型的表达能力和学习过程的限制有关。这些误差在多代模型中逐渐累积，最终导致模型偏离原始模型，产生低质量的输出。

实验验证

为了验证模型崩溃的现象，研究者使用维基百科文章训练了模型OPT-125m，并在前一代模型生成的文本上继续训练多代模型。实验结果显示，随着迭代次数的增加，模型的输出逐渐变得混乱，甚至出现了与输入无关的内容。这一现象在多代AI生成模型中普遍存在，表明模型崩溃是一个严重的问题。

解决方案

为了缓解模型崩溃，研究者建议在每一代模型的训练数据中保留一定比例的原始数据，或者使用多样化的数据源，如人类产生的数据。此外，研究更鲁棒的训练算法也是解决模型崩溃问题的一个方向。科技公司已经部署了嵌入“水印”的技术，以标记AI生成内容，从而在数据集中剔除这些内容。

模型崩溃对语言模型的影响

模型崩溃在各种机器学习模型中都是普遍现象，但对于大型语言模型（LLM）来说，其影响尤为显著。LLM通常使用预训练模型进行初始化，然后对预训练模型进行微调以适应各种下游任务。当LLM使用其他模型生成的数据进行微调时，模型崩溃的现象可能会更加明显。实验结果表明，使用生成的数据进行训练虽然能适应基本任务，但性能有所下降。

总结

AI生成数据在训练AI模型时存在一定的风险，可能导致模型崩溃。为了确保模型的质量和可信度，需要对训练数据进行严格筛选，保留一定比例的原始数据，并考虑使用多样化的数据源。同时，研究更鲁棒的训练算法也是解决模型崩溃问题的关键。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI训AI惨遭投毒9次大崩溃，牛津剑桥等惊天发现登Nature封面！

今日应用

今日话题

文章摘要

文章来源

定制适合自己的 Diffusers 扩散模型训练脚本

谷歌大模型获重大突破，首次拿下国际奥数银牌

相关文章

暂无评论

热门网址

热门标签