不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

AI最新资讯3个月前发布 tree

50 0 0

今日应用

Stable Diffusion——SD中文网

StableDiffusion中文网介绍 S...

今日话题

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

重点标签 机器学习、神经网络、数据集、模型性能、压缩算法

文章摘要

文章接着提出了一个问题：基于网络文本数据集得到的Scaling law是否具有普适性？为了回答这个问题，AI数据公司Reworkd的研究者Rohan Pandey进行了一项研究。他提出了一种压缩算法gzip，用于预测数据复杂性对扩展性质的影响，并发表了题为”gzip Predicts Data-dependent Scaling Laws”的论文。

Pandey的研究方法是通过信息论方法，使用概率式上下文无关语法（PCFG）来直观控制文本数据的复杂度。PCFG是一种可以建模自然语言、代码等的句法复杂度可控的设置。通过调整PCFG的句法性质，Pandey生成了6个具有不同复杂度的数据集，并训练了不同大小的语言模型，记录了它们在不同训练步数下的结果。他发现Scaling law的参数会随句法复杂度而变化，并使用gzip计算了数据集中每个token序列的可压缩率（compressibility）中值作为复杂度度量。

实验结果表明，随着训练数据的可压缩率降低（更加复杂），Scaling law的计算最优边界也会逐渐从参数量偏向数据大小。Pandey还测量了真实世界的代码和自然语言数据集的可压缩率，发现代码数据集的可压缩率更大，因此可能服从不同的Scaling law。

文章最后讨论了如何根据gzip可压缩率计算数据敏感的Scaling law，并提出了一个数据依赖型的Scaling law公式。Pandey的研究表明，Scaling law依赖于训练数据，而gzip可压缩率可以很好地预测数据复杂度对扩展性质的影响。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

今日应用

今日话题

文章摘要

文章来源

全球最强GPU芯片已量产、下一代Rubin曝光，老黄继续打破摩尔定律

超分辨图像无限生成！清华甩出Inf-DiT：Diffusion Transformer 任意分辨率上采样

相关文章

暂无评论

热门网址

热门标签