不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

AI最新资讯3个月前发布 tree
50 0 0

今日应用


今日话题


不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它
不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它
 

重点标签 机器学习神经网络数据集模型性能压缩算法

文章摘要


文章接着提出了一个问题:基于网络文本数据集得到的Scaling law是否具有普适性?为了回答这个问题,AI数据公司Reworkd的研究者Rohan Pandey进行了一项研究。他提出了一种压缩算法gzip,用于预测数据复杂性对扩展性质的影响,并发表了题为”gzip Predicts Data-dependent Scaling Laws”的论文。

Pandey的研究方法是通过信息论方法,使用概率式上下文无关语法(PCFG)来直观控制文本数据的复杂度。PCFG是一种可以建模自然语言、代码等的句法复杂度可控的设置。通过调整PCFG的句法性质,Pandey生成了6个具有不同复杂度的数据集,并训练了不同大小的语言模型,记录了它们在不同训练步数下的结果。他发现Scaling law的参数会随句法复杂度而变化,并使用gzip计算了数据集中每个token序列的可压缩率(compressibility)中值作为复杂度度量。

实验结果表明,随着训练数据的可压缩率降低(更加复杂),Scaling law的计算最优边界也会逐渐从参数量偏向数据大小。Pandey还测量了真实世界的代码和自然语言数据集的可压缩率,发现代码数据集的可压缩率更大,因此可能服从不同的Scaling law。

文章最后讨论了如何根据gzip可压缩率计算数据敏感的Scaling law,并提出了一个数据依赖型的Scaling law公式。Pandey的研究表明,Scaling law依赖于训练数据,而gzip可压缩率可以很好地预测数据复杂度对扩展性质的影响。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...