标签:数据集

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

文章接着提出了一个问题:基于网络文本数据集得到的Scaling law是否具有普适性?为了回答这个问题,AI数据公司Reworkd的研究者Rohan Pandey进行了一项研究。...

Llama3背后的秘密:HuggingFace发布万亿级数据集Fineweb

摘要总结:HuggingFace最近发布了一个名为Fineweb的大规模筛选网络数据集,该数据集在15万亿个公共数据标记上进行训练,旨在优化大型语言模型(LLM)的性能。...

大模型微调项目 / 数据集调研汇总

文章摘要:本文总结了一些热门的大模微调项目和数据集。作者建议多动手实践,通过克隆项目、下载数据集和使用checkpoint来平定心态。文章介绍了几个大模型微...

一文带你了解LLAMA(羊驼)系列

摘要:本文详细介绍了Meta公司推出的LLAMA系列大型语言模型(LLM)的改进点。LLAMA系列模型采用decoder-only结构,通过高质量数据集、Pre-normalization预归...

“弱智贴吧”的数据,居然是最强中文语料库

AIGC领域专业社区关注:本篇文章来自一个专注于AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地。COIG-CQ...

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书

在一项最新的研究中,使用百度贴吧中的弱智吧数据训练的大型AI模型在多个测试中取得了优异的成绩。这些测试包括问答、头脑风暴、分类、生成、总结和提取等,...

弱智吧:大模型变聪明,有我一份贡献

弱智吧是一个充满智慧和创意的社区,其内容已成为AI训练数据的宝贵资源。COIG-CQIA数据集的发布,为中文LLM的发展提供了重要的数据支持。研究表明,使用该数...

让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了

研究背景 人类具有观察他人行为并映射到自己视角的能力,这对于AI智能体在通用场景中执行任务非常重要。目前AI智能体训练通常需要相同视角的演示视频,而直...

还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024

字节跳动技术团队针对竖屏视频理解发布了新数据集,并提出了多个技术点和一个初始方案。这项研究有助于竖屏视频的准确理解和基础技术架构的发展,论文已入选C...