标签:预训练

ECCV 2024|1p-frac:已开源,仅用单张分形图片即可媲美ImageNet的预训练效果

本文探讨了使用最小的合成数据集进行预训练的可能性,特别是通过单一分形图像生成的扰动构建数据集,并研究其与大规模真实图像数据集(如ImageNet-1k)相当的...

明确了:文本数据中加点代码,训练出的大模型更强、更通用

在大语言模型(LLM)的研究中,代码数据的重要性日益凸显。Cohere等机构提交的最新研究系统地探讨了代码数据对通用大模型性能的影响。研究者发现,代码数据不...

ICLR 2024 spotlight | 基础模型时代的全新研究方向:灾难性继承与噪音模型学习

极市导读:本文首次深入探讨了预训练数据中的噪声对下游任务性能的影响,原因及其缓解方法。提出了新研究方向:灾难性继承,即理解、解释及消除大模型的继承...

苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人

苹果公司在生成式人工智能(GenAI)领域的投入和重视程度不断提升,特别是在多模态基础模型的研发上。苹果CEO蒂姆·库克在2024年的股东大会上宣布,公司将在Ge...