非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

AI最新资讯1个月前发布 tree
14 0 0

今日应用


今日话题


非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1
非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1
 

重点标签 Mamba架构Falcon Mamba 7B开源模型状态空间语言模型技术创新

文章摘要


阿布扎比技术创新研究所(TII)发布了一个名为Falcon Mamba 7B的新型开源Mamba架构模型,该模型自2023年12月首次推出以来,已成为Transformer架构的有力竞争者。Falcon Mamba 7B的亮点在于其无需增加内存存储即可处理任意长度的序列,且能在单个24GB A10 GPU上运行。该模型采用了新颖的Mamba状态空间语言模型(SSLM)架构,专门用于处理各种文本生成任务,并在一些基准测试中超越了同尺寸级别的领先模型,如Meta的Llama 3 8B、Llama 3.1 8B和Mistral 7B。

Falcon Mamba 7B提供了四个变体模型,包括基础版本、指令微调版本、4bit版本和指令微调4bit版本。作为一个开源模型,它采用了基于Apache 2.0的许可证“Falcon License 2.0”,支持研究和应用目的。模型的训练数据高达5500GT,主要由RefinedWeb数据集组成,并添加了来自公共源的高质量技术数据、代码数据和数学数据。训练过程中采用了多阶段策略,上下文长度从2048增加到了8192,并在最后阶段使用了一小部分高质量精选数据以提升性能。

Falcon Mamba 7B的训练在256个H100 80GB GPU上完成,采用了3D并行与ZeRO相结合的策略。模型经过了AdamW优化器、WSD学习率计划的训练,并在前50GT的训练过程中,batch大小从128增加到了2048。在稳定阶段,使用了最大学习率η_max=6.4×10^−4,然后使用超过500GT的指数计划将其衰减到最小值。整个模型训练花费了大约两个月时间。

模型评估显示,Falcon Mamba 7B能够适应更大的序列,理论上能够适应无限的上下文长度。在Arc、TruthfulQA和GSM8K基准测试中,Falcon Mamba 7B的得分分别为62.03%,53.42%和52.54%,超过了其他同尺寸级别的模型。然而,在MMLU和Hellaswag基准测试中,Falcon Mamba 7B的表现则不如这些模型。TII首席研究员Hakim Hacid表示,Falcon Mamba 7B的发布是该机构向前迈出的重大一步,进一步推动了对智能系统的探索。目前,TII的Falcon系列语言模型下载量已超过4500万次,成为阿联酋最成功的LLM版本之一。Falcon Mamba 7B的相关论文即将发布。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...