非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

AI最新资讯1个月前发布 tree

14 0 0

今日应用

免费的MG动画制作软件

万彩动画大师是免费易上手的动画制作软件,MG动画制作软件,动画视频制作软件,微课制作软件,可用来制作企业宣传片,产品介绍短片,趣味课件视频,微课视频,演示演讲动画视频等.

今日话题

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

重点标签 Mamba架构、Falcon Mamba 7B、开源模型、状态空间语言模型、技术创新

文章摘要

阿布扎比技术创新研究所（TII）发布了一个名为Falcon Mamba 7B的新型开源Mamba架构模型，该模型自2023年12月首次推出以来，已成为Transformer架构的有力竞争者。Falcon Mamba 7B的亮点在于其无需增加内存存储即可处理任意长度的序列，且能在单个24GB A10 GPU上运行。该模型采用了新颖的Mamba状态空间语言模型（SSLM）架构，专门用于处理各种文本生成任务，并在一些基准测试中超越了同尺寸级别的领先模型，如Meta的Llama 3 8B、Llama 3.1 8B和Mistral 7B。

Falcon Mamba 7B提供了四个变体模型，包括基础版本、指令微调版本、4bit版本和指令微调4bit版本。作为一个开源模型，它采用了基于Apache 2.0的许可证“Falcon License 2.0”，支持研究和应用目的。模型的训练数据高达5500GT，主要由RefinedWeb数据集组成，并添加了来自公共源的高质量技术数据、代码数据和数学数据。训练过程中采用了多阶段策略，上下文长度从2048增加到了8192，并在最后阶段使用了一小部分高质量精选数据以提升性能。

Falcon Mamba 7B的训练在256个H100 80GB GPU上完成，采用了3D并行与ZeRO相结合的策略。模型经过了AdamW优化器、WSD学习率计划的训练，并在前50GT的训练过程中，batch大小从128增加到了2048。在稳定阶段，使用了最大学习率η_max=6.4×10^−4，然后使用超过500GT的指数计划将其衰减到最小值。整个模型训练花费了大约两个月时间。

模型评估显示，Falcon Mamba 7B能够适应更大的序列，理论上能够适应无限的上下文长度。在Arc、TruthfulQA和GSM8K基准测试中，Falcon Mamba 7B的得分分别为62.03%，53.42%和52.54%，超过了其他同尺寸级别的模型。然而，在MMLU和Hellaswag基准测试中，Falcon Mamba 7B的表现则不如这些模型。TII首席研究员Hakim Hacid表示，Falcon Mamba 7B的发布是该机构向前迈出的重大一步，进一步推动了对智能系统的探索。目前，TII的Falcon系列语言模型下载量已超过4500万次，成为阿联酋最成功的LLM版本之一。Falcon Mamba 7B的相关论文即将发布。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

今日应用

今日话题

文章摘要

文章来源

全球最强AI程序员：GPT-4o加持，需求到跑通只需84秒

开源AI视频工具，你只需要当导演，HuggingFace工程师打造

相关文章

暂无评论

热门网址

热门标签