纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了

AI最新资讯5个月前发布 tree
78 0 0

今日应用


今日话题


C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了
纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了
 

重点标签 大语言模型C语言GPT-2CUDA机器学习

文章摘要


Karpathy 表示,他选择从 GPT-2 开始,因为它是大语言模型的鼻祖,并且有可用的模型权重。项目的原始训练实现在 GitHub 上提供。项目在开始时一次性分配所有所需的内存,并且内存占用量在训练过程中保持不变。

Karpathy 正在逐层将其移植到 CUDA 上,以提高效率,并期待能在 PyTorch 的合理范围内。未来该项目的延伸会包括将精度从 fp32 降低到 fp16 / 以下,以及增加几个层以支持更现代的架构。

要使用 llm.c,首先要下载并 tokenize 数据集。llm.c 到这一步已经可以训练模型。然而,基线 CPU/fp32 参考代码的效率很低,从头开始训练这些模型不切实际。因此,这里使用 OpenAI 发布的 GPT-2 权重进行初始化,然后再进行微调。

最后,Karpathy 表示,一旦项目稳定起来,就会出关于从头开始用 C 语言写大模型的视频。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...