纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

今日应用

一键搜索阿里云盘、百度网盘、夸克网盘中的资源

纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

重点标签 大语言模型、C语言、GPT-2、CUDA、机器学习

Karpathy 表示，他选择从 GPT-2 开始，因为它是大语言模型的鼻祖，并且有可用的模型权重。项目的原始训练实现在 GitHub 上提供。项目在开始时一次性分配所有所需的内存，并且内存占用量在训练过程中保持不变。

Karpathy 正在逐层将其移植到 CUDA 上，以提高效率，并期待能在 PyTorch 的合理范围内。未来该项目的延伸会包括将精度从 fp32 降低到 fp16 / 以下，以及增加几个层以支持更现代的架构。

要使用 llm.c，首先要下载并 tokenize 数据集。llm.c 到这一步已经可以训练模型。然而，基线 CPU/fp32 参考代码的效率很低，从头开始训练这些模型不切实际。因此，这里使用 OpenAI 发布的 GPT-2 权重进行初始化，然后再进行微调。

最后，Karpathy 表示，一旦项目稳定起来，就会出关于从头开始用 C 语言写大模型的视频。

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论...