文章资讯

纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了

Karpathy 表示,他选择从 GPT-2 开始,因为它是大语言模型的鼻祖,并且有可用的模型权重。项目的原始训练实现在 GitHub 上提供。项目在开始时一次性分配所有...

不牺牲算法,不挑剔芯片,这个来自中科院的团队正在加速国产AI芯片破局

在 AI 算力竞赛愈发激烈的当下,除了增加硬件投入,企业也在寻求更经济、有效的方法提升算力。中科院计算所编译团队负责人、中科加禾创始人崔慧敏提出了鲜有...

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

网络连接Gaudi 3的I/O升级,每块芯片提供48个100Gb以太网链路,增加了一倍的带宽,达到200Gb/秒。英特尔希望提升Gaudi 3的可扩展性,已开发了多达512个节点的...

Llama架构比不上GPT2?神奇token提升10倍记忆?

研究了三种类型的合成数据:bioS、bioR、bioD。重点研究了基于 GPT2、LlaMA、Mistral 的语言模型架构。发现,如果训练时间充足,模型的存储效率均可以达到 2b...

7B超越百亿级,北大开源aiXcoder-7B最强代码大模型,企业部署最佳选择

aiXcoder 7B 代码大模型是由北京大学软件工程研究所的团队开发的,专为企业级项目设计。该模型在代码生成和补全任务中表现出色,甚至超越了参数量更大的模型...

Google开源大模型新成员CodeGemma、RecurrentGemma,继Transformer后新架构Griffin诞生

CodeGemma 旨在为开发者和企业提供代码补全、生成和聊天服务。它利用 Gemma 模型的基础,为社区带来了强大而轻量级的编码能力。CodeGemma 的优势包括:- 智能...

来自Anthropic:如何衡量大语言模型的说服力?

研究人员通过测量人们在阅读由人类或AI模型撰写的论据后对特定主张的立场转变程度来评估论点的说服力。他们发现,一个普遍的缩放趋势是随着模型变得更大、更...

AI有了联想,世界将会怎样?

联想集团在2024年的CES上成为AI硬件讨论的焦点。公司掌门人杨元庆在全球员工大会上强调了人工智能的重要性,并明确表示联想不会成为AI集成商,而是要成为行业...

谷歌向微软英特尔全面宣战!首款自研Arm CPU,最强大模型公测,AI视频对垒Sora

在2024年的Google Cloud Next大会上,谷歌宣布了一系列重大的AI模型和产品更新。首先,谷歌推出了升级版的AI视频模型Imagen 2.0,该模型现在能够生成4秒长、...

2万亿训练数据,120亿参数!开源大模型Stable LM 2-12B

Stable LM 2架构采用Transformer,共24层,32个自注意力头,使用大量公开数据集进行预训练。Stability.ai使用了一种称为“FlashAttention-2”的高效序列并行优...
18990919293118