文章资讯

纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

Karpathy 表示，他选择从 GPT-2 开始，因为它是大语言模型的鼻祖，并且有可用的模型权重。项目的原始训练实现在 GitHub 上提供。项目在开始时一次性分配所有...

5个月前

在 AI 算力竞赛愈发激烈的当下，除了增加硬件投入，企业也在寻求更经济、有效的方法提升算力。中科院计算所编译团队负责人、中科加禾创始人崔慧敏提出了鲜有...

5个月前

网络连接Gaudi 3的I/O升级，每块芯片提供48个100Gb以太网链路，增加了一倍的带宽，达到200Gb/秒。英特尔希望提升Gaudi 3的可扩展性，已开发了多达512个节点的...

5个月前

研究了三种类型的合成数据：bioS、bioR、bioD。重点研究了基于 GPT2、LlaMA、Mistral 的语言模型架构。发现，如果训练时间充足，模型的存储效率均可以达到 2b...

5个月前

aiXcoder 7B 代码大模型是由北京大学软件工程研究所的团队开发的，专为企业级项目设计。该模型在代码生成和补全任务中表现出色，甚至超越了参数量更大的模型...

5个月前

CodeGemma 旨在为开发者和企业提供代码补全、生成和聊天服务。它利用 Gemma 模型的基础，为社区带来了强大而轻量级的编码能力。CodeGemma 的优势包括：- 智能...

5个月前

研究人员通过测量人们在阅读由人类或AI模型撰写的论据后对特定主张的立场转变程度来评估论点的说服力。他们发现，一个普遍的缩放趋势是随着模型变得更大、更...

5个月前

联想集团在2024年的CES上成为AI硬件讨论的焦点。公司掌门人杨元庆在全球员工大会上强调了人工智能的重要性，并明确表示联想不会成为AI集成商，而是要成为行业...

5个月前

在2024年的Google Cloud Next大会上，谷歌宣布了一系列重大的AI模型和产品更新。首先，谷歌推出了升级版的AI视频模型Imagen 2.0，该模型现在能够生成4秒长、...

5个月前

Stable LM 2架构采用Transformer，共24层，32个自注意力头，使用大量公开数据集进行预训练。Stability.ai使用了一种称为“FlashAttention-2”的高效序列并行优...

5个月前