马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

AI最新资讯3个月前发布 tree

50 0 0

今日应用

Jiumo Search 鸠摩搜索

鸠摩搜索引擎是一款专注于电子书的搜索工具，提供广泛且多样的电子书资源，界面简洁高效，帮助用户轻松找到所需内容，是阅读爱好者的理想选择。

今日话题

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

重点标签 xAI超算中心、Grok 2训练、芯片短缺、电力供应、AI算力竞争

文章摘要

马斯克旗下的人工智能初创公司xAI计划建造一个超算中心，预计2025年秋季建成，规模将是当前最大GPU集群的四倍。这个「超级计算工厂」旨在保证Grok 2及之后版本的训练，因为马斯克认为算力是AI发展的关键制约因素。xAI已经从Oracle租用了约1.6万个H100芯片的服务器，是这些芯片的最大订单来源。尽管英伟达宣布将生产全新架构Blackwell的B100 GPU，马斯克仍计划采购H100，因为AI竞争中时间至关重要。

然而，即使「超级计算工厂」按时交付，明年秋天是否仍具有规模优势仍是未知数。Meta、微软和OpenAI也在积极扩展其算力，计划部署数十万至百万个GPU，并讨论开发价值1000亿美元的超级计算机。这场算力之战中，英伟达作为芯片供应商可能成为最终赢家。

马斯克还指出，电力供应在未来一两年将变得至关重要，可能会取代芯片成为AI发展的最大限制因素。一个拥有10万GPU的数据中心需要100兆瓦的专用电力，因此「超级计算工厂」的选址需要考虑电力供应。数据中心通常建在电力便宜且供应充足的偏远地区，如微软和OpenAI在威斯康星州建造的大型数据中心，以及亚马逊云服务在亚利桑那州的数据中心。特斯拉总部所在的德克萨斯州奥斯汀市是一个可能的选址。

训练AI模型是一个极其耗电的过程。例如，训练GPT-3的耗电量约为1287兆瓦时，相当于130个美国家庭每年的用电量。AI公司可能很快开始争夺降压变压器，以将高压电流转换为电网可用的电力。马斯克认为，AI行业需要「transformers for Transformers」，即在芯片之后，电力供应和转换将成为关键因素。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC新智界

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

今日应用

今日话题

文章摘要

文章来源

Meta等最新研究：多token预测，提升大模型推理效率

2024北京智源大会开启注册！

相关文章

暂无评论

热门网址

热门标签