GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

AI最新资讯3周前发布 tree

8 0 0

今日应用

dubbing

dubbing-official-site

今日话题

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

重点标签 Cerebras Inference、AI推理、GPU、大模型、高性能计算

文章摘要

Cerebras Inference推理架构
Cerebras Inference推理架构是Cerebras公司推出的一款高性能AI推理产品，其推理速度远超当前最先进的GPU，能够以1800 token/s的速度输出文本，速度提升了20倍。Cerebras Inference的推出，为AI领域带来了革命性的变革。

推理速度与价格
Cerebras Inference的推理速度比英伟达GPU快20倍，比Groq芯片快2.4倍，且在保持高精度的同时，价格更为优惠。根据官方API定价，Llama 3.1 8B每百万token仅需10美分，Llama 3 70B每百万token仅需60美分，性价比极高。

自研Wafer Scale Engine芯片
Cerebras Inference的成功得益于其自研的第三代芯片Wafer Scale Engine，该芯片具有44GB SRAM和21PB/s的内存带宽，有效解决了内存带宽瓶颈问题。WSE-3芯片的总内存带宽为21PB/s，是H100的7000倍，使其成为高速推理的近乎理想设计。

支持大规模部署
Cerebras Inference支持1-100的批大小，具有极高的成本效益，尤其适用于数十亿到万亿参数模型的推理。如果模型参数超过单个晶圆的内存容量时，研究人员将在”层边界”将其拆分，并映射到多个CS-3系统上。

16位精度，不做取舍
Cerebras Inference在推理速率高的同时，并未在模型权重上做出取舍。它采用了原始16位权重运行了Llama3.1 8B和70B，通过评估，16位模型准确率比8位模型高出多达5%，尤其在多轮对话、数学和推理任务中表现更好。

最优性价比，百万token免费送
Cerebras Inference目前已可通过聊天平台和API访问，任何一个人可随时体验。Cerebras Inference API提供最佳的性能、速度、精度和成本组合，每天为开发者们提供100万个免费token，为大规模部署提供了强有力的支持。

快速推理的重要性
快速推理对于AI模型的智能提升具有重要意义。新技术如scaffolding（脚手架）可以在作出决定前探索不同的可能解决方案，这种”先思考后发言”的方式在代码生成等严苛任务中，可以带来超过10倍的性能提升。

上下文限制
虽然Cerebras Inference在价格和延迟上具有优势，但其在Cerebras上运行的Llama 3.1模型的上下文限制为8k，相较于其他平台的128K有所不足。

总结
Cerebras Inference的推出，为AI领域带来了革命性的变革。其高速推理、高性价比、自研芯片等优势，使其成为AI推理领域的佼佼者。同时，Cerebras Inference还提供了每天100万个免费token的福利，为开发者和企业提供了强大的推理能力。随着技术的不断进步，Cerebras Inference有望在未来为AI领域带来更多的突破和创新。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

今日应用

今日话题

文章摘要

文章来源

【PyTorch 奇淫技巧】如何在PyTorch中创建和使用Python自定义操作符

一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o

相关文章

暂无评论

热门网址

热门标签