贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

AI最新资讯2个月前发布 tree

18 0 0

今日应用

歌者AI写PPT

歌者AI，让描述变成接地气风格的PPT，轻松打造个性化演示文稿。

今日话题

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

重点标签 SGLang Runtime、v0.2版本、开源项目、性能提升、AI研究

文章摘要

Meta公司最新开源的405B模型（Llama 3.1 405B）在性能上达到了新的高度，但同时也因其庞大的模型参数量带来了推理速度的挑战。为了解决这一问题，LMSYS Org团队推出了SGLang Runtime v0.2，这是一个针对大型语言模型（LLM）和视觉语言模型（VLM）的通用服务引擎。该引擎在运行Llama 3.1 405B时展现出了优于vLLM和TensorRT-LLM的吞吐量和延迟表现，在特定情况下，吞吐量甚至能达到TensorRT-LLM的2.1倍，vLLM的3.8倍。

SGLang Runtime v0.2的特点和优势：
1. 性能卓越：SGLang Runtime在处理Llama系列模型时，无论是在线还是离线场景，都能提供出色的性能，特别是在Llama-70B和Llama-405B模型上的表现尤为突出。
2. 用户友好：SGLang的设计注重易用性和可定制性，使得用户可以轻松地进行修改和部署。
3. 开源项目：作为一个完全开源的项目，SGLang采用Apache 2.0许可授权，核心调度器仅用不到4K行Python代码实现，便于社区参与和贡献。
4. 广泛应用：SGLang已被用于LMSYS Chatbot Arena、Databricks等多个平台和机构，支持数万亿token的迭代，加速了AI产品和研究的发展。

SGLang Runtime v0.2的开发背景：
LMSYS Org是一个由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学的学生和教职员工组成的研究团体。他们通过运营Chatbot Arena平台，深刻理解了高效服务对AI产品和研究的重要性，并基于此开发了SGLang。

SGLang Runtime v0.2的基准测试结果：
在离线和在线用例的基准测试中，SGLang Runtime在多个数据集和模型规模上均展现出了卓越的性能。特别是在Llama-70B和Llama-405B模型上，SGLang的吞吐量和延迟表现均优于其他服务引擎。

SGLang Runtime v0.2的使用方法：
用户可以通过简单的步骤安装并使用SGLang Runtime，包括使用pip、源代码或Docker进行安装，启动服务器，并通过OpenAI兼容的API发送请求。

SGLang Runtime v0.2的未来展望：
LMSYS Org团队表示，他们将继续开发SGLang，增加对长上下文和MoE优化等新功能的支持，以进一步提升性能和可用性。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

今日应用

今日话题

文章摘要

文章来源

反转了？在一场新较量中，号称替代MLP的KAN只赢一局

万亿token！史上最大多模态数据集诞生

相关文章

暂无评论

热门网址

热门标签