标签:SGLang Runtime

贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM

Meta公司最新开源的405B模型(Llama 3.1 405B)在性能上达到了新的高度,但同时也因其庞大的模型参数量带来了推理速度的挑战。为了解决这一问题,LMSYS Org团...