如何把大模型压缩到1bit？论文作者这样说

AI最新资讯6个月前发布 tree

85 0 0

今日应用

通答AI

通达AI，大模型驱动的AI数字员工，助力企业实现销售、客服、行政与文案工作的智能化升级。

今日话题

如何把大模型压缩到1bit？论文作者这样说

重点标签 模型压缩、量化、OneBit、低位宽、学术交流

文章摘要

自从大模型受到广泛关注以来，人们一直在寻求降低其部署成本的方法。大模型虽然能力强大，但高成本限制了其应用范围。模型量化技术通过将参数转换为低位宽表示，有效减少空间占用。目前，主流量化方法能够将模型压缩至4bit，但低于3bit的量化仍是一个挑战。清华大学和哈尔滨工业大学的研究者提出了一种名为OneBit的1位量化感知训练（QAT）框架，实现了在极低比特宽度下部署大型语言模型（LLM）。OneBit框架包括一种新的1位参数表示方法和一种基于矩阵分解的参数初始化方法，以提高训练速度。实验结果显示，OneBit在仅使用1位权重矩阵的情况下，能够实现至少83%的非量化性能。

为了帮助大家更深入地了解这项研究，机器之心邀请了论文作者之一徐玉庄，在3月18日的线上分享中解读他们的工作。分享主题为“大模型极限量化方法的探索与创新”，内容涵盖模型量化的基本概念、经典方法和超低位宽量化的挑战与思路。感兴趣的观众可以通过关注机器之心机动组视频号预约直播，并加入交流群参与讨论。

机动组是机器之心发起的人工智能技术社区，专注于学术研究与技术实践，提供技术公开课、学术分享、技术实践和实验室探访等内容。社区成员可以参与线下学术交流会和人才服务、产业技术对接活动。更多信息可以通过访问机动组官网或关注服务号获取。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

如何把大模型压缩到1bit？论文作者这样说

今日应用

今日话题

文章摘要

文章来源

总结374篇相关工作，陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

比SAM快30倍的SAM-Lightening来了！推理一张图仅需7毫秒（北航）

相关文章

暂无评论

热门网址

热门标签