不懂就问,DiT能量化到只有4位吗?HQ-DiT:高效的 FP4 混合精度量化 DiT

今日应用


今日话题


不懂就问,DiT能量化到只有4位吗?HQ-DiT:高效的 FP4 混合精度量化 DiT
不懂就问,DiT能量化到只有4位吗?HQ-DiT:高效的 FP4 混合精度量化 DiT
 

重点标签 HQ-DiT混合精度量化DiTFP4量化技术

文章摘要


本文介绍了一种针对扩散变换器(Diffusion Transformer,简称DiT)的高效混合精度量化方法HQ-DiT,该方法使用4位浮点数(FP4)对DiT进行量化,显著提升了推理性能和资源使用效率。DiT因其出色的视觉生成能力受到学术界和工业界的关注,但其高参数计数和实现成本限制了在资源受限设备上的应用。HQ-DiT通过后训练量化技术(Post-Training Quantization,简称PTQ),将权重量化为4-bit浮点数,实现了与全精度模型相当的性能,同时加速了5.09倍,内存节约了2.13倍。此外,HQ-DiT还引入了一种新的算法,根据数据分布自适应地选择最佳FP格式,节约了计算开销。

HQ-DiT的关键技术包括:

1. FP4量化:将DiT中的权重和激活值量化为4位浮点数,减少了内存和计算负担,同时保持了高精度。
2. Hadamard变换:引入随机Hadamard变换消除输入激活中的异常值,减轻了量化误差。
3. FP格式选择:提出了一种基于数据分布的FP格式选择方法,优化了性能并减少了计算开销。
4. MinMax量化:对激活值采用MinMax量化方法,简单高效。

实验结果表明:

– HQ-DiT在Inception Score(IS)和Frechet Inception Distance(FID)方面优于全精度的latent diffusion model(LDM)。
– 在ImageNet数据集上,HQ-DiT在无条件图像生成和条件图像生成任务中均取得了优异的性能。
– 消融实验显示,Hadamard变换和FP格式选择对图像质量有显著影响,混合FP量化方案有效提高了DiT的性能。

作者信息:

– 科技猛兽:清华大学自动化系硕士,研究领域为AI边缘计算,专注于模型压缩、搜索、量化、加速等。

极市平台:提供计算机视觉技术交流和资源分享,欢迎关注获取更多AI技术动态和干货。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...