标签:量化技术

不懂就问,DiT能量化到只有4位吗?HQ-DiT:高效的 FP4 混合精度量化 DiT

本文介绍了一种针对扩散变换器(Diffusion Transformer,简称DiT)的高效混合精度量化方法HQ-DiT,该方法使用4位浮点数(FP4)对DiT进行量化,显著提升了推理...

用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高

Intel Labs的研究团队通过神经架构搜索(NAS)技术,成功为大型语言模型(LLM)实现了模型大小的显著降低,同时在某些情况下还提升了模型的准确度。这项研究...