标签:知识蒸馏

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

在深度学习领域,Transformer 模型因其注意力机制而广受欢迎,该机制允许模型关注输入序列的相关部分,从而实现更好的上下文理解。然而,注意力机制的计算开...

英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码

英伟达在其技术博客中详细介绍了如何利用Llama 3.1模型生成合成数据,以支持领域模型或RAG系统的微调。合成数据在AI领域已有十多年的应用历史,但其重要性随...

CVPR 2024|知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点

摘要:文章针对传统知识蒸馏中的温度设置问题,提出了Logit标准化方法。传统知识蒸馏默认学生和教师网络的温度是全局一致的,这导致学生网络被迫模仿教师网络...

CVPR 2024|进一步加速落地:压缩自动驾驶端到端运动规划模型

摘要:本文介绍了PlanKD,这是一种为压缩端到端运动规划器而设计的知识蒸馏方法。该方法通过信息瓶颈学习与规划相关的特征,实现有效的特征蒸馏。同时,提出...

总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

本文讨论了大语言模型(LLMs)的迅速发展及其在科研和工业界的应用。由于闭源LLMs与开源LLMs之间存在差距,研究者致力于提升开源LLMs和其他小模型的能力。知...