标签：知识蒸馏

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

在深度学习领域，Transformer 模型因其注意力机制而广受欢迎，该机制允许模型关注输入序列的相关部分，从而实现更好的上下文理解。然而，注意力机制的计算开...

1周前

英伟达在其技术博客中详细介绍了如何利用Llama 3.1模型生成合成数据，以支持领域模型或RAG系统的微调。合成数据在AI领域已有十多年的应用历史，但其重要性随...

1个月前

摘要：文章针对传统知识蒸馏中的温度设置问题，提出了Logit标准化方法。传统知识蒸馏默认学生和教师网络的温度是全局一致的，这导致学生网络被迫模仿教师网络...

5个月前

摘要：本文介绍了PlanKD，这是一种为压缩端到端运动规划器而设计的知识蒸馏方法。该方法通过信息瓶颈学习与规划相关的特征，实现有效的特征蒸馏。同时，提出...

6个月前

本文讨论了大语言模型（LLMs）的迅速发展及其在科研和工业界的应用。由于闭源LLMs与开源LLMs之间存在差距，研究者致力于提升开源LLMs和其他小模型的能力。知...

6个月前