标签:实证研究

Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解

近期,英伟达、CMU、普林斯顿等机构联合发表了一篇实证研究论文,对比了Mamba模型与Transformer架构在大规模预训练场景下的性能。Mamba模型自推出以来,因其...

使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本

本文首次提出了样本设计工程(Sample Design Engineering, SDE)的概念,通过系统性地探究影响大模型下游任务微调的多种设计选项,发现了一些有趣的结论,并...

智源联合多所高校推出首个多任务长视频评测基准MLVU

极市导读:多所高校联合提出首个多任务长视频理解评测基准MLVU,旨在解决现有视频理解评测基准的局限性,推动社区对长视频理解研究的发展。MLVU基准的构建过...