大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏!

今日应用


今日话题


大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏!
大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏!
 

重点标签 AI创新巡展豆包大模型语音识别Seed-ASR技术亮点

文章摘要


2024年火山引擎AI创新巡展上海站近期成功举办,展示了豆包大模型在多个领域的技术进步,尤其是语音识别和语音合成模型的升级,以及对话式AI实时交互功能的推出。豆包大模型团队的成果Seed-ASR,提供了强大的语音识别能力,能够准确转录不同语言、方言和口音,甚至包括人名和生词。Seed-ASR技术已被集成到豆包APP和火山引擎相关服务模块中。

技术亮点
Seed-ASR的技术亮点包括:
1. 高精度识别:通过上下文感知和分阶段训练方法,实现更准确的语音转录。
2. 大容量模型:基于大语言模型,提供更丰富的知识理解和生成能力。
3. 支持多种语言:CN版支持13种中文方言,多语言版支持英语和其他7种语言。
4. 上下文感知:结合文本和语音上下文,提高识别准确率。
5. 分阶段训练方法:通过自监督学习、监督微调和上下文微调等阶段,提升模型性能。

应用场景
Seed-ASR已在豆包APP中应用,被用于英语会话、虚拟聊天伴侣和复刻亲友声音等场景。同时,面向企业客户,Seed-ASR在语音交互、内容审核、会议访谈转写和音视频字幕等场景也有广泛应用。

技术报告和Demo展示
Seed-ASR的技术报告已公开,展示了在多个领域、语言、方言和口音的综合评估集中,相较于其他端到端模型的显著改进。在中英文公开测试集上,Seed-ASR的单词错误率降低了10%-40%。技术详情和更多Demo展示可以通过以下链接了解:
– 论文链接:[Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition](https://team.doubao.com/zh/publication/seed-asr-understanding-diverse-speech-and-contexts-with-llm-based-speech-recognition?view_from=research)
– Demo展示:[https://bytedancespeech.github.io/Seed-ASR_tech_report/](https://bytedancespeech.github.io/seedasr_tech_report/)

训练方法
Seed-ASR的开发采用了分阶段训练过程,基于音频条件LLM框架AcLLM,包括音频编码器的自监督学习、监督微调、上下文微调和强化学习等阶段。通过这些训练方法,模型在理解语音信号和上下文信息方面表现出色。

实验结果与技术展望
实验结果显示,Seed-ASR在中文和英文领域的识别错误率均低于其他主流模型。团队还进行了主观评价,发现Seed-ASR在直播、视频和会议场景中的主观可理解性优于人类。此外,团队观察到,随着模型规模的提升,预训练Loss值和单词错误率均会降低。

团队文化
Seed-ASR项目团队以“务实”和“重视技术”为底色,高效推进项目,从立项到上线仅用时不到半年。团队成员紧密配合,积极推进项目,以实现技术的实际落地和价值释放。豆包大模型团队希望吸引更多自驱、务实、有志于用科技改变世界的顶尖人才加入。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...