大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

AI最新资讯4周前发布 tree

9 0 0

今日应用

下歌吧

下歌吧在线音乐搜索，可以在线免费下载全网MP3付费歌曲、流行音乐、经典老歌等。曲库完整，更新迅速，试听流畅，支持高品质|无损音质

今日话题

大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

重点标签 AI创新巡展、豆包大模型、语音识别、Seed-ASR、技术亮点

文章摘要

2024年火山引擎AI创新巡展上海站近期成功举办，展示了豆包大模型在多个领域的技术进步，尤其是语音识别和语音合成模型的升级，以及对话式AI实时交互功能的推出。豆包大模型团队的成果Seed-ASR，提供了强大的语音识别能力，能够准确转录不同语言、方言和口音，甚至包括人名和生词。Seed-ASR技术已被集成到豆包APP和火山引擎相关服务模块中。

技术亮点
Seed-ASR的技术亮点包括：
1. 高精度识别：通过上下文感知和分阶段训练方法，实现更准确的语音转录。
2. 大容量模型：基于大语言模型，提供更丰富的知识理解和生成能力。
3. 支持多种语言：CN版支持13种中文方言，多语言版支持英语和其他7种语言。
4. 上下文感知：结合文本和语音上下文，提高识别准确率。
5. 分阶段训练方法：通过自监督学习、监督微调和上下文微调等阶段，提升模型性能。

应用场景
Seed-ASR已在豆包APP中应用，被用于英语会话、虚拟聊天伴侣和复刻亲友声音等场景。同时，面向企业客户，Seed-ASR在语音交互、内容审核、会议访谈转写和音视频字幕等场景也有广泛应用。

技术报告和Demo展示
Seed-ASR的技术报告已公开，展示了在多个领域、语言、方言和口音的综合评估集中，相较于其他端到端模型的显著改进。在中英文公开测试集上，Seed-ASR的单词错误率降低了10%-40%。技术详情和更多Demo展示可以通过以下链接了解：
– 论文链接：[Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition](https://team.doubao.com/zh/publication/seed-asr-understanding-diverse-speech-and-contexts-with-llm-based-speech-recognition?view_from=research)
– Demo展示：[https://bytedancespeech.github.io/Seed-ASR_tech_report/](https://bytedancespeech.github.io/seedasr_tech_report/)

训练方法
Seed-ASR的开发采用了分阶段训练过程，基于音频条件LLM框架AcLLM，包括音频编码器的自监督学习、监督微调、上下文微调和强化学习等阶段。通过这些训练方法，模型在理解语音信号和上下文信息方面表现出色。

实验结果与技术展望
实验结果显示，Seed-ASR在中文和英文领域的识别错误率均低于其他主流模型。团队还进行了主观评价，发现Seed-ASR在直播、视频和会议场景中的主观可理解性优于人类。此外，团队观察到，随着模型规模的提升，预训练Loss值和单词错误率均会降低。

团队文化
Seed-ASR项目团队以“务实”和“重视技术”为底色，高效推进项目，从立项到上线仅用时不到半年。团队成员紧密配合，积极推进项目，以实现技术的实际落地和价值释放。豆包大模型团队希望吸引更多自驱、务实、有志于用科技改变世界的顶尖人才加入。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

今日应用

今日话题

文章摘要

文章来源

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了

明确了：文本数据中加点代码，训练出的大模型更强、更通用

相关文章

暂无评论

热门网址

热门标签