“弱智贴吧”的数据,居然是最强中文语料库

AI最新资讯5个月前发布 tree
39 0 0

今日应用


今日话题


“弱智贴吧”的数据,居然是最强中文语料库
“弱智贴吧”的数据,居然是最强中文语料库
 

重点标签 AIGCLLM数据集COIG-CQIA指令微调

文章摘要


AIGC领域专业社区关注:本篇文章来自一个专注于AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地。

COIG-CQIA数据集发布:中国科学院、北大等10家机构联合推出了COIG-CQIA,一个专用于中文的高质量指令调优数据集。该数据集旨在填补高质量中文数据集的空白,解决中英文结构和文化差异问题。

数据集特点:COIG-CQIA数据集抓取了中文互联网的论坛、网站等高质量数据。有趣的是,“弱智贴吧”的数据质量超过了许多知名知识社区。数据集地址和论文地址已提供。

数据集构成:研究人员从22个高质量数据源中精心挑选内容,包括问答社区、百科网站等。他们采取了筛选高赞回答、评分过滤、人工审核等方式,确保数据贴合真实场景。

数据集性能:COIG-CQIA对国内知名模型进行了微调,结果显示其比现有开源中文数据集对大模型的帮助更好。

指令微调解释指令微调是一种在大模型上进行微调的方法,通过提供指令和输出来指导模型更准确地完成内容输出。它与数据预训练不同,指令微调专注于提高大模型的拟人化输出和内容精准性。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...