星环科技孙元浩:语料已经是大模型最大的挑战

AI最新资讯3个月前发布 tree
36 0 0

今日应用


今日话题


星环科技孙元浩:语料已经是大模型最大的挑战
星环科技孙元浩:语料已经是大模型最大的挑战
 

重点标签 星环科技大数据AI原生应用知识图谱语料开发

文章摘要


然而,企业内部数据的开发面临诸多挑战,如数据的非结构化、海量性、多样性以及专业标注门槛等。为了应对这些挑战,星环科技采取了一系列措施,包括升级大数据平台、增加Python接口、推出分布式Python引擎、优化向量数据库、构建知识图谱、开发语料开发工具、提供大模型工具链、构建AI原生应用以及支持多种模型和数据源等。

孙元浩指出,提升语料质量是大模型提升准确性的最大挑战。他提出,通过构建外挂知识库、微调模型、持续训练、提供语料开发工具以及结合多种方法,可以有效提升模型的准确率。星环科技的目标是将大模型训练成一个理科生,使其能够进行数学分析和理解自然科学的各个领域。通过AI Infra工具,企业能够将多模语料转换为高质量的专业领域知识,构建知识壁垒。

星环科技的探索与实践
星环科技在大模型时代面临语料开发新挑战,孙元浩分享了公司的一系列尝试,以提高大模型的准确性和效率。

1. 升级大数据平台:Transwarp Data Hub 数据平台升级,支持更多元化的数据,提高文件系统支持能力和数据存储效率。
2. 增加Python接口:在Data hub上增加Python接口,实现分布式化处理,提高语料处理效率和灵活性。
3. 推出分布式Python引擎:针对大规模语料,提高处理能力和效率。
4. 优化向量数据库:升级向量数据库,提高召回准确度和分布式性能,支持大规模数据处理和检索。
5. 构建知识图谱:提供Transwarp Knowledge Studio for LLM知识工具,弥补向量召回准确度不足,如在设备维修场景中的应用。
6. 开发语料开发工具:推出工具,实现语料的解析、分类、清洗、标注、增强等功能,自动化或半自动化处理文档类型、语音视频。
7. 提供大模型工具链:提供从语料生成到模型训练、知识库构建、应用开发、智能体构建的一系列过程,提高构建效率和管理能力。
8. 构建AI原生应用:推出无涯·问知和无涯·问数等应用,实现企业内部信息检索和数据分析,提高数据处理效率。
9. 支持多种模型和数据源:支持第三方模型和多种数据源,提高数据处理灵活性和适应性。

提升模型准确率的方法
孙元浩认为,提升模型准确率的方法主要包括:

1. 构建外挂知识库:将企业资料、文章等解析放入知识库,让大模型参考知识库内容进行写作或分析。
2. 微调模型:对大模型进行微调,学习特定领域知识和语言习惯,提高领域准确率。
3. 持续训练:在金融等领域,持续喂给大模型大量语料,提高精准度和回答能力。
4. 提供语料开发工具:帮助企业整理和清洗语料,转化为适合大模型训练的格式,提高准确率。
5. 结合多种方法:结合构建外挂知识库、微调和持续训练等方法,进一步提高模型准确率。

孙元浩比喻,星环科技的目标是将大模型训练成一个理科生,使其能够进行数学分析和理解自然科学的各个领域。通过AI Infra工具,企业能够准确、高效地将多模语料转换为高质量的专业领域知识,构建知识壁垒。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...