星环科技孙元浩：语料已经是大模型最大的挑战

AI最新资讯3个月前发布 tree

36 0 0

今日应用

宫下动漫

二次元的福音来了，这里专门是看动漫的。集齐了异世界,漫改,轻小说改,后宫,日常,战斗,女仆,百合,治愈,校园,穿越等各种资源影视。

今日话题

星环科技孙元浩：语料已经是大模型最大的挑战

重点标签 星环科技、大数据、AI原生应用、知识图谱、语料开发

文章摘要

然而，企业内部数据的开发面临诸多挑战，如数据的非结构化、海量性、多样性以及专业标注门槛等。为了应对这些挑战，星环科技采取了一系列措施，包括升级大数据平台、增加Python接口、推出分布式Python引擎、优化向量数据库、构建知识图谱、开发语料开发工具、提供大模型工具链、构建AI原生应用以及支持多种模型和数据源等。

孙元浩指出，提升语料质量是大模型提升准确性的最大挑战。他提出，通过构建外挂知识库、微调模型、持续训练、提供语料开发工具以及结合多种方法，可以有效提升模型的准确率。星环科技的目标是将大模型训练成一个理科生，使其能够进行数学分析和理解自然科学的各个领域。通过AI Infra工具，企业能够将多模语料转换为高质量的专业领域知识，构建知识壁垒。

星环科技的探索与实践
星环科技在大模型时代面临语料开发新挑战，孙元浩分享了公司的一系列尝试，以提高大模型的准确性和效率。

1. 升级大数据平台：Transwarp Data Hub 数据平台升级，支持更多元化的数据，提高文件系统支持能力和数据存储效率。
2. 增加Python接口：在Data hub上增加Python接口，实现分布式化处理，提高语料处理效率和灵活性。
3. 推出分布式Python引擎：针对大规模语料，提高处理能力和效率。
4. 优化向量数据库：升级向量数据库，提高召回准确度和分布式性能，支持大规模数据处理和检索。
5. 构建知识图谱：提供Transwarp Knowledge Studio for LLM知识工具，弥补向量召回准确度不足，如在设备维修场景中的应用。
6. 开发语料开发工具：推出工具，实现语料的解析、分类、清洗、标注、增强等功能，自动化或半自动化处理文档类型、语音视频。
7. 提供大模型工具链：提供从语料生成到模型训练、知识库构建、应用开发、智能体构建的一系列过程，提高构建效率和管理能力。
8. 构建AI原生应用：推出无涯·问知和无涯·问数等应用，实现企业内部信息检索和数据分析，提高数据处理效率。
9. 支持多种模型和数据源：支持第三方模型和多种数据源，提高数据处理灵活性和适应性。

提升模型准确率的方法
孙元浩认为，提升模型准确率的方法主要包括：

1. 构建外挂知识库：将企业资料、文章等解析放入知识库，让大模型参考知识库内容进行写作或分析。
2. 微调模型：对大模型进行微调，学习特定领域知识和语言习惯，提高领域准确率。
3. 持续训练：在金融等领域，持续喂给大模型大量语料，提高精准度和回答能力。
4. 提供语料开发工具：帮助企业整理和清洗语料，转化为适合大模型训练的格式，提高准确率。
5. 结合多种方法：结合构建外挂知识库、微调和持续训练等方法，进一步提高模型准确率。

孙元浩比喻，星环科技的目标是将大模型训练成一个理科生，使其能够进行数学分析和理解自然科学的各个领域。通过AI Infra工具，企业能够准确、高效地将多模语料转换为高质量的专业领域知识，构建知识壁垒。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

星环科技孙元浩：语料已经是大模型最大的挑战

今日应用

今日话题

文章摘要

文章来源

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

新一轮「硬件彩票」：MatMul-free 会改变大模型的游戏规则吗？

相关文章

暂无评论

热门网址

热门标签