使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本

AI最新资讯3个月前发布 tree

39 0 0

今日应用

TreeMind树图官网

TreeMind树图官网提供正版AI思维导图工具软件和免费在线脑图模板。支持脑图、逻辑图、树形图、鱼骨图、组织架构图、时间轴等多种专业格式，适合头脑风暴和创意规划，助力您的思维创新。

今日话题

使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本

重点标签 样本设计工程、大模型微调、多方面情感分析、推理设计、实证研究

文章摘要

本文首次提出了样本设计工程（Sample Design Engineering, SDE）的概念，通过系统性地探究影响大模型下游任务微调的多种设计选项，发现了一些有趣的结论，并提出了一种在多个复杂下游任务上表现优异的设计方案。研究表明，通过细致地考虑大模型微调样本的设计，可以使用更少的样本训练出在下游任务上表现更好的模型。

0. 引言

大模型（LLMs）的出现改变了自然语言处理（NLP）任务的处理方式，使得一些原本需要复杂模型设计的任务得以简化。提示工程（Prompt Engineering, PE）成为提升大模型推理能力的热点研究方向。然而，对于中小企业或个人来说，使用超大模型如GPT3/4存在成本、政策和数据安全等问题，因此他们更倾向于使用一些开源的较小模型，这就需要通过微调样本来提升模型性能。本文提出了SDE的概念，并对影响微调效果的设计选项进行了系统性分析。

1. 微调样本设计的重要性

以多方面情感分析（MASA）为例，展示了大模型在处理复杂输入和输出时面临的挑战。文章对样本设计进行了分类，包括输入设计、输出设计和推理设计，并提出了一些典型的SDE设计选项。

输入设计选项

– 指令的放置问题：是否添加指令，指令放置在任务文本的前面还是后面。
– 是否建模输入：是否将输入部分作为整体进行建模。

输出设计选项

– 输出格式：自然方式到结构化方式的设计。
– 对未提及目标的处理：忽略未提及的目标或放置占位符。
– 文本/数值标签：使用文本形式的标签还是数字标签。

推理设计选项

– 推理设计：是否采用类似CoT的样本设计来提升模型推理能力。

2. 设计选项的影响

通过在MASA任务上的实验，探究了各种设计选项对模型性能的影响。实验结果表明，添加指令、指令放置在前面、使用Lines格式输出、使用占位符处理未提及目标、使用文本标签等设计选项能显著提升模型性能。

3. 稳定优异的样本设计方案

基于实验结果，提出了一个实证上较强的SDE方案——ES-SDE，它结合了Inst-first, No-MI的输入设计和Lines, PU, TxtLabel的输出设计。实验验证了该方案在不同任务、不同模型上的有效性和鲁棒性。

4. PE与SDE的关系

通过构造对应的zero-shot或ICL prompts，评价了不同prompt的优劣，并计算了PPL。结果表明，好的prompt并不一定能转化成好的sample，PE无法直接指导SDE。

总结

本文提出了SDE的概念，并通过实证研究揭示了影响大模型下游微调的样本设计选项，提出了一种鲁棒的样本设计方案。同时，分析了PE与SDE的关系，指出了SDE背后的复杂机理，期待未来的研究能进一步探究SDE，帮助大模型更好地发挥潜力。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...