在这篇文章中,我们将探讨一些用于策划高质量训练数据集的经验法则。
- 第一部分探讨了将LLM适应于领域数据的普遍方法
- 第二部分讨论了咋确定微调是否适用于你的实际情况
1 介绍
微调LLMs是一门艺术与科学的结合,该领域的最佳实践仍在不断发展中。在本篇博文中,我们将突出微调的设计变量,并给出我们迄今为止所见的最佳实践的方向性指导,以在资源受限的情况下微调模型。我们建议使用下面的信息作为制定微调实验策略的起点。
2 全量微调 V.S 参数高效微调(PEFT)
都显示出在应用于新领域时改进了下游性能,无论在学术环境中还是在实际设置。选择哪种取决于:
- 可用的计算资源(以GPU小时数和GPU内存衡量)
- 除目标下游任务之外的任务表现(学习-遗忘权衡)
- 人工标注成本
2.1 全量微调
更可能遭受两个问题:
- 模型坍缩:模型输出收敛到有限的一组输出,而原始内容分布的尾部消失了
- 灾难性遗忘
如该系列的第一部分所述,灾难性遗忘导致模型失去其能力。一些早期经验研究表明,全量微调比PEFT更易出现上述问题,尽管还需要进一步研究。
2.2 PEFT技术
设计上作为微调的自然正则化器。PEFT通常需要相对较少的计算资源来训练下游模型,且对于数据集大小有限的资源受限场景更适用。
2.3 小结
某些情况下,全量微调在感兴趣的特定任务上表现更好,通常是牺牲了模型的一些原有能力。这种“学习-遗忘”的权衡在LoRA和全量微调之间的比较论文中进行了深入探讨在此论文中。
考虑到资源限制,PEFT技术可能比全量微调提供更好的性能提升/成本比率。如果在资源受限的情况下,下游性能至关重要,那么全量微调将是更有效的。无论在哪种情况下,关键在于创建高质量的数据集,同时牢记以下主要原则。
3 数据集策划
在文献中的微调实验中,数据集对于充分利用微调至关重要。这不仅仅是“质量更高和更多样例”的问题,你可以智能地投资于数据收集以提高资源受限微调实验的表现。
3.1 数据质量和数量
① 质量至上
总体趋势是质量比数量更重要—即最好拥有一小套高质量数据,而非一大套低质量数据。质量的关键原则包括一致的标注、无错误、未标记的数据、噪声输入/输出以及与总体相比具有代表性分布。
微调时,LIMA数据集中的几千个精心挑选的例子比5万个机器生成的Alpaca数据集表现更好。OpenAI微调文档建议,即使是50到100个样例的数据集也可能有所作为。
② 较难的语言任务需要更多数据
相对较难的任务,如文本生成和摘要,比简单的任务如分类和实体提取更难微调,且需要更多的数据。“较难”可指多种情况:输出中的更多标记、所需的人类能力等级更高、多个正确答案。
③ 高效高质量数据收集
由于数据收集昂贵,建议以下策略以提高样本效率和降低成本:
- 观察失败模式:观察先前ML能力失败的例子,并添加针对这些失败模式的例子
- 人机协作:这是一种更便宜的方式扩展数据标注。我们使用LLM自动化生成基础响应,人类标注者可以用来在更短时间内完成标注
3.2 数据多样性
简单来说,如果你过度训练模型以产生某种特定类型的响应,则即使这不是最合适的答案,模型也会偏向于给出那种响应。这里的经验法则是尽可能确保训练数据反映模型在现实世界中的行为方式。
- 重复: 这已经被发现是模型退化的根源,无论是微调还是预训练。通过去重实现的多样性往往能改善性能指标。
- 输入的多样性: 通过改写输入来实现多样性。在微调SQLCoder2时,团队重新表述了伴随SQL查询的纯文本,以引入语法和语义多样性。类似地,指令回译已被用于人类编写文本,通过问LLM“这可能是对什么问题的回答?”来生成问答数据集。
- 数据集的多样性: 当微调更一般的下游任务——例如多语言适应——时,使用多样化的数据集已被证明可以改善模型遗忘原始能力与学习新能力之间的学习-遗忘权衡。为不同语言如印地语和奥迪亚语微调的模型使用了丰富的语言特定数据集与其他指令微调数据集,如FLAN、Alpaca、Dolly等,以增加多样性。
- 标准化输出: 从输出中移除空格和其他格式花招已被证明是有帮助的。SQLCoder2从生成的SQL中移除空格,让模型专注于学习重要的SQL概念,而不是像空格和缩进这样的花招。如果你希望回答中有特定的语气,“帮助台聊天机器人是…”,那么在每个例子中都加入这些内容。
4 基于LLM的数据管道
为了策划高质量多样化的数据集,数据管道经常使用LLM来减少标注成本。实践中观察到的技术:
- 评估: 使用高质量数据集训练模型并利用它来标注你较大的数据集,以过滤出高质量的例子
- 生成: 用高质量的例子种子LLM并提示其生成类似的高质量例子。合成数据最佳实践正在形成中
- 人机协作: 使用LLM生成一组初始输出,并用人来通过编辑或选择偏好来提高质量
5 调试你的数据集
- 评估你的数据集中的不良输出: 如果模型在某些方面仍然表现不佳,添加直接展示给模型如何正确处理这些方面的训练例子。如果你的模型有语法、逻辑或风格问题,检查你的数据是否有同样的问题。例如,如果模型现在说“我会为你安排这次会议”(当它不应该这样做时),看看现有例子是否教会了模型说它可以做它不能做的事情。
- 审视正负类平衡: 如果数据中有60%的助手回应说“我无法回答这个问题”,但在推理阶段只有5%的回应应该这么说,那么你可能会得到过多的拒绝回应。
- 详尽性和一致性: 确保你的训练例子包含所有需要的回应信息。如果我们希望模型根据用户的个人特质赞美用户,并且训练例子中包含了对前面对话中没有提到的特质的助手赞美的例子,模型可能会学会虚构信息。确保所有的训练例子都是以预期的格式呈现,以便推理。查看训练例子中的一致性。如果多人创建了训练数据,那么模型的表现很可能受到人们之间一致性的限制。例如,在文本抽取任务中,如果人们只在70%的抽取片段上达成一致,模型很可能也无法做得更好。
6 结论
微调是LLMs开发的重要组成部分,需要在资源限制下取得微妙的权衡!
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓