[论文笔记]大模型微调数据配比策略

[论文笔记]大模型微调数据配比策略

news2025/4/28 9:30:26

大模型微调数据配比策略

How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition

https://arxiv.org/pdf/2310.05492

一、背景：

大模型是无监督的多任务学习器，其强大的泛化能力可以同时理解并执行多种任务，比如做算术、写代码、通用问答。为了实现大模型的通用性，在预训练和后训练两个阶段都会使用大量的复合数据。

二、动机：

复合数据的构成比例和规模是如何影响大模型最终的泛化能力和指令遵从能力？有没有更好的数据配比策略来提高大模型的效果？

三、思路：DMT(Dual-stage Mixed Fine-tuning)

        作者提出了一种新的数据配比策略——双阶段混合微调，这个策略组合了多任务学习和序列学习，并做了一些优化。
        1）在第一阶段，使用数学和代码两个垂直领域的数据混合微调基座模型，得到模型A；
        2）在第二阶段，使用部分数学、代码数据，并叠加全量的通用问答数据混合微调模型A，得到模型B；
        3）模型B即为最终的对话模型。

四、实践结论

1）【数据规模的影响】在数学推理和代码编写任务上，扩大训练数据量可以明显提高模型效果；但是在通用问答任务上，当训练数据量达到某个阈值后，扩大训练数据量对提高模型效果的作用不明显；
        2）【单一数据源vs混合数据源】数据总量比较小时，在数学推理、代码编写、通用问答三个任务上，混合数据源的效果优于单一数据源；当数据总量比较大时，单一数据源的效果要优于混合数据源；
        3）【数据配比的影响】只有当异源数据在格式和内容上差异非常大时，数据配比几乎不产生负面影响，否则会降低两个任务上的效果；
        4）【数据配比策略】DMT的效果要优于目前其他方案。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2105699.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Linux 进程等待与替换

Linux 进程等待与替换

✏️ 代码引入： #include <stdio.h> #include <unistd.h> // _exit()要此头文件，使用方法与 exit()类似 #include <stdlib.h> // exit(),要此头文件// int fun() //{ // printf("call fun function done!\n"); // retu…

阅读更多...

3 html5之css新选择器和属性

3 html5之css新选择器和属性

要说css的变化那是发展比较快的，新增的选择器也很多，而且还有很多都是比较实用的。这里举出一些案例，看看你平时都是否用过。 1 新增的一些写法： 1.1 导入css 这个是非常好的一个变化。这样可以让我们将css拆分成公共部分或者多…

阅读更多...

BrushNet重绘电商商品背景效果测试

BrushNet重绘电商商品背景效果测试

🎨背景之前写过一篇文章，简单的介绍了brushnet这个局部重绘节点，如何安装和使用可以参考我之前写的这篇文章，本篇重点测试下在背景生成这部分，brushnet是不是跟默认的inpaint有比较大的效果提升。上一篇节点介绍内…

阅读更多...

R语言数据统计分析与ggplot2高级绘图

R语言数据统计分析与ggplot2高级绘图

R语言在数据统计分析领域具有广泛的应用，它提供了丰富的函数和扩展包，使得数据处理、分析和可视化变得高效而直观。 R语言特别适合进行描述性统计分析，这得益于其内置的多种函数和方法。例如，使用summary()函数可以轻松获取数据的…

阅读更多...

【2024最新】Adobe Lightroom Classic安装教程（直接使用）

【2024最新】Adobe Lightroom Classic安装教程（直接使用）

给大家分享一个Adobe Lightroom Classic的安装教程，下载链接在文章末尾，直接可用介绍 Adobe Lightroom Classic 是一款专业的照片编辑和管理软件，专为摄影师和影像爱好者设计。它提供了一套全面的工具集，用于组织、编辑和分享照…

阅读更多...

全网最适合入门的面向对象编程教程：45 Python实现常见数据结构-链表、树、哈希表、图和堆

全网最适合入门的面向对象编程教程：45 Python实现常见数据结构-链表、树、哈希表、图和堆

全网最适合入门的面向对象编程教程：45 Python 实现常见数据结构-链表、树、哈希表、图和堆摘要： 数据结构是计算机科学中的一种组织和存储数据的方式，它决定了数据的访问方式和操作效率，数据结构的选择和实现对程序的性能和设计…

阅读更多...

Microk8s ingress启动失败, 10254端口被占用问题定位

Microk8s ingress启动失败, 10254端口被占用问题定位

问题描述 RHEL9 VM里安装了Microk8s，且使用了Nginx ingress Controller插件，443端口正常。 VM重启一次后，发现443端口没有LISTEN，不能对外提供服务。定位过程查看ingress pod状态，为CrashLoopBackOff # kubectl …

阅读更多...

【Python篇】PyQt5 超详细入门级教程（中篇一）

【Python篇】PyQt5 超详细入门级教程（中篇一）

文章目录 PyQt5入门级超详细教程中篇：信号槽机制与表格数据展示第4部分：事件处理与信号槽机制4.1 什么是信号与槽？4.2 信号与槽的基本用法4.3 信号与槽的基础示例代码详解： 4.4 处理不同的信号代码详解： 4.5 自定义信号…

阅读更多...

【软考】设计模式之代理模式

【软考】设计模式之代理模式

目录 1. 说明2. 应用场景3. 结构图4. 构成5. 适用性6. 优点7. 缺点8. java示例 1. 说明 1.代理模式（Proxy Pattern）。2.意图：为其他对象提供一种代理以控制对这个对象的访问。3.通过提供与对象相同的接口来控制对这个对象的访问。4.是设计模…

阅读更多...

kali——wpscan的使用

kali——wpscan的使用

目录前言查看帮助（-h） 编辑常规扫描（--url） 破解用户名和密码插件枚举扫描插件漏洞扫描主题漏洞前言 wpscan 是 Kali Linux 自带工具，主要用于扫描WordPress网站的各种安全漏洞，包括Word…

阅读更多...

深度学习TensorFlow框架

深度学习TensorFlow框架

深度学习介绍深度学习和机器学习区别机器有人工参与，而深度学习是靠网络； 深度学习需要大量的数据集，训练神经网络需要大量的算力机器学习有：朴素贝叶斯，决策树等深度学习主要是神经网络深度学习应用场景 CV&…

阅读更多...

[数据集][目标检测]轮胎缺陷检测数据集VOC+YOLO格式2154张4类别

[数据集][目标检测]轮胎缺陷检测数据集VOC+YOLO格式2154张4类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：2154 标注数量(xml文件个数)：2154 标注数量(txt文件个数)：2154 标注…

阅读更多...

【爬虫软件】小红薯评论区采集工具

【爬虫软件】小红薯评论区采集工具

一、采集目标与应用场景您好！我利用Python技术自主研发了一款高效的爬虫软件，批量收集小红薯平台上的评论，包括主评论及其下的二级评论。为了拓宽用户群体，让不具备编程基础的小白用户也能轻松上手，我开发成了界面…

阅读更多...

Burp Suite Professional 2024.8 for macOS x64 ARM64 - 领先的 Web 渗透测试软件

Burp Suite Professional 2024.8 for macOS x64 ARM64 - 领先的 Web 渗透测试软件

Burp Suite Professional 2024.8 for macOS x64 & ARM64 - 领先的 Web 渗透测试软件世界排名第一的 Web 渗透测试工具包请访问原文链接：https://sysin.org/blog/burp-suite-pro-mac/，查看最新版。原创作品，转载请保留出处。作者主页…

阅读更多...

设计模式-装饰器代理观察者

设计模式-装饰器代理观察者

3.7 装饰器模式（代码见vs） 装饰器又叫做包装模式，允许向一个现有的对象添加新的功能，同时又不改变其结构。这种模式创建了一个装饰类，用来包装原有的类，并在保持类方法完整性的前提下，提供了额…

阅读更多...

基于Android Studio的行程记录APK开发指南(二):熟悉一个项目结构

基于Android Studio的行程记录APK开发指南(二):熟悉一个项目结构

前言最近博主在unity开发独立游戏，UE5系列的相关长期教程先暂时不更新了,请大家多多谅解本系列教程我们来看看如何使用Android Studio去开发一个APK用于用户的实时行程记录第一期：基于Android Studio的用户行程记录APK开发指南(一)：项目基…

阅读更多...

CTF---密码学知识点总结

CTF---密码学知识点总结

✨Ascall编码：在 ctf 比赛中，flag 的标志一般是以 Ascall 码的形式存在，其对应的码值为102，108，97，103（其中{的码值是123）！ ✨Unicode编码：又名万国码&#…

阅读更多...

OpenHarmony持久化存储UI状态：PersistentStorage

OpenHarmony持久化存储UI状态：PersistentStorage

前两个小节介绍的LocalStorage和AppStorage都是运行时的内存，但是在应用退出再次启动后，依然能保存选定的结果，是应用开发中十分常见的现象，这就需要用到PersistentStorage。 PersistentStorage是应用程序中的可选单例对象。此对…

阅读更多...

海外云服务器安装 MariaDB10.6.X （Ubuntu 18.04 记录篇二）

海外云服务器安装 MariaDB10.6.X （Ubuntu 18.04 记录篇二）

本文首发于秋码记录 MariaDB 的由来（历史） 谈起新秀MariaDB，或许很多人都会感到陌生吧，但若聊起享誉开源界、业界知名的关系型数据库——Mysql，想必混迹于互联网的人们（coder）无不知晓。其…

阅读更多...

C++中protobuffer的具体使用方法以及重要原理的实现

C++中protobuffer的具体使用方法以及重要原理的实现

一、protobuffer的具体使用对于基本的知识可以看我之前的文章。那一片文章主要是知识点，这一片是实战。 1、头部我们通过syntax 这个来指定版本号，如果不写的话就会默认为proto2，2这个版本是一个比较旧的版本。旧的版本写起来就比较繁琐。…

阅读更多...

推荐文章

最新文章