LLM(二)| LIMA:在1k高质量数据上微调LLaMA1-65B,性能超越ChatGPT

news2024/11/25 21:32:23

       本文将介绍在Lit-GPT上使用LoRA微调LLaMA模型,并介绍如何自定义数据集进行微调其他开源LLM

监督指令微调(Supervised Instruction Finetuning)

什么是监督指令微调?为什么关注它?

       目前大部分LLM都是decoder-only,通常是续写任务,有时候未必符合用户的需求,SFT是通过构造指令输入和期待的输出数据微调LLM,让LLM根据输入的指令输出期待的内容,这样微调好的LLM会输出更符合用户需求或者特点任务,

图片

SFT数据格式一般如下所示:

  1. Instruction text

  2. Input text (optional)

  3. Output text

Input是可选的,下面是SFT数据格式的示例:

图片

       SFT的微调和Pre-training是一样的,也是根据上文预测下一个token,如下图所示:

图片

SFT数据集如何生成?

       SFT数据集构建通常有两种方法:人工标注使用LLM(比如GPT-4)来生成的,人工标注对于构建垂直领域比较合适,可以减少有偏数据,但是成本略高;使用LLM生成,可以在短时间内生成大量数据。

        SFT数据集构建以及SFT微调Pipeline如下图所示:

图片

LLM生成SFT数据方法总结

Self-Instruct

       Self-Instruct(https://arxiv.org/abs/2212.10560):一个通过预训练语言模型自己引导自己来提高的指令遵循能力的框架。

Self-Instruct有如下四个阶段:

  • 步骤1:作者从 175个种子任务中随机抽取 8 条自然语言指令作为示例,并提示InstructGPT生成更多的任务指令。

  • 步骤2:作者确定步骤1中生成的指令是否是一个分类任务。如果是,他们要求 InstructGPT 根据给定的指令为输出生成所有可能的选项,并随机选择特定的输出类别,提示 InstructGPT 生成相应的“输入”内容。对于不属于分类任务的指令,应该有无数的“输出”选项。作者提出了“输入优先”策略,首先提示 InstructGPT根据给定的“指令”生成“输入”,然后根据“指令”和生成的“输入”生成“输出”。

  • 步骤3:基于第 2 步的结果,作者使用 InstructGPT 生成相应指令任务的“输入”和“输出”,采用“输出优先”或“输入优先”的策略。

  • 步骤4:作者对生成的指令任务进行了后处理(例如,过滤类似指令,去除输入输出的重复数据),最终得到52K条英文指令

完整的Self-Instruct流程如下图所示:

图片

       Alpaca dataset(https://github.com/gururise/AlpacaDataCleaned)的52K数据就是采用该方法生成的。

Backtranslation

       回译在传统的机器学习中是一种数据增强方法,比如从中文翻译成英文,再从英文翻译会中文,这样生成的中文与原来的中文在语义上是一致的,但是文本不同;然而SFT数据生成的回译(https://arxiv.org/abs/2308.06259)则是通过输出来生成指令,具体步骤如下图所示:

图片

LIMA

        LIMA来自论文《The LIMA: Less Is More for Alignment》,LIMA是在LLaMA V1 65B模型上使用1k高质量数据进行微调获得的,性能如下:

图片

在Lit-GPT库上微调LLM

Lit-GPT支持的模型如下表所示:

Model and usageReference
Meta AI Llama 2Touvron et al. 2023
Stability AI FreeWilly2Stability AI 2023
Stability AI StableCodeStability AI 2023
TII UAE FalconTII 2023
OpenLM Research OpenLLaMAGeng & Liu 2023
LMSYS VicunaLi et al. 2023
LMSYS LongChatLongChat Team 2023
Together RedPajama-INCITETogether 2023
EleutherAI PythiaBiderman et al. 2023
StabilityAI StableLMStability AI 2023
PlatypusLee, Hunter, and Ruiz 2023
NousResearch Nous-HermesOrg page
Meta AI Code LlamaRozière et al. 2023

下面以LLaMA2-7B为例说明在 上进行微调的步骤,首先需要clone 

Lit-GPT仓库,微调步骤如下:

1)下载、准备模型

export HF_TOKEN=your_tokenpython scripts/download.py \  --repo_id meta-llama/Llama-2-7b-hf​​​​​
python scripts/convert_hf_checkpoint.py \  --checkpoint_dir meta-llama/Llama-2-7b-hf

2)准备微调数据​​​​​​​

python scripts/prepare_lima.py \  --checkpoint_dir checkpoints/meta-llama/Llama-2-7b-hf

3)使用LoRA进行微调​​​​​​​

python finetune/lora.py \  --checkpoint_dir checkpoints/meta-llama/Llama-2-7b-hf \  --data_dir data/lima

Tips

       官方建议数据的tokens控制在2048之内,可以减少GPU显存消耗,对应的代码也需要增加参数--max_seq_length 2048​​​​​​​

python scripts/prepare_lima.py \    --checkpoint_dir checkpoints/meta-llama/Llama-2-7b-hf \    --max_seq_length 2048

      或者也可以修改 finetune/lora.py文件中的参数change override_max_seq_length = None调整为 override_max_seq_length = 2048 

对于LIMA模型的1k数据进行微调,需要调整max_iters=1000

图片

Lit-GPT上支持的数据集

图片

Lit-GPT定义客户化数据集

加载自定义数据集大致需要两步,首先需要准备三列CSV数据,示例如下:

图片

第一步,执行如下脚本:​​​​​​​

python scripts/prepare_csv.py \   --csv_dir MyDataset.csv \   --checkpoint_dir checkpoints/meta-llama/Llama-2-7b-hf

第二步,与上述LIMA类似,是执行scripts/prepare_dataset.py脚本

参考文献:

[1] https://lightning.ai/pages/community/tutorial/optimizing-llms-from-a-dataset-perspective/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1042909.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

右键菜单添加 Open Git Bash

前言 在使用 TortoiseGit 作为Git的可视化工具,但是会经常用到命令行操作,一般来说,安装了TortoiseGit后,右键会出现 open git-bash here... 的命令。但是,可能由于某些原因,这个右键菜单选项不见了。下面…

springcloud:三、ribbon负载均衡原理+调整策略+饥饿加载

Ribbon负载均衡原理 调整Ribbon负载均衡策略 第一种会对order-service里所有的服务消费者都采用该新规则 第二种会针对order-service里某个具体的服务消费者采用该新规则 饥饿加载

【LeetCode】力扣364.周赛题解

Halo,这里是Ppeua。平时主要更新C,数据结构算法,Linux与ROS…感兴趣就关注我bua! 1.最大二进制奇数 🍉题目: 🍉例子: 🍉 题解: 首先看题目,最大二进制奇数,在一个二…

二十六、MySQL并发事务问题:脏读/不可重复读/幻读

1、事务的隔离级别 (1)隔离级别 Read uncommitted # 读,未提交 Read committed # 读,已提交 Repeatable Read(默认) # 可重复读 Serializable # 串读 (2)基础语法 set transaction isolation level 事…

高等数学应试考点速览(上)

极限 上界存在,则上确界存在数列极限 定义性质:唯一、有界(保序、夹逼、不等式性质)、保号、四则运算判定: 单侧:单调有界双侧:闭区间套增量:柯西审敛 归并和收敛子列聚点有限覆盖原…

想要精通算法和SQL的成长之路 - 最长递增子序列 II(线段树的运用)

想要精通算法和SQL的成长之路 - 最长递增子序列 II(线段树的运用) 前言一. 最长递增子序列 II1.1 向下递推1.2 向上递推1.3 更新操作1.4 查询操作1.5 完整代码: 前言 想要精通算法和SQL的成长之路 - 系列导航 一. 最长递增子序列 II 原题链接…

idea 通过tomcat 配置 https方式访问

步骤1:管理员模式打开cmd命令进行生成密匙 D:\software\apache-tomcat-8.5.93\bin\tomcat.keystore 是生成密匙存放的路径,修改成自己tomcat的路径即可 keytool -genkeypair -alias "tomcat" -keyalg "RSA" -keystore "D:\s…

Spring Boot 集成 MinIO 实现文件上传、下载和删除

MinIO 是一种开源的对象存储服务,它基于云原生架构构建,并提供了高性能、易于扩展和安全的存储解决方案。 一.安装和配置 MinIO 服务器 为了演示方便,本文采用Windows安装 1.在官方网站下载MinIO 安装文件,地址:ht…

MATLAB中norm函数用法

目录 语法 说明 示例 向量模 向量的 1-范数 两个点之间的欧几里德距离 矩阵的 2-范数 N 维数组的 Frobenius 范数 常规向量范数 norm函数的功能是计算向量范数和矩阵范数。 语法 n norm(v) n norm(v,p) n norm(X) n norm(X,p) n norm(X,"fro") 说明…

Android 面试经历复盘整理~

此次面试一共4面4小时,中间只有几分钟间隔。对持续的面试状态考验还是蛮大的。 关于面试的心态,保持悲观的乐观主义心态比较好。面前做面试准备时保持悲观,尽可能的做足准备。面后积极做复盘,乐观的接受最终结果。 切忌急于下结论…

从裸机开始安装操作系统

目录 一、预置知识 电脑裸机 win10版本 官方镜像 V.S. 正版系统 二、下载微软官方原版系统镜像 三、使用微PE系统维护U盘 四、安装操作系统 五、总结 一、预置知识 电脑裸机 ●只有硬件部分,还未安装任何软件系统的电脑叫做裸机。 ●主板、硬盘、显卡等必…

2005-2018年上市公司高管前三名薪酬比例数据

2005-2018年上市公司高管前三名薪酬比例数据 1、时间:2005-2018年 2、指标:证券代码、year、高管薪酬总额、高管前三名薪酬总额、高管前三名薪酬比例、市场类型、行业代码、交易状态 3、范围:上市公司 4、指标解释: 薪酬是员…

深入理解C语言(1):数据在内存中的存储

文章主题:数据在内存中的存储🌏所属专栏:深入理解C语言📔作者简介:更新有关深入理解C语言知识的博主一枚,记录分享自己对C语言的深入解读。😆个人主页:[₽]的个人主页🏄&…

【红队攻防】从零开始的木马免杀到上线

0、环境配置说明 应该全部使用云服务器完整演示比较好,奈何太穷了买不起服务器,只能用本地环境演示。所需环境如下: 系统环境: CentOS 7 ,Windows 10 软件环境 Cobalt Strike 4.7 , ShellQMaker, 360杀…

医院电子病历编辑器,EMRE(EMR Editor)源码

电子病历主要面向医院机构医生、护士,提供对住院病人的电子病历书写、保存、修改、打印等功能。本系统基于云端SaaS服务方式,通过浏览器方式访问和使用系统功能,提供电子病历在线制作、管理和使用的一体化电子病历解决方案,为医疗…

C语言 Cortex-A7核 IIC实验

iic.h #ifndef __IIC_H__ #define __IIC_H__ #include "stm32mp1xx_gpio.h" #include "stm32mp1xx_rcc.h" /* 通过程序模拟实现I2C总线的时序和协议* GPIOF ---> AHB4* I2C1_SCL ---> PF14* I2C1_SDA ---> PF15** */#define SET_SDA_OUT do{…

JS的基本组成

JavaScript的实现包括以下3个部分: 模块功能ECMAScript(核心)描述了JS的语法和基本对象。文档对象模型 (DOM)处理网页内容的方法和接口浏览器对象模型(BOM)与浏览器交互的方法和接口 javascript 有三部分构成&#…

Observability:软件开发和运营中有效日志管理的力量

作者:Luca Wintergerst, David Hope, Bahubali Shetti 当今的快速软件开发过程需要不断扩展且复杂的基础设施和应用程序组件,并且运营和开发团队的工作不断增长且涉及多个方面。 可观察性有助于管理和分析遥测数据,是确保应用程序和基础设施性…

医疗小程序:智能化时代的就医新选择

如今,随着科技的不断进步,人们对于健康的关注度也越来越高。为了满足广大用户的需求,医院与乔拓云平台携手合作,推出了一款医疗小程序,旨在为用户提供更加便捷的健康服务链。 为了让每位用户都能享受到便捷的服务&…

selenium自动化测试+OCR-获取图片页面小说

随着爬虫技术的发展,反爬虫技术也越来越高。 目前有些网站通过自定义字体库的方式实现反爬,主要表现在页面数据显示正常,但是页面获取到的实际数据是别的字符或者是一个编码。 这种反爬需要解析网站自己的字体库,对加密字符使用字…