七月论文审稿GPT第4.5版:通过15K条paper-review数据微调Llama2 70B(含各种坑)

news2025/1/17 23:16:41

前言

当我们3月下旬微调完Mixtral 8x7B之后(更多详见:七月论文大模型:含论文的审稿、阅读、写作、修订 ),下一个想微调的就是llama2 70B

  1. 因为之前积攒了不少微调代码和微调经验,所以3月底apple便通过5K的paper-review数据集成功微调llama2 70B,但过程中也费了不少劲
  2. 考虑到最后的成功固然令人欣喜,但真正让一个人或一个团队快速涨经验的还是那些在训练过程中走过的踩过的各种坑以及走过的各种弯路,所以本文第一部分我会把apple在训练中的遇到各种报错信息而一步步debug、或各种搜Google、搜GitHub的过程都整理出来

进入到4月份之后,我们先针对数据折腾了一把,毕竟数据质量通常是一个项目效果的天花板,然数据质量的提升不是短短一两周的事情,考虑到为并行加速

三太子进入70B微调组,和apple一起继续拿之前处理好的数据继续微调70B,但这一次是用15K的数据量了

第一部分 通过1.5K条paper-review数据微调LLaMA2 70B

1.1 GPU配置情况:8张80G的A100

以下是训练过程中GPU的占用情况

  1. git lfs clone https://huggingface.co/NousResearch/Llama-2-70b-chat-hf ,这个命令运行结束后,硬盘占用为518GB
  2. 配置环境开始训练后,硬盘占用为522GB
  3. 训练完成后硬盘占用为566GB
  4. merge_lora完成后硬盘占用为694GB,训练结束时内存占用262GB

观测到训练过程中显存最高占用为570GB,故建议使用80GB*8卡训练

1.2 1.5K数据的运行过程记录

  1. 03-19 3:55 flash_attn 设置成false和true都会报错q_len %d should be divisible by group size %d,且每张卡报错by group size后面数字不同
    raise ValueError("q_len %d should be divisible by group size %d." % (q_len, group_size))
    ValueError: q_len 8454 should be divisible by group size 2113.

    最终,修改train.py中的文件引用:即把from attention.llama_attn_replace import replace_llama_attn改成如下图所示,解决报错

  2. 03-19 8:53 8*A100 成功开始训练 1500 条数据

  3. 03-19 9:34 apple按照阿旬建议,多卡训练,需要修改配置文件参数

  4. 03-19 13:09 1500 条数据训练成功完成,2 epoch 用时 3小时07 分

第二部分 开始训练 5000 条数据

2.1 5K数据的训练全程

2.1.1 第一阶段:flash_attn频频出问题

  1. 03-19 18:00 发现训练至 0.48epoch 2小时30分,到batch_id:164 2624条数据报错./aten/src/ATen/native/cuda/Indexing.cu:1141: indexselectLargeIndex: block: [613,0,0], thread.[61,0,0]Assertion`srcIndex<srcSelectDimsize` failed.

  2. 03-19 23:11 之前的训练过程中dataset没加padding
            # 分别计算输入、输出合适的截断
            # `output_ids` 在整个序列(包括 `input_format_ids` 和 `output_ids`)中所占的比例,然后这个比例乘以最大序列长度,得到的结果就是输出序列的最大长度
            max_output_len = int(self.max_seq_length * (len(output_ids) / (len(input_format_ids) + len(output_ids))))
            max_output_len = max(max_output_len, 1)     # 至少保留1个token的output
            max_input_len = self.max_seq_length - max_output_len
    
            # 对输入、输出进行截断
            if len(input_format_ids) > max_input_len:
                input_format_ids = input_format_ids[:max_input_len]
            if len(output_ids) > max_output_len:
                output_ids = output_ids[:max_output_len]
    即如阿荀所说:“我的这个dataset是没实现padding的,所以要用datacollator来做”,故需要在train.py中更正使用DataCollatorForSeq2Seq
        # 加载训练集和验证集
        if args.sft:
            # train_dataset = VicunaSFTDataset(args.train_file, tokenizer, args.max_seq_length)
            train_dataset = Llama2SFTDataset(args.train_file, tokenizer, args.max_seq_length)
            # data_collator = SFTCollator(tokenizer, args.max_seq_length, -100)
            data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer,
                                                   pad_to_multiple_of=8 if tokenizer.padding_side == "right" else None, # for shift short attention
                                                   label_pad_token_id=-100
                                                   )
        else:
            train_dataset = PretrainDataset(args.train_file, tokenizer, args.max_seq_length)
            data_collator = PretrainCollator(tokenizer, args.max_seq_length, -100)
    然并卵,修改后训练仍有index报错
    data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer,
      pad_to_multiple_of=8 if tokenizer.padding_side == "right" else None, # for shift short attention
      label_pad_token_id=-100
     )
  3. 03-20 1:51 考虑到阿荀建议“看下目前用llama_attn_replace_sft能不能训,不能的话可能可以考虑切换下llama_attn_replace”
    故apple在train.py中更正回train.py引用文件llama_attn_replace使用,可修改后训练仍有index报错
  4. 03-20 4:00 尝试搜索到的解决方案,将结尾pading改为eos,修改后训练仍有index报错
    data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer,
      pad_to_multiple_of=8 if tokenizer.padding_side == "right" else None, # for shift short attention
      label_pad_token_id=tokenizer.eos_token_id
     )
  5. 03-20 10:11 尝试搜索到的解决方案https://github.com/lm-sys/FastChat/issues/2038,将训练数据中的特殊token清洗,修改后训练仍有index报错

  6. 03-20 11:25 取训练数据2400-2880行,对应batchsize id:150-180,直接训练这个区间 1 epoch,epoch结束后有一个warning,除此之外是没有报错的

  7. 03-20 12:03 训练过程中,在阿荀建议下,尝试关掉flash_attn,训练未开始就会有多个单卡报错OOM
    至于原因,可能是如阿荀所说:“单张不够这长度,因为longqlora的lora是用32位精度的,而70b的产生的kv cache会比7b的大很多”

  8. 03-20 15:23 使用python -m bitsandbytes查看bnb没有编译问题,在阿荀建议下,apple将flash_attn降到2.3.3版本,修改后训练仍有index报错

2.1.2 第二阶段:用上DeepSpeed Zero3,且验证flash_attn得开

  1. 一开始以为longlora论文中使用deepspeed stage3(当然其只用lora没有用qlora),实现了llama70b训练(但后来才发现,longlora论文中微调70B时,flash_attn其实是加了的
    我们也可以使用stage3优化,这个可以实现关闭flash_attn的情况下,在多卡训练70b,故
    03-22 13:51 设置flash_attn=false,修改配置文件,使用DeepSpeed Zero-3,报错ValueError: DeepSpeed Zero-3 is not compatible with `low_cpu_mem_usage=True` or with passing a `device_map`.需要注释掉train.py中的device_map

  2. 03-22 14:10 报错expected there to be only one unique element in {items}查找到解决方案
    https://github.com/bigcode-project/starcoder/issues/96 https://huggingface.co/docs/peft/v0.10.0/en/accelerate/deepspeed
  3. 03-22 16:30 更换为8*RTX A6000

    quantization_config添加参数:bnb_4bit_quant_storage_dtype=torch.bfloat16
    从运行bash命令到开始训练需要17分钟,进入训练后再次报错
    expected there to be only one unique element in <generator object Init._convert_to_deepspeed_param.<locals>.all_gather_coalesced.<locals>.<genexpr> at 0x7f6ee96924a0>
  4. 03-22 17:08 查到已经有人提交了修复这个问题的pr Enable ZeRO3 allgather for multiple dtypes (#4647) · microsoft/DeepSpeed@b8e1664 · GitHub,故pip uninstall deepspeed 然后pip install deepspeed 下载最新版本
    然训练未开始便报错cuda out of memory,看来还是要用8*A100
  5. 03-22 19:48再次使用8*A100成功开始训练,最后在第四步报错,如果不开flash_attn,即使开了deepspeed stage3也会报显存不够的错误。torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 7.33 GiB (GPU 6; 79.15 GiB total capacity; 44.34 GiB already allocated; 6.52 GiB free; 70.42 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

  6. 考虑到虽然调通了deepspeed stage3 发现即使A100*8,如果不加flash_attn,训练到第4个batch就会out of memory,即准备再打开flash_attn ,将所有buff一起叠加,看看是不是可以(相当于把longqlora、Zero3、flash attention都用上),故
    03-22 20:10 使用8*A100,打开flash_attn,打开deepspeed stage3,开始训练

    这次训练时显存占用呈周期涨落而不是一直上升

    不过仍然结果还是会在batch id 16报错

2.1.3 第三阶段:二分定位筛选有问题的那条数据

我建议apple,既然是跑的5000多条数据,那可以

  1. 考虑把引发异常的那条数据 先直接剔除掉,毕竟如果实在怀疑某些数据有问题的话,先删掉,哪怕最后有个3-4K数据 能跑下来,也算是先有个结果
  2. 之后 再慢慢找问题(总之,算是短期内 没办法的办法了,后续时间充足时,再好好找下 全面的原因)

故apple便开始用二分定位法去排查那条引起异常的数据

  1. 03-23 13:34 将5189数据从上到下的顺序分成3份,1-1730,1730-3460,3461-5189,分别测试查找问题数据所在的区间。第一份在运行至batch_id 33报错。
  2. 03-23 19:33 第二份1730条训练没有报错
  3. 03-23 21:25 之前下午第二份数据在训练中总的迭代次数是432,发现第三份数据在训练中总迭代次数是216,所以其它所有变量相同条件下,由于迭代数减小1/2训练总时间也缩减了1/2,不清楚这里是否正常,训练参数配置文件是相同的,不过1730条数据集第二份的大小是120MB,第三份的大小是50MB,是否是训练数据大小的原因导致训练时产生了自动调整。第三份1728条训练没有报错。
  4. 03-23 22:36 按顺序取出第一份数据的后半部分,866-1730行,训练中batch_id 18
    报错。
  5. 03-23 22:55 按顺序取出第一份数据的前半部分,1-865行,训练没有报错。
  6. 03-24 00:28 按顺序取出第一份数据的,866-1298行,训练没有报错。
  7. 03-24 01:37 按顺序取出第一份数据的,1299-1500行,训练中batch_id 8报错。
  8. 03-24 02:32 按顺序取出第一份数据的,1501-1730行,训练没有报错。
  9. 03-24 03:13 按顺序取出第一份数据的,1299-1400行,训练没有报错。
  10. 03-24 03:46 按顺序取出第一份数据的,1401-1500行,训练中batch_id 1报错
  11. 03-24 05:08 从paper_review_5189.jsonl去除1401-1500行,最终使用5089条数据开始训练

    相当于相当于最终筛到100条的区间,删掉后使用5089条数据微调成功(实在是不易啊,如apple所说:“筛选数据我是二分法,从昨天下午1点一直做到今早凌晨5点。”)
    总之,12小时后训练成功,checkpoint文件夹和merge_lora文件夹结构如下

2.2 对5K训练数据结果的推理

  1. 03-24 18:39 开始推理285条测试数据
  2. 03-25 02:23 285条训练数据推理结束
  3. 在论文审稿效果上超过GPT4-1106,且70B只用了5K数据便和7B用的15K数据打平了

考虑到可能是数据只有5K,效果不一定好上,故如本文开头所说,我们接下来准备一方面提高数据质量,一方面准备用更大的比如15K数据微调

第三部分 15k运行过程记录

3.1 训练全过程

3.1.1 apple继续折腾

  1. 03-27 9:56 继续筛选paper_review_5189.jsonl中的1401-1500行,从中找到具体的报错数据,分析其特征,对15k数据进行清洗
    取出文件中的第1401-1420行另存为output1.jsonl没有问题
    取出文件中的第1421-1440行另存为output2.jsonl没有问题
    取出文件中的第1441-1460行另存为output3.jsonl有报错
    取出文件中的第1461-1480行另存为output4.jsonl没有报错
    取出文件中的第1481-1500行另存为output5.jsonl没有报错
  2. 03-27 17:08 继续筛选paper_review_5189.jsonl中的1441-1460行
    取出文件中的第1441-1445行另存为2output1.jsonl没有问题
    取出文件中的第1446-1450行另存为2output2.jsonl没有问题
    取出文件中的第1451-1455行另存为2output3.jsonl报错
    取出文件中的第1456-1460行另存为2output4.jsonl没有报错
  3. 03-27 17:45 继续筛选paper_review_5189.jsonl中的1451-1455行
    取出文件中的第1451行另存为3output1.jsonl没问题
    取出文件中的第1452行另存为3output2.jsonl没问题
    取出文件中的第1453行另存为3output3.jsonl报错
    取出文件中的第1454行另存为3output4.jsonl
    取出文件中的第1455行另存为3output5.jsonl
    最终的问题数据是第1453行另存为3output3.jsonl报错
  4. 考虑到因为最开始用1.5k的数据微调llama7b时,打开flash_attn会有同样报错,故
    03-30 5:52 经过1d18h使用A6000前置验证没有问题
  5. 03-30 13:06 开始使用8*A100配置环境下载basemodel正式训练,20h后查看到训练中断,可能是服务器平台的未知原因
  6. 03-30 16.01 重新恢复后,继续折腾

3.1.2 三太子接力apple:全力折腾

 一开始三太子先试下5k数据,截断的逻辑也用的七月官网首页的「大模型线上营」中讲的

// 待更

3.2 15K数据的结果评估

// 待更

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1608481.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tensorflow2.0笔记 - 使用卷积神经网络层做CIFA100数据集训练(类VGG13)

本笔记记录CNN做CIFAR100数据集的训练相关内容&#xff0c;代码中使用了类似VGG13的网络结构&#xff0c;做了两个Sequetial&#xff08;CNN和全连接层&#xff09;&#xff0c;没有用Flatten层而是用reshape操作做CNN和全连接层的中转操作。由于网络层次较深&#xff0c;参数量…

鲁棒无监督人群计数与定位

鲁棒无监督人群计数与定位 摘要1 IntroductionMethod 摘要 现有的群体计数模型需要大量的训练数据&#xff0c;而这些数据的标注过程耗时且繁琐。为了解决这个问题&#xff0c;作者提出了一种简单而有效的人群计数方法&#xff0c;通过采用一种名为“Segment-Everything-Every…

高精度算法(1)

前言 今天来讲一讲高精度算法&#xff0c;我们说一个数据类型&#xff0c;有它的对应范围比如int类型最多 可以包含到负2的31次方到2的31次方减一 其实大概就是20亿左右那么其他的类型也同样如此 那么&#xff0c;如何解决一个很大很大的数的运算呢&#xff1f; 我们今天介…

gemini国内能用吗

gemini国内能用吗 虽然 Gemini 的具体功能和性能还未完全公开&#xff0c;但基于 Google 在 AI 领域的强大背景和技术实力&#xff0c;已经火出圈了&#xff0c;很多小伙伴已经迫不及待想了解一下它有什么优势以及如何快速使用上 首先我们来讲一下gemini的优势 多模态能力&a…

43、二叉树-验证二叉搜索树

思路&#xff1a; 有效 二叉搜索树定义如下&#xff1a; 节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。 所以对于当前节点来说&#xff1a;我的左节点要小于我&#xff0c;我的右节点要大于我&a…

顺序表详解(C语言实现)

顺序表介绍 顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构&#xff0c;一般情况下采用数组存 储。在数组上完成数据的增删查改。 顺序表一般可以分为&#xff1a; 1. 静态顺序表&#xff1a;使用定长数组存储元素。 2. 动态顺序表&#xff1a;使…

世界500强:破解“智慧核能”数智化成功转型密码

近日&#xff0c;实在智能携手中国核能行业协会信息化专业委员会在中国人工智能小镇成功举办“基于大模型的RPA数字员工在核能行业实战应用案例专项培训”&#xff0c;中国核工业集团、中国广核集团、国家电力投资集团等企事业单位共同参加。中核集团作为我国核科技工业的主体&…

screen常用命令

screen是一个在Linux系统中常用的命令行终端模拟器&#xff0c;它允许用户在一个单一终端会话中管理多个终端窗口。以下是一些常用的screen命令 1、创建一个新的screen会话并命名 screen -S <name>2、control a d &#xff1a;分离&#xff08;detach&#xff09;当前的…

TensorRT从入门到了解(2)-学习笔记

目录 1.TensorRT的高性能部署简介2.TensorRT驾驭方案3.如何正确导出onnx4.动态batch和动态宽高的实现5.实现一个自定义插件6.关于封装7.YoloV5案例8.Retinaface案例9.高性能低耦合10.YOLOX集成参考 1.TensorRT的高性能部署简介 tensorRT&#xff0c;nvidia发布的dnn推理引擎&a…

Kotlin语法快速入门--变量声明(1)

Kotlin语法入门–变量声明&#xff08;1&#xff09; 文章目录 Kotlin语法入门--变量声明&#xff08;1&#xff09;一、变量声明1、整型2、字符型3、集合3.1、创建array数组3.2、创建list集合3.3、不可变类型数组3.4、Set集合--不重复添加元素3.5、键值对集合Map 4、kotlin特有…

yolov8 区域计数

yolov8 区域计数 1. 基础2. 计数功能2.1 计数模块2.2 判断模块 3. 主代码4. 实验结果5. 源码 1. 基础 本项目是在 WindowsYOLOV8环境配置 的基础上实现的&#xff0c;测距原理可见上边文章 2. 计数功能 2.1 计数模块 在指定区域内计数模块 def count_objects_in_region(bo…

浅谈rDNS在IP情报建设中的应用

在当今数字化世界中&#xff0c;互联网已经成为人们日常生活和商业活动中不可或缺的一部分。在这个庞大而复杂的网络生态系统中&#xff0c;IP地址是连接和识别各种网络设备和服务的基础。然而&#xff0c;仅仅知道一个设备的IP地址并不足以充分理解其在网络中的角色和行为。为…

第四百六十七回

文章目录 1. 知识回顾2. 使用方法3. 示例代码4. 内容总结 我们在上一章回中介绍了"OverlayEntry组件简介"相关的内容&#xff0c;本章回中将介绍OverlayEntry组件的用法.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 知识回顾 我们在上一章回中介绍了Overlay…

【简单介绍下K-means聚类算法】

&#x1f308;个人主页: 程序员不想敲代码啊 &#x1f3c6;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f44d;点赞⭐评论⭐收藏 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共…

探索AI大模型:理论、技术与应用

引言 近年来&#xff0c;随着深度学习技术的迅猛发展&#xff0c;AI大模型已经成为人工智能领域的重要研究方向和热点话题。AI大模型&#xff0c;指的是拥有巨大参数规模和强大学习能力的神经网络模型&#xff0c;如BERT、GPT等&#xff0c;这些模型在自然语言处理、计算机视觉…

腾讯一面:你了解js的沙箱环境吗?

去年的面试了&#xff0c;最近复盘了一下&#xff0c;发现菜的一批&#xff0c;有些问题一下子就答出来了&#xff0c;现在答的话&#xff0c;那时候还在瞎鸡儿答我也不知道答的什么。。。。 在 JavaScript 中&#xff0c;沙箱&#xff08;sandbox&#xff09;是一个安全机制&…

目标检测——大规模鱼类数据集

一、重要性及意义 生物多样性研究&#xff1a;鱼类是水生生态系统中的重要组成部分&#xff0c;其种类多样性对于维持生态平衡至关重要。通过对鱼类进行准确的分割和分类&#xff0c;可以更好地了解不同鱼类的生态习性、分布情况以及与其他生物的相互作用&#xff0c;进而为保护…

单片机基础知识 07

一. 键盘检测 键盘分为编码键盘和非编码键盘。 编码键盘 &#xff1a;键盘上闭合键的识别由专用的硬件编码器实现&#xff0c;并产生键编码号或者键值&#xff0c;如计算机键盘。 非编码键盘&#xff1a;靠软件编程来识别。 在单片机组成的各种系统中&#xff0c;用的较多的…

Echarts-知识图谱

Echarts-知识图谱 demo地址 打开CodePen 效果 思路 1. 生成根节点 2. 根据子节点距离与根节点的角度关系&#xff0c;生成子节点坐标&#xff0c;进而生成子节点 3. 从子节点上按角度生成对应的子节点 4. 递归将根节点与每一层级子节点连线核心代码 定义节点配置 functio…

将 Notepad++ 添加到右键菜单

目录 方式一&#xff1a;添加注册表&#xff08;手动&#xff09; 方式二&#xff1a;添加注册表&#xff08;一键添加&#xff09; 有时安装了notepad后&#xff0c;在txt文件上右键&#xff0c;在弹出的菜单栏中没有【通过 Notepad 打开】&#xff0c;如下&#xff1a; 这…