五一超级课堂---Llama3-Tutorial(Llama 3 超级课堂)---第三节llama 3图片理解能力微调(xtuner+llava版)

news2025/1/24 7:25:27

课程文档:
https://github.com/SmartFlowAI/Llama3-Tutorial
课程视频:
https://space.bilibili.com/3546636263360696/channel/collectiondetail?sid=2892740&spm_id_from=333.788.0.0
操作平台:
https://studio.intern-ai.org.cn/console/

在这里插入图片描述
请参照第一节课完成环境配置和webdemo部署以及源码拉取和安装
https://blog.csdn.net/haidizym/article/details/138378194

conda activate llama3
cd ~
git clone https://github.com/SmartFlowAI/Llama3-Tutorial

#模型准备--InternStudio
mkdir -p ~/model
cd ~/model
ln -s /root/share/new_models/meta-llama/Meta-Llama-3-8B-Instruct .
#模型准备--非 InternStudio
#mkdir -p ~/model
#cd ~/model
#git lfs install
#git clone https://code.openxlab.org.cn/MrCat/Llama-3-8B-Instruct.git Meta-Llama-3-8B-Instruct
#准备 openai/clip-vit-large-patch14-336,权重,即 Visual Encoder 权重,非 InternStudio,可以访问 https://huggingface.co/openai/clip-vit-large-patch14-336 以进行下载。
ln -s /root/share/new_models/openai/clip-vit-large-patch14-336 .
#准备 Image Projector 权重
ln -s /root/share/new_models/xtuner/llama3-llava-iter_2181.pth .

#数据准备,按照 https://github.com/InternLM/Tutorial/blob/camp2/xtuner/llava/xtuner_llava.md 中的教程来准备微调数据。
cd ~
git clone https://github.com/InternLM/tutorial -b camp2
python ~/tutorial/xtuner/llava/llava_data/repeat.py \
  -i ~/tutorial/xtuner/llava/llava_data/unique_data.json \
  -o ~/tutorial/xtuner/llava/llava_data/repeated_data.json \
  -n 200

#模型微调,算力不够,可以考虑把deepspeed zero2换成deepspeed zero2 offload
#xtuner train ~/Llama3-Tutorial/configs/llama3-llava/llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py --work-dir ~/llama3_llava_pth --deepspeed deepspeed_zero2_offload
xtuner train ~/Llama3-Tutorial/configs/llama3-llava/llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py --work-dir ~/llama3_llava_pth --deepspeed deepspeed_zero2
#模型转换
xtuner convert pth_to_hf ~/Llama3-Tutorial/configs/llama3-llava/llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py \
  ~/model/llama3-llava-iter_2181.pth \
  ~/llama3_llava_pth/pretrain_iter_2181_hf

xtuner convert pth_to_hf ~/Llama3-Tutorial/configs/llama3-llava/llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py \
  ~/llama3_llava_pth/iter_1200.pth \
  ~/llama3_llava_pth/iter_1200_hf

#Pretrain 模型,问题1:Describe this image. 问题2:What is the equipment in the image?
export MKL_SERVICE_FORCE_INTEL=1
xtuner chat /root/model/Meta-Llama-3-8B-Instruct \
  --visual-encoder /root/model/clip-vit-large-patch14-336 \
  --llava /root/llama3_llava_pth/pretrain_iter_2181_hf \
  --prompt-template llama3_chat \
  --image /root/tutorial/xtuner/llava/llava_data/test_img/oph.jpg

#Finetune 后 模型,问题1:Describe this image. 问题2:What is the equipment in the image?
export MKL_SERVICE_FORCE_INTEL=1
xtuner chat /root/model/Meta-Llama-3-8B-Instruct \
  --visual-encoder /root/model/clip-vit-large-patch14-336 \
  --llava /root/llama3_llava_pth/iter_1200_hf \
  --prompt-template llama3_chat \
  --image /root/tutorial/xtuner/llava/llava_data/test_img/oph.jpg
注释1

“python ~/tutorial/xtuner/llava/llava_data/repeat.py
-i ~/tutorial/xtuner/llava/llava_data/unique_data.json
-o ~/tutorial/xtuner/llava/llava_data/repeated_data.json
-n 200”
这段代码是一个Python脚本,路径为~/tutorial/xtuner/llava/llava_data/repeat.py。它的作用是读取一个JSON文件~/tutorial/xtuner/llava/llava_data/unique_data.json,然后将其中的数据重复200次,并将结果保存到另一个JSON文件~/tutorial/xtuner/llava/llava_data/repeated_data.json中。

具体参数说明如下:

  • -i:指定输入文件的路径,即要重复的原始数据的JSON文件路径。
  • -o:指定输出文件的路径,即重复后的数据要保存到的JSON文件路径。
  • -n:指定重复的次数,这里设置为200次。

所以,这段代码的作用是将unique_data.json文件中的数据重复200次,然后将结果保存到repeated_data.json文件中。

注释2

“llava/llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py --work-dir ~/llama3_llava_pth --deepspeed deepspeed_zero2”
这段代码是在运行一个Python脚本llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py,这个脚本的路径是相对于当前工作目录的(可能是相对于用户的主目录或当前工作目录)。指定了一些参数来配置脚本的行为。下面是对参数的解释:

  • --work-dir ~/llama3_llava_pth:指定了工作目录的路径,即脚本执行时的工作目录。这个路径是用户主目录下的llama3_llava_pth目录。

  • --deepspeed deepspeed_zero2:使用DeepSpeed进行加速训练的参数配置。deepspeed_zero2可能是DeepSpeed的配置文件或者某种模式的标识,具体的含义需要参考DeepSpeed的文档或者脚本的说明。

所以,这段代码的作用是在指定的工作目录下执行llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py脚本,并使用DeepSpeed进行加速训练。

注释3

“xtuner convert pth_to_hf ~/Llama3-Tutorial/configs/llama3-llava/llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py
~/model/llama3-llava-iter_2181.pth
~/llama3_llava_pth/pretrain_iter_2181_hf”

这段代码是在运行一个名为xtuner的命令行工具,执行了其中的一个子命令convert,并提供了一系列参数。下面是对参数的解释:

  • pth_to_hf:这是xtuner工具的子命令,指示将PyTorch模型(.pth文件)转换为Hugging Face Transformers库所需的格式。

  • ~/Llama3-Tutorial/configs/llama3-llava/llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py:指定了一个配置文件的路径,该配置文件描述了模型结构和训练参数等信息,用于指导模型转换。

  • ~/model/llama3-llava-iter_2181.pth:指定了要转换的PyTorch模型的路径,这里是llama3-llava-iter_2181.pth文件。

  • ~/llama3_llava_pth/pretrain_iter_2181_hf:指定了输出路径,即转换后的模型将保存到pretrain_iter_2181_hf目录中,用于后续在Hugging Face Transformers库中加载和使用。

所以,这段代码的作用是使用xtuner工具将PyTorch模型llama3-llava-iter_2181.pth转换为Hugging Face Transformers库所需的格式,并根据提供的配置文件进行适当的转换。

注释4

“export MKL_SERVICE_FORCE_INTEL=1
xtuner chat /root/model/Meta-Llama-3-8B-Instruct
–visual-encoder /root/model/clip-vit-large-patch14-336
–llava /root/llama3_llava_pth/pretrain_iter_2181_hf
–prompt-template llama3_chat
–image /root/tutorial/xtuner/llava/llava_data/test_img/oph.jpg”
这段代码是一系列命令行操作,其中涉及了环境变量的设置和一个名为xtuner的工具的使用,提供了一些参数。下面是对代码的注释:

  • export MKL_SERVICE_FORCE_INTEL=1:这是一个环境变量设置命令,将MKL(Math Kernel Library)服务强制指定为Intel实现。这通常用于优化数值计算的性能。

  • xtuner chat /root/model/Meta-Llama-3-8B-Instruct:这是一个使用xtuner工具的命令,其中chatxtuner工具的一个子命令。它用于启动一个交互式会话,该会话基于给定的模型进行对话。

  • --visual-encoder /root/model/clip-vit-large-patch14-336:指定了视觉编码器的模型路径,用于处理图像输入。这里使用了一个模型路径clip-vit-large-patch14-336

  • --llava /root/llama3_llava_pth/pretrain_iter_2181_hf:指定了LLAVA(LLAMA Visual-Text Attention)模型的路径,该模型经过了预训练并转换为Hugging Face Transformers库所需的格式。这个路径是pretrain_iter_2181_hf

  • --prompt-template llama3_chat:指定了对话的模板名称,用于生成对话的起始提示。

  • --image /root/tutorial/xtuner/llava/llava_data/test_img/oph.jpg:指定了一个图像文件的路径,该图像将作为对话的一部分输入到模型中。

所以,这段代码的作用是启动一个交互式会话,使用给定的视觉编码器模型和LLAVA模型,以及指定的对话模板和图像文件进行对话。

截图

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
使用不了加速
在这里插入图片描述
在这里插入图片描述
ImportError: deepspeed is not installed properly, please check.
之前安装xtuner时候是不是没有 pip install -e .[all]
重新安装xtuner用 pip install -e .[all]
在这里插入图片描述在这里插入图片描述在这里插入图片描述
重新安装xtuner用 pip install -e .[all],并且把deepspeed_zero2换成deepspeed_zero2_offload后,终于可以开始训练了
在这里插入图片描述在这里插入图片描述在这里插入图片描述
近6个小时的等待,终于快好了,今天不知道怎么这么慢,不用offload就out of memory,用offload就只能以时间换空间了,
在这里插入图片描述
庆祝漫长的等待!!!

在这里插入图片描述
模型转换
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

oom问题

①使用https://github.com/SmartFlowAI/Llama3-Tutorial/blob/main/tools/internstudio_quant_web_demo.py,原来是 streamlit run internstudio_web_demo.py xxxx,现在是 streamlit run internstudio_quant_web_demo.py xxxxx
②添加指令–device cpu,以使用cpu运行指令;
③添加指令–deepspeed deepspeed_zero2,或者–deepspeed deepspeed_zero2_offload(在配置环境时须在xtuner目录下执行指令pip install ‘.[all]’)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1658512.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

信号槽机制

目录 信号槽机制 Qt 中的信号 槽函数 槽函数定义 通过代码创建槽函数 通过ui文件创建槽函数 自定义信号 带参数的信号与槽 信号槽断开绑定 信号槽机制 信号和槽机制是 Qt 中一个非常重要的一个机制, 因为有信号和槽机制, 就可以通过某些条件的触发来调用这些槽函数, …

百度地图API 快速入门

一、创建一个应用 创建成功可以在应用程序中查看到自己的ak密钥 二、基本使用 2.1 显示地图 在static下创建demo1.html &#xff08;将密钥换成自己的就可以显示地图了&#xff09; 示例&#xff1a; <!DOCTYPE html> <html> <head><meta name"…

HTML4(四)

1. 框架标签 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><title>框架标签</title></head><body><!-- 利用iframe嵌入一个普通网页 --><iframe src"https://www.toutia…

FPGA+MCU+SDRAM方案,用于服装厂生产过程中以及设计过程中制作样板,剪裁布料

FPGAMCUSDRAM方案&#xff0c;用于服装厂生产过程中以及设计过程中制作样板&#xff0c;剪裁布料 客户应用&#xff1a;服装厂制衣 主要功能&#xff1a; 1.支持步进电机、直流电机 2.支持同时3轴电机协调工作 3.支持以太网/USB联机控制 4.支持LCD 屏显示状态 5.支持HP11/…

AI大模型探索之路-训练篇18:大语言模型预训练-微调技术之Prompt Tuning

系列篇章&#x1f4a5; AI大模型探索之路-训练篇1&#xff1a;大语言模型微调基础认知 AI大模型探索之路-训练篇2&#xff1a;大语言模型预训练基础认知 AI大模型探索之路-训练篇3&#xff1a;大语言模型全景解读 AI大模型探索之路-训练篇4&#xff1a;大语言模型训练数据集概…

mysql安装及基础设置

关系型数据库 MySQL是一种关系型数据库管理系统&#xff0c;采用了关系模型来组织数据的数据库&#xff0c;关系数据库将数据保存在不同的表中&#xff0c;用户通过查询 sql 来检索数据库中的数据。 yum 方式安装 mysql # yum -y install mysql-server # systemctl start my…

2024 全自动ai生成视频MoneyPrinterTurbo源码

只需提供一个视频 主题 或 关键词 &#xff0c;就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐&#xff0c;然后合成一个高清的短视频。 源码下载&#xff1a;https://download.csdn.net/download/m0_66047725/89208288 更多资源下载&#xff1a;关注我。

OSI网络7层的功能介绍

目录 1.OSI功能介绍 2.SNA 3.X.25 1.OSI功能介绍 2.SNA SNA: IBM Systems Network Architecture)SNA是IBM公司开发的网络体系结构&#xff0c;在IBM公司的主机环境中得到广泛的应用。一般来说&#xff0c;SNA主要是IBM公司的大型机(ES/9000、S/390等)和中型机(AS/400)的主要…

SpringSecurity源码分析(RemeberMe)

RememberMeServices RememberMeServices 记住我的服务的接口 可以重写实现自己的记住我 public interface RememberMeServices { //建议 org. springframework. security. authentication. RememberMeAuthenticationToken 在大多数情况下使用它&#xff0c;因为它具有相应的身份…

物理层——计算机网络学习笔记二

目录 物理层的基本概念 数据通信的基础知识 物理层下面的传输媒体 信道复用技术 图片大部分来源于谢希仁《计算机网络》教材配套的ppt。 这一样都是介绍一下概念性的东西&#xff0c;了解一下就行&#xff0c;就重要性而言不如后面的内容。 物理层的作用&#xff1a;考虑如何才…

AlphaFold 3 可以预测所有生命分子的结构和相互作用

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

酷企秀场景elementUi plus可视化diy

无论网络公司还是政务企业需求的所需的一单可回本的 独立部署集三大功能&#xff1a;电子画册、VR全景、地图秀等功能都可以可视化在线设计 后续免费增加 自定义表单、抽奖活动功能。 源码交付&#xff0c;独立私有化部署&#xff0c;无限多开&#xff0c;可视化设计&#x…

视频剪辑一键处理技巧:批量分割视频,快速提取m3u8视频

随着网络视频的普及和多样化&#xff0c;视频剪辑和处理成为了很多用户的基本需求。在众多的视频处理技巧中&#xff0c;批量分割视频快速提取m3u8视频是常见的操作。本文将介绍如何利用云炫AI智剪一键处理的技巧&#xff0c;轻松完成这些任务&#xff0c;提高视频剪辑的效率。…

Element ui input 限制只能输入数字,且只能有两位小数

<el-form-item label"整体进度&#xff1a;" prop"number"> <el-input v-model"formInline.number" input"handleInput" placeholder"百分比" clearable></el-input>% </el-form-item&g…

指针的奥秘(二):指针与数组的联系+字符指针+二级指针+指针数组+《剑指offer》笔试题

指针 一.指针与数组的联系1.数组名的理解2.使用指针访问数组3.一维数组传参的本质 二.字符指针1.字符指针隐藏秘密2.常量字符串3.《剑指offer》笔试题 三.二级指针四.指针数组1.指针数组模拟二维数组 一.指针与数组的联系 1.数组名的理解 也许大部分人认为数组名就是一个名称&…

前端基础知识-ES6扩展运算符(快速实现数组添加新元素、字符串转为数组、对象添加新属性)

前言&#xff1a; 扩展运算符又称为Rest运算符&#xff0c;可以实现数组、对象、字符串在语法层面上的展开&#xff0c;达到简化语法的目的&#xff0c;使得我们提高开发效率 主要用法&#xff1a; 在需要解构的变量前加三个点&#xff08;...xxx&#xff09; 具体示例&…

猿匹配,一款使用环信实现的一个开源聊天应用含服务器

前言 之前写了一篇Android开发集成聊天环信SDK3.x简单开始&#xff0c;然后最近得空开发了一款使用环信实现的实时聊天应用&#xff0c;包含简单的服务器端&#xff0c;并开源给大家&#xff0c;有兴趣的同学可以一起搞一下&#xff0c;详细介绍看下边吧 上代码 服务器&#…

89C52单片机+ESP8266做的物联网+反馈 e4a手机客户端源程序

资料下载地址&#xff1a;89C52单片机ESP8266做的物联网反馈 e4a手机客户端源程序 MCU是89C52单片机 WiFi模块是ESP8266 其他 8路继电器 电源模块 使用贝壳物联做服务器 还有客户端。 也可以用花生壳做内网穿透&#xff0c;8266做服务器&#xff0c;也可以实现物联以及反馈&a…

攻击者正在利用AI,对保险公司发起大规模欺诈

保险欺诈一直是保险行业面临的重要挑战之一&#xff0c;尤其随着技术的进步&#xff0c;欺诈者也在不断更新其手段&#xff0c;利用AI技术&#xff0c;包括生成式模型、机器学习和数据分析工具等欺骗保险公司&#xff0c;而AI技术的应用正成为他们的新工具&#xff0c;使其犯罪…

VSCode(安装)

前言 VSCode&#xff08;全称&#xff1a;Visual Studio Code&#xff09;是一款由微软开发且跨平台的免费源代码编辑器。该软件支持语法高亮、代码自动补全&#xff08;又称 IntelliSense&#xff09;、代码重构、查看定义功能&#xff0c;并且内置了命令行工具和 Git …