Windows下安装 LLama-Factory 保姆级教程

news2024/12/25 10:12:44

本机配置

  • 品牌:联想拯救者Y9000x-2022
  • CPU:12th Gen Intel® Core™ i7-12700H 2.30 GHz
  • RAM:24.0 GB (23.8 GB 可用)
  • GPU: NVIDIA GeForce RTX 3060 Laptop GPU 6G
  • CUDA版本:12.3 (可以在PowerShell下输入 nvidia-smi 命令查看自己的CUDA版本)

LLama-Factory

介绍

  1. LLaMA Factory 是一个旨在简化大型语言模型训练和微调流程的平台。它支持多种预训练模型,如LLaMA、LLaVA、Mistral等,以及多种训练算法,包括增量预训练、多模态指令监督微调、奖励模型训练等。此外,LLaMA Factory 还支持不同的运算精度和优化算法,以及分布式训练,使得在单机多卡或多机多卡环境下进行训练成为可能。

  2. LLaMA Factory 提供了丰富的特性,包括但不限于:

    • 模型种类:支持多种大型语言模型。
    • 训练算法:支持多种微调技术。
    • 运算精度:支持不同精度的微调,包括全参数微调和LoRA微调。
    • 优化算法:提供了多种优化算法,如GaLore、BAdam等。
    • 加速算子:支持FlashAttention和Unsloth等加速算子。
    • 推理引擎:支持Transformers和vLLM。
    • 实验面板:支持LlamaBoard、TensorBoard等多种实验面板。
  3. LLaMA Factory 还提供了基于gradio的网页版工作台,使得初学者可以快速上手操作,开发出自己的第一个模型。此外,它还支持华为NPU适配,允许在NPU上进行模型训练和推理。

  4. 对于分布式训练,LLaMA Factory 支持DDP、DeepSpeed和FSDP三种分布式引擎,可以根据任务需求与设备选择使用。DDP通过实现模型并行和数据并行来加速训练,而DeepSpeed和FSDP则提供了更高级的优化技术。

  5. LLaMA Factory 还提供了评估工具,可以在模型训练完成后评估模型效果,自动计算BLEU和ROUGE分数,并保存评估结果。

安装步骤

  1. git下载:git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
  2. 本机新建虚拟环境,并激活进入deeplearning虚拟环境中。
conda create -n deeplearning python=3.11 -y
 conda activate deeplearning

在这里插入图片描述
3. cd 到项目中根据项目README.md,安装项目依赖的库:pip install -e ".[torch,metrics]";等待安装结束;
4. 根据README.md说明,在Windows环境下,还需要安装预编译的 bitsandbytes 库,支持 CUDA 11.1 到 12.2, 请根据自己的 CUDA 版本情况选择适合的发布版本。

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.41.2.post2-py3-none-win_amd64.whl
  1. 到此,基本根据README.md中说明,已经安装好必备的库,启动项目时候需要啥再进一步安装,具体可以参考README.md中来搭建本地大模型开发训练环境。

启动项目

  1. LLaMA Board 可视化微调(由 Gradio 驱动):llamafactory-cli webui,(也可以执行命令:python src/webui.py)顺利的话会在浏览器弹出如下界面,表示启动成功。
    在这里插入图片描述

在这里插入图片描述
3. 注意一下,需要把梯子卸了,要不执行启动项目命令,无法访问,可能在有梯子的条件下需要配置一些东西,没仔细研究。
在这里插入图片描述

界面说明

  1. 设置语言,可以选择中文
    在这里插入图片描述

  2. 选择模型名称,主流的开源的模型都有。
    在这里插入图片描述

  3. 模型地址:
    在这里插入图片描述

  4. 微调配置:
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2171468.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

短剧向左,体育向右,快手前途未卜?

最近,辗转于多项业务的快手收到了来自于市场“寓褒于贬”的评价。 麦格理发表报告表示,短剧业务正成为快手近期新的增长动力,亦维持对快手的正面看法,给予“跑赢大市”评级,预期上市前投资者出售2%股份对基本面没有太…

深入理解 `torch.nn.Linear`:维度变换的过程详解与实践(附图、公式、代码)

在深度学习中,线性变换是最基础的操作之一。PyTorch 提供了 torch.nn.Linear 模块,用来实现全连接层(Fully Connected Layer)。在使用时,理解维度如何从输入映射到输出,并掌握其具体的变换过程,…

更改远程访问端口

1、背景 在客户现场,由于安全限制,在内网的交换机中配置的某些限制,不允许使用22端口作为远程访问服务器的端口,此时就需要更改远程访问的端口。 2、前提 在修改默认的远程访问端口22时,可以需要在Linux服务器中支持…

三.python入门语法1

目录 1. 算数运算和关系运算 1.1. 算术运算符 1.2. 关系运算符 习题 2.赋值运算和逻辑运算 2.1. 赋值运算符 2.2. 逻辑运算符 3.位运算符 1)位与运算(A&B) 2)位或运算(A|B) 3)异或位…

uni-app运行到 Android 真机和Android studio模拟器

文章目录 1、运行到Android 真机2、运行到Android studio模拟器2.1、运行到Android studio模拟器Android studio的安装步骤2.2、安装android SDK2.3、新增虚拟设备2.4、项目运行 3、安装报错3.1、安卓真机调试提示检测不到手机【解决办法】3.2、Android Studio中缺少System Ima…

OpenCV与AI深度学习 | 实战 | 使用OpenCV和Streamlit搭建虚拟化妆应用程序(附源码)

本文来源公众号“OpenCV与AI深度学习”,仅用于学术分享,侵权删,干货满满。 原文链接:实战 | 使用OpenCV和Streamlit搭建虚拟化妆应用程序(附源码) 现看看demo演示。 本文将介绍如何使用Streamlit和OpenCV…

Excel锁定单元格,使其不可再编辑

‌在Excel中,锁定单元格后仍然可以编辑‌,这主要涉及到对特定单元格或区域的锁定与保护工作表的设置。以下是实现这一功能的具体步骤: ‌解除工作表的锁定状态‌:首先,需要全选表格(使用CtrlA快捷键&#x…

C语言进程

什么是进程 什么是程序 一组可以被计算机直接识别的 有序 指令 的集合。 通俗讲:C语言编译后生成的可执行文件就是一个程序。 那么程序是静态还是动态的? 程序是可以被存储在磁盘上的,所以程序是静态的。 那什么是进程 进程是程序的执行过…

VS code 使用 Jupyter Notebook 时显示 line number

VS code 使用 Jupyter Notebook 时显示 line number 引言正文引言 有些时候,我们在 VS code 中必须要使用 Jupyter Notebook,但是默认情况下,Jupyter Notebook 是不显示 Line number 的,这对于调试工作的定位是不友好的,这里我们将介绍如何让 Jupyter Notebook 显示 Line…

认识联合体和枚举

目录 一.联合体 1.联合体的声明 2.联合体的特点 (一)内存共享 (二)大小等于最大成员的大小 另一特殊情况: (三)一次只能使用一个成员 3.联合体相比较于结构体 (一)内存分配 …

c++反汇编逆向还原指令add sub imul idiv cdq

add 加法指令 比如add a,b 逆向还原为aab; sub 减法 比如sub a,b 逆向还原为aa-b; imul 乘法 比如sub a,b 逆向还原为aa*b; idiv 除法 比如sub a,b 逆向还原为aa/b; cdq 在x86 汇编中,用于扩展 eax 寄存器的符号位…

基于python深度学习遥感影像地物分类与目标识别、分割实践技术

我国高分辨率对地观测系统重大专项已全面启动,高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成,将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB,遥感大数据时…

优思学院:如何借助“六西格玛设计”流程确保产品创新成功?

六西格玛设计(DFSS, Design for Six Sigma)是一种专注于产品设计初期减少变异、确保高质量的方法。虽然六西格玛的核心目标是通过减少流程和产品变异来提升质量,但它对创新过程有着重要的支持作用。创新过程中,六西格玛设计能确保…

开源b2b2c商城系统流程 多用户商城系统流程图

在选择多用户商城系统时,服务质量至关重要。商淘云多用户商城系统凭借其卓越的功能和强大的客户支持,成为了许多企业的首选。下面我们一起分析多用户商城的特性及b2b2c商城系统思维导图,文中的图大家需要的可评论“666”领取。 首先&#xff…

【含文档】基于Springboot+Vue的学生宿舍管理系统(含源码+数据库+lw)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定…

tomcat 文件上传 (CVE-2017-12615)

漏洞描述: 当 Tomcat 运行在 Windows 主机上,且启用了 HTTP PUT 请求方法 影响范围: Apache Tomcat 7.0.0 - 7.0.79 漏洞复现: 创建vulfocus靶场容器 poc #CVE-2017-12615 POC import requests import optparse import ospar…

mysql索引 -- 全文索引介绍(如何创建,使用),explain关键字

目录 全文索引 引入 介绍 创建 使用 表数据 简单搜索 explain关键字 使用全文索引 mysql索引结构详细介绍 -- mysql索引 -- 索引的硬件理解(磁盘,磁盘与系统),软件理解(mysql,与系统io,buffer pool),索引结构介绍和理解(page内部,page之间,为什么是b树)-CSDN博客 全文…

UE5: Content browser工具编写02

DebugHeader.h 中的全局变量,已经在一个cpp file中被include了,如果在另一个cpp file中再include它,就会有一些conflicts。先全部给加一个static Add static keyword to debug functionsWrap all the functions inside of a namespaceprint …

Linux入门攻坚——34、nsswitch、pam、rsyslog和loganalyzer前端展示工具

nsswitch&#xff1a;network service switch 名称解析&#xff1a;name <---> id 认证服务&#xff1a;用户名、密码验证或token验证等 名称解析和认证服务都涉及查找位置&#xff0c;即保存在哪里。如linux认证&#xff0c;passwd、shadow&#xff0c;是在文件中&…

Linux标准IO(五)-I/O缓冲详解

1.简介 出于速度和效率的考虑&#xff0c;系统 I/O 调用&#xff08;即文件 I/O&#xff0c;open、read、write 等&#xff09;和标准 C 语言库 I/O 函数&#xff08;即标准 I/O 函数&#xff09;在操作磁盘文件时会对数据进行缓冲&#xff0c;本小节将讨论文件 I/O 和标准 I/…