大模型关于Lora论文集合

news2024/11/19 13:44:09
  • 《Chain of LoRA:Efficient Fine-tuning of Language Models via Residual
    Learning》

Chain of LoRA (COLA),这是一种受 Frank-Wolfe 算法启发的迭代优化框架,旨在弥合 LoRA 和全参数微调之间的差距,而不会产生额外的计算成本或内存开销。COLA 采用残差学习过程,将学习到的 LoRA 模块合并到预先训练的语言模型参数中,并重新启动对新诞生的 LoRA 模块的优化。我们提供理论收敛保证以及实证结果来验证我们算法的有效性。


论文地址:https://arxiv.org/pdf/2401.04151.pdf

  • 《ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models
    with a Single GPU》

ASPEN是一个突破性的开源框架,通过采用高效的多种 LoRA/QLoRA 方法,彻底改变了大型语言模型 (LLM) 的微调。它通过优化微调过程、最大限度地减少 GPU 内存使用以及支持多个 LoRA/qLoRA 适配器的并发微调而脱颖而出。

项目链接:https://github.com/TUDB-Labs/multi-lora-fine-tune/tree/main

  • 《MultiLoRA: Democratizing LoRA for Better Multi-Task Learning》
    MultiLoRA是一种新的低秩参数更新方式,通过多元化LoRA模块的贡献来更好地适应多任务学习问题。MultiLoRA并行化LoRA模块以减少参数依赖,改变初始化方法来增强表达能力。文中通过奇异值分解分析发现,LoRA主要依赖少量奇异向量,而MultiLoRA可以使更多奇异向量作用。此外,文章使用包含不同领域任务的混合数据集来比较评估各方法,MultiLoRA在MMLU等多种场景下都表现优于LoRA。MultiLoRA达到了与全参数微调相当的多任务适应效果,但只需增加很少参数,这将有利于大规模语言模型的实际应用。


论文地址:https://arxiv.org/pdf/2311.11501.pdf

  • 《MixLoRA: Resource-Efficient Model with Mix-of-Experts Architecture for Enhanced LoRA Performance》

MixLoRA 的基本概念基于所有参数均已冻结的预训练模型,例如 LLaMA-7B。它涉及在其全连接层 (FFN) 之上训练多个 LoRA 专家模块。同时,对路由层(线性门)进行训练,创建更强大的专家混合 (MoE) 语言模型。最近的研究表明,现有 MoE 模型(例如 Mixtral)中的专家权重相对相似,使得 MixLoRA 方法能够以更少的资源实现与现有 MoE 模型相似的性能。

此外,MixLoRA 还允许同时微调注意力层,有助于改善微调结果。在实验中,与由 9 个专家组成的不带注意层适配器的 MixLoRA 模型相比,由 8 个具有注意层适配器的专家组成的 MixLoRA 模型表现出更快的损失减少速度。

MixLoRA 以独特的 LoRA 适配器形式存在于 m-LoRA 中。因此,m-LoRA 能够同时加载、训练和微调多个不同的 MixLoRA 和 LoRA 模型。但是,需要注意的是,这些模型必须基于相同的预训练模型。

MixLora地址:https://github.com/TUDB-Labs/multi-lora-fine-tune/blob/main/MixLoRA.md

在这里插入图片描述

  • 《LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS》

麻省理工学院和香港中文大学联合发布了LongLoRA,这是一种全新的微调方法,可以增强大语言模型的上下文能力,而无需消耗大量算力资源。

通常,想增加大语言模型的上下文处理能力,需要更多的算力支持。例如,将上下文长度从2048扩展至8192,需要多消耗16倍算力。

LongLoRA在开源模型LLaMA2 7B/13B/70B上进行了试验,将上下文原始长度扩展至32K、64K、100K,所需要的算力资源却很少。

开源地址:https://github.com/dvlab-research/LongLoRA

论文地址:https://arxiv.org/abs/2309.12307

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1375627.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【清华社机器之心】视频生成前沿研究与应用特别活动

在视频生成即将迎来技术和应用大爆发之际,为了帮助企业和广大从业者掌握技术前沿,把握时代机遇,机器之心AI论坛就将国内的视频生成技术力量齐聚一堂,共同分享国内顶尖力量的技术突破和应用实践。 论坛将于2024.01.20在北京举办&am…

股东分红模式玩法解析!

股东分红模式股东分红模式是指公司通过向股东支付现金或股票的方式,将公司利润分配给股东的一种方式。不同的股东分红模式有着不同的特点和应用场景。 ​一、模式概述 一个私域电商平台,非常重要的一个角色是“团队长”,尤其是能够带动业绩和…

Win11安装与卸载Oracle 19c数据库

一、官网下载安装包 进入官网,选择产品-Oracle DataBase,点击进入下载界面 官网 二、安装 将下载的压缩包进行解压,解压路径随意即可 1 双击exe文件开始安装 等待出现如下页面 2 选择所示,点击下一步 3 选择桌面类安装 4 创…

openGauss学习笔记-194 openGauss 数据库运维-常见故障定位案例-分析查询语句长时间运行的问题

文章目录 openGauss学习笔记-194 openGauss 数据库运维-常见故障定位案例-分析查询语句长时间运行的问题194.1 分析查询语句长时间运行的问题194.1.1 问题现象194.1.2 原因分析194.1.3 处理办法 openGauss学习笔记-194 openGauss 数据库运维-常见故障定位案例-分析查询语句长时…

leetcode动态规划(零钱兑换II、组合总和 Ⅳ)

518.零钱兑换II 给定不同面额的硬币和一个总金额。写出函数来计算可以凑成总金额的硬币组合数。假设每一种面额的硬币有无限个。 示例 1: 输入: amount 5, coins [1, 2, 5] 输出: 4 解释: 有四种方式可以凑成总金额: 55 5221 52111 511111 示例 2: 输入: amount 3, coi…

conda安装和配置以及处理OSError: [WinError 123]异常

conda安装和配置 由于更换电脑,浅浅记录下conda安装和配置。以及处理这次安装的 OSError: [WinError 123] 异常。 conda的作用 下载之前,先了解下为什么需要使用conda,它是一个开源的Anaconda是专注于数据分析的Python发行版本,…

RK3399平台入门到精通系列讲解(驱动篇)eventpoll结构体详解

🚀返回总目录 文章目录 一、eventpoll 结构体二 、epitem 结构体三、eppoll_entry 结构体eventpoll 结构体:eventpoll 结构体是 epoll 在内核中的核心结构epitem 结构体:epitem 结构体用于表示 epoll 实例中的事件项eppoll_entry 结构体:它的作用就是关联Socket等待队列中…

VUE3相比VUE2升级了哪些内容

目录 一、Vue 3 、Vue 2 对比及提升项 二、 Vue 3 创建app.vue示例 三、Vue3 的setup、Vue2 的 data对比 一、Vue 3 、Vue 2 对比及提升项 性能提升:Vue 3 做了大量的优化工作,提升了运行时的性能。例如,在模板编译时进行的静态分析和优化…

DLinear模型:Are Transformers Effective for Time Series Forecasting?

本文发表于2022年8月份 Abstract 基于Transformer的长时间序列预测模型不断涌现,并且性能在过去几年力不断提高,但Transformer是否对长时间序列问题有效? 具体来说,Transformer是提取长序列中各元素间语义关联最成功的模型&…

模型评估:A/B测试的陷阱

互联网公司中,A/B测试是验证新模块、新功能、新产品是否有效;新算法、新模型的效果是否有提升;新设计是否受到用户欢迎;新更改是否影响用户体验的主要测试方法。在机器学习领域中,A/B测试是验证模型最终效果的主要手段…

js逆向第16例:猿人学第12题入门级js

文章目录 一、前言二、定位关键参数三、代码实现一、前言 任务:抓取这5页的数字,计算加和并提交结果 既然是入门级,那肯定很简单了 二、定位关键参数 控制台查看请求数据,m值应该就是关键参数了 进入堆栈 马上定位到了m值"m": btoa(yuanrenxue + window.pag…

商品源数据如何采集,您知道吗?

如今,电子商务已经渗透到了人们生活的方方面面。2020年新冠肺炎突如其来,打乱了人们正常的生产生活秩序,给经济发展带来了极大的影响。抗击疫情过程中,为避免人员接触和聚集,以“无接触配送”为营销卖点的电子商务迅速…

安达发|APS换产矩阵功能带来的便利

APS换产矩阵功能是一种在生产计划和排程中广泛应用的工具,它能够帮助企业实现生产过程的优化和效率提升。通过使用APS换产矩阵功能,企业可以更好地管理生产线上的资源,合理安排生产任务,提高生产效率和产品质量。 1.AP…

Spacedesk | 最新版本移动端扩展PC副屏

我的设备: 电脑:戴尔G15 5511、i7-11800H、Windows 11、RTX3060(推荐显卡高级一些,算力差点的可能带不动这款软件) 平板:荣耀V6、麒麟985、安卓10、分辨率2000*1200(手机也行,我用的平板&…

Windows 双网卡链路聚合解决方案

Windows 双网卡链路聚合解决方案 链路聚合方案1:Metric介绍操作 方案2:NetSwitchTeam介绍操作 方案3:NIC介绍操作 方案4:Intel PROSet 链路聚合 指将多个物理端口汇聚在一起,形成一个逻辑端口,以实现出/入…

Overleaf Docker编译复现计划

Overleaf Docker编译复现计划 Overleaf Pro可以支持不同年份的Latex镜像自由选择编译,这实在是一个让人看了心痒痒的功能。但是很抱歉,这属于Pro付费功能。但是我研究了一下,发现其实和Docker编译相关的代码,社区版的很多代码都没…

Windows下Python+PyCharm+miniconda+Cuda/GPU 安装步骤

1. 官网安装Python 3.9 Python Release Python 3.9.0 | Python.org 2. 安装pycharm https://download.jetbrains.com/python/pycharm-professional-2023.3.2.exe 3. 安装miniconda Miniconda — miniconda documentation 4. 安装完miniconda 创建虚拟环境 conda create …

吴飞教授 人工智能 模型与算法 启发式搜索课件发散分析

一、文章介绍 本文是针对吴飞教授在MOOC课程 :《人工智能:模型与算法》 2.1节 启发式搜索的课前发散 在课程2.1节 启发式搜索章节中,吴飞教授以如何计算城市地图两点之间最短路径为例,重点讲授了贪婪最佳优先搜索和A*搜索算法&a…

Android 集成firebase 推送(FCM)

1,集成firebase 基础 1>googleService文件 2>项目级gradle 3>app级gradle 4>setting 2,推送相关 重点: 源文档:设置 Firebase Cloud Messaging 客户端应用 (Android) (google.com) /*** 监听推送的消息* 三种情况…

php中常用的几个安全函数

1. mysql_real_escape_string() 这个函数对于在PHP中防止SQL注入攻击很有帮助,它对特殊的字符,像单引号和双引号,加上了“反斜杠”,确保用户的输入在用它去查询以前已经是安全的了。但你要注意你是在连接着数据库的情况下使用这个…