[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

news2024/10/10 22:23:17

文章目录

  • LLaMA大模型及其衍生模型
    • 1. LLaMA
    • 2. stanford_alpaca
    • 3. ChatDoctor
    • 4. alpaca-lora
    • 5. Chinese-LLaMA-Alpaca
    • 6. BELLE
  • 大模型综述 A Survey of Large Language Models

关键词:大模型,LLaMA,Alpaca,Lora,Belle,模型训练,模型微调,指令微调

最近尝试在领域数据进行生成式大模型的再训练和微调,在调研和实验中整理了一些项目&论文的基本信息,后续会持续完善和补充。

LLaMA大模型及其衍生模型

1. LLaMA

项目地址: https://github.com/facebookresearch/llama

LLaMa语料数据如下,对各类语料又做了「去重、筛选」等,每种数据的处理方式有差别,具体见论文。语料中不包含中文数据。
image2023-4-4_14-38-11.png
模型参数:1.4T tokens, 2 epochs, 训练耗时65B模型: 2048 * 80G A100 * 21day,其他参数见下表:
image2023-4-4_14-42-54.png

相对于之前的大模型,LLaMa做了三点改进:

  • GPT3在每层transformer之后做正则化,调整为在每层transformer之前做正则化,正则化采用RMSNorm;
  • 相比PaLM,在激活函数上,使用SwiGLU替换ReLU非线性激活函数;
  • 相比GPTNeo,在位置编码上,使用RoPE替代绝对位置编码;

LLaMA相对其他大模型在零样本常识推理任务上的性能对比:
image2023-4-4_15-19-3.png
结论:在其他零样本、小样本任务上与各大模型进行性能对比,结果显示,LLaMA-13B在大多数任务上能够赶上GPT3,但模型大小不足GPT3的十分之一。LLaMA-65B与Chinchilla-70B/PaLM-540B在多个任务也具有一定的竞争力。

更重要的是LLaMA是chatGPT之后首个被广泛用作底座模型的开源大模型,为后续基于llama的衍生模型做出了极大的贡献
image2023-4-4_15-27-36.png

2. stanford_alpaca

项目地址:https://github.com/tatsu-lab/stanford_alpaca

以llama做为底座模型,引入新的数据进行指令微调ISF,新数据采用self-instruct的方式有Text-davinci-003进行生成,得到52k新数据进行微调训练。

本项目的贡献在于,提供了用于指令微调的数据生成方式,同时证明了ISF后模型效果的提升,其之后的很多项目均是基于这个思路。
image2023-4-12_11-42-27.png

3. ChatDoctor

本项目可以看着是standford-aplaca方法在医疗领域的衍生,其借助chatGPT对结构化知识库生成ISF数据集的方法在后续项目的多被借鉴。

项目地址: https://github.com/Kent0n-Li/ChatDoctor
基础模型:llama-7b
指令样本构造:Standford Alpaca 52k数据,700类疾病知识库借助ChatGPT生成的5k数据
指令样本量:52k + 5k
任务评测:对比ChatGPT在医学内容上进行提问,评估内容输出的准确性,ChatGPT 87%,ChatDocter 91%
模型发布:ChatDocktor,模型在stanford alpaca的基础上进行再训练
image2023-4-12_14-23-7.png

4. alpaca-lora

项目地址: https://github.com/tloen/alpaca-lora

Alpaca-Lora (羊驼-Lora),在stanford-alpaca的基础上,使用 Lora (Low-rank Adaptation) 技术对模型进行指令微调,相当于是对模型进行轻量化训练,使得对显存的占用和训练时长都大幅度降低。在大模型训练高资源高成本的情况下,使用lora技术,牺牲少部分性能却使得大模型训练变得可行,在之后的项目中被广泛用到。

LoRa结构:在模型的Linear层的旁边,增加一个「旁支」,训练更新旁支参数替代模型参数。
image2023-4-12_15-29-14.png

5. Chinese-LLaMA-Alpaca

项目地址: https://github.com/ymcui/Chinese-LLaMA-Alpaca

该项目值得被重点推荐和学习,ymcui在Bert时代Chinese-BERT-wwm亦是杰出之作。

该项目在LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,同时中文Alpaca模型进一步使用了中文指令数据进行精调。保姆级说明文档及量化版本可轻松部署本地PC。

预训练数据:通用中文语料(bert-wwm,macbert,lert,pert等语料)13.6M行

指令微调样本数据:200w数据,中英文翻译500k + pCLUE 300k + Alpaca 100k(中/英)

6. BELLE

项目地址:https://github.com/LianjiaTech/BELLE
基础模型:bloom-7b, llama-7b
指令样本构造:Standford Alpaca方法,chatGPT self-instruct
指令样本量:20万、60万、100万和200万样本
任务评测:在Extract, Classification, Closed QA, 和Summarization任务上,增加数据能持续带来效果的提升,还未达到瓶颈。在Translation, Rewrite, 和Brainstorming任务上,几十万的数据量就能获得较好的效果。在Math, Code, 和COT任务上,模型效果较差,而且增加数据量已经无法带来效果的提升。 https://github.com/ZrrSkywalker/LLaMA-Adapter
模型发布:BLOOMZ-7B1-xx,LLAMA-7B-xx,xx表示不同的指令样本量

大模型综述 A Survey of Large Language Models

论文地址:A Survey of Large Language Models

4月份发表在arXiv上的大模型综述,包括了大模型的发展历程、各大模型的关键参数、训练语料的处理方法及数据类型,以及大模型训练的流程等,对于全面了解认识大模型很有帮助。

  • 大模型发展历程:
    大模型综述
    - 各大模型关键信息
    大模型综述

  • LLM语料从内容类型上可以分为六大类:Books, CommonCrawl, Reddit links, Wikipedia, Code, and others.
    大模型语料类型

语料数据包括了通用数据和专业数据,通用数据的多样性能提高模型的泛化性和语言理解能力,专业数据能够赋予LLM特定的任务解决能力。
不同大模型数据类型是使用占比

高质量数据可能在很大程度上影响LLM的性能,因此需要对原始语料进行过滤,包括去除有噪声、冗余、不相关和潜在毒性的数据。

LLM训练前的数据处理流程:
大模型训练流程

---------END--------

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/790125.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

git拉取提交代码进行身份验证-输入账号密码以及配置SSH公钥

git初次拉取代码或者提交代码时,需要进行身份验证。验证有两种方式:1、账号密码验证;2、SSH公钥验证。 本文章以gitee为例 账号密码验证 1.首先找到电脑本地项目文件夹,在地址栏中输入cmd回车,打开命令行窗口。 2.输入…

【Redis深度专题】「核心技术提升」探究Redis服务启动的过程机制的技术原理和流程分析的指南(集群功能分析)

探究Redis服务启动的过程机制的技术原理和流程分析的指南(集群功能分析) Redis集群的出现背景提升性能扩展性 Redis集群概述Redis Cluster特性分布Redis Cluster的Failover机制Redis集群节点宕机集群如何判断节点是否挂掉集群进入失败状态的必要条件 Fai…

git实战

git实战 第一章 快速入门 1.1 什么是git git是一个分布式的版本控制软件。 软件,类似于QQ、office、dota等安装到电脑上才能使用的工具。版本控制,类似于毕业论文、写文案、视频剪辑等,需要反复修改和保留原历史数据。分布式 - 文件夹拷贝…

抖音seo短视频矩阵系统源码开发解析---多账号授权管理

本文开发语音使用PHP语言开发,梅雨plum框架自主研发,文末另附开发技巧 抖音SEO短视频矩阵系统源码开发解析是一种基于抖音平台的短视频排名优化技术,通过对抖音算法的分析和抖音用户行为的研究,提供一种基于“流量矩阵”的短视频管…

TCP/IP 五层协议模型

转载大佬文章 我们每天使用互联网,本质上是在传输/接收各种数据,具体如何传输则是按照一系列互联网协议进行的。我们常说的网络七层模型,五层模型,四层模型都是对数据传输过程做了细化的分层。 按照五层模型比较好理解&#xff0c…

Amazon Redshift Serverless – 现已正式推出新功能

去年在 re:Invent 上,我们推出了 Amazon Redshift Serverless 的预览版,这是 Amazon Redshift 的无服务器选项,可让您分析任何规模的数据,而无需管理数据仓库基础设施。您只需要加载和查询数据,并且只需为使用的内容付…

C语言动态内存管理(三)

目录 五、C/C程序的内存开辟1.图解2.关键点 六、柔性数组1.什么是柔性数组2.两种语法形式3.柔性数组的特点4.柔性数组的创建及使用在这个方案中柔性数组的柔性怎么体现出来的? 5.不用柔性数组,实现数组可大可小的思路6.对比 总结 五、C/C程序的内存开辟 1.图解 &a…

上手 SpringBoot

简介 SpringBoot设计的目的是简化 Spring应用的初始搭建以及 开发过程。 SpringBoot概述 parent 继承父pom文件,方便管理依赖的版本。此处涉及maven的使用 作用: 继承parent的形式可以采用引入依赖的形式实现效果 starter(原理是依赖传递) 包含了若…

C语言include学习

#include叫做文件包含命令&#xff0c;用来引入对应的头文件&#xff08;.h文件&#xff09;。 #include 也是C语言预处理命令的一种。 一个简单程序&#xff0c; #include <stdio.h>int main() {printf("hello world\n");return 0; } 使用printf()函数需要…

从虚拟现实到真实现实:沉浸式体验的未来 (ps beta)

首先&#xff0c;您需要创建一个免费的Adobe账户&#xff0c;如果您还没有一个账户的话。您可以在Adobe的注册页面上填写必要的信息来创建一个新账户。 Adobe: Creative, marketing and document management solutions login 创建账号&#xff1a; 编一个google邮箱&#xf…

F5 LTM 知识点和实验 1-BIG-IP 系统介绍

第一章&#xff1a;BIG-IP 系统介绍 基于包转发和全代理架构的区别&#xff08;packet-based vs full proxy architeture&#xff09; 一个网络设备如果是基于包转发的&#xff0c;则他是一个会话流&#xff08;communication stream&#xff09;的中间设备&#xff0c;而不是…

Atcoder Beginner Contest 311 C - E题讲解

C - Find it! 1. Description Problem Statement There is a directed graph with N N N vertices and N N N edges. The i i i-th edge goes from vertex i i i to vertex A i A_i Ai​. (The constraints guarantee that i ≠ A i i \neq A_i iAi​.) Find a dire…

记负均正 C语言实现

记负均正 描述 首先输入要输入的整数个数n&#xff0c;然后输入n个整数。输出为n个整数中负数的个数&#xff0c;和所有正整数的平均值&#xff0c;结果保留一位小数。 0即不是正整数&#xff0c;也不是负数&#xff0c;不计入计算。如果没有正数&#xff0c;则平均值为0。 数…

【C++】-多态的语法细节详解

&#x1f496;作者&#xff1a;小树苗渴望变成参天大树&#x1f388; &#x1f389;作者宣言&#xff1a;认真写好每一篇博客&#x1f4a4; &#x1f38a;作者gitee:gitee✨ &#x1f49e;作者专栏&#xff1a;C语言,数据结构初阶,Linux,C 动态规划算法&#x1f384; 如 果 你 …

软路由系统 --- iKuai虚拟机修改虚拟机网卡类型

软路由系统&#xff1a;iKuai 注意&#xff1a;2.0系列及以后版本&#xff0c;默认安装成功后只是绑定了LAN口&#xff0c;其他的接口需要自己进爱快的WEB界面手工绑定。 虚拟机网卡类型说明&#xff1a; 个人版vmware 建议选择Linux ubuntu64位&#xff0c;否则默认网卡类型…

MySQL 数据抽稀 每分钟取一条

假如原始数据为每5秒一个数据&#xff0c;现在想展示为每4分钟一条数据&#xff0c;先按照分钟数把除以4余数为0的行选出来&#xff0c;在按照 年月日 时分&#xff0c;做组内排序&#xff08;窗函数ROW_NUMBER&#xff09;&#xff0c;最后再拿出序号为1的行。 WITH data_01 …

基于SpringBoot+vue的私人健身与教练预约管理系统设计与实现(源码+LW+部署文档等)

博主介绍&#xff1a; 大家好&#xff0c;我是一名在Java圈混迹十余年的程序员&#xff0c;精通Java编程语言&#xff0c;同时也熟练掌握微信小程序、Python和Android等技术&#xff0c;能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架…

谈谈区块链技术

目录 1.什么是区块链 2.区块链的实现原理 3.区块链技术有哪些应用 4.区块链技术潜在的危害 5.区块链技术未来会怎么发展 1.什么是区块链 区块链是一种技术&#xff0c;它通过在一个分布式网络中记录和验证交易和数据&#xff0c;实现去中心化的数字账本。区块链的核心概念是…

读数据压缩入门笔记11_读后总结与感想兼导读

1. 基本信息 数据压缩入门 Understanding Compression [美]柯尔特麦克安利斯&#xff08;Colt McAnlis&#xff09;、[美]亚历克斯海奇 著&#xff1b; 王凌云 译 人民邮电出版社,2020年4月出版&#xff0c;1版 1.1. 读薄率 书籍总字数300千字&#xff0c;笔记总字数18197…

Linux用户权限

1.用户、权限、组的概念 1.1 用户 用户 是Linux系统工作中重要的一环&#xff0c;在Linux系统中&#xff0c;不论是由本机或是远程登录系统&#xff0c;每个系统都必须拥有一个账号&#xff0c;一个账号就是一个用户。 1.2 权限 在Linux系统中&#xff0c;每一个用户对不同…