一、背景
自从chatgpt,gpt4以特别好的效果冲入人们的视野中,也使得AI产业发生了巨大变革,从17年以来的bert,将AI的各种领域都引入bert类的fine-tune方法,来解决单个领域单个任务的一一个预训练模型。在学术界和工业界都带来巨大变革,将AI从原来手工特征,cnn,rnn简单的特征提取升级到transformer统一结构的模型。
而本次chatgpt,gpt4以对话的形式,展示了其能力,对原有各个小领域,小数据微调的bert类模型都带了无法颠覆的冲击。将AI引入了10B-100B的大模型时代,带动了全球半导体,芯片,AI行业的大量需求。
本次大模型的应用基础论文,主要是一直以来任务无法微调的千亿参数大模型,可以通过lora方法进行微调达到很好的效果,大大降低了微调大模型的成本。
二、大模型介绍
虽然lora降低了对大模型微调的成本,但具体大模型的效果还是得看开源大模型的大公司预训练的效果好坏,预训练使用数据量和质量如何。
2.1 LLaMA
Large Language Model Meta AI
github地址: facebookresearch/llama
论文:LLaMA: Open and Efficient Foundation Language Models
参数量:(7B, 13B, 33B, and 65B parameters)
模型下载:目前可以在huggingface上直接下载,https://huggingface.co/decapoda-research
简介:使用较为科学的训练方式,在之前各种大模型型上取开源数据进行训练得到,性价比较高的大模型。
2.2 Chinchilla
论文: Training Compute-Optimal Large Language Models
参数量:70B
介绍:DeepMind 在开发了Gopher 后,探究成本与LLM效果关系,发现基本模型大小与使用标注数据(tokens 的数量)呈线性关系,通过小模型上开发了Chinchilla,以Gopher 1/4的参数量在效果上超过了 Gopher和GPT-3
2.3 PaLM
论文:PaLM: Scaling Language Modeling with Pathways
参数量:540B
介绍:google 之前提出的大模型,最近好像已经出了PaLM 2,应用在bard,以及google search 上了。传送门:PaLM 2
2.4 GPT-neo
code :EleutherAI/gpt-neo
介绍:使用 mesh-tensorflow 实现的类GPT-3模型。
2.5 T0PP
T Zero Plus Plus
code: bigscience-workshop/t-zero
论文:Multitask Prompted Training Enables Zero-Shot Task Generalization
介绍:使用t5结构的模型,在许多有监督数据,转换为提示任务学习类似指令微调的方法学习,得到性能提升的模型,超过GPT3的表现。
2.6 OPT
论文: Open Pre-trained Transformer Language Models
code:facebookresearch/metaseq
参数量:
介绍:Facebook,开发类gpt的模型,OPT-175B效果=GPT3,同时开发碳排放=1/7。
2.7 Gopher
Gopher:280B
from deepmind 2021
论文地址:Scaling Language Models: Methods, Analysis& Insights from Training Gopher
2.8 Bloom
论文:BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
参数量:176B
介绍:该模型主打多语言的LLM,在46种自然语言和13种编程语言进行训练,由BigScience组织开发,该组织旨在结合技术、法律、社会学等多学科知识来解决这些问题。该组织在两个不同时间尺度上关注两个主要的目标:设计一个长期的国际数据治理结构,该结构会优先考虑数据权利所有人,并为BigScience项目直接使用的数据提供具体建议。
2.9 GLM
参数量:130B
论文:GLM: General Language Model Pretraining with Autoregressive Blank Infilling
code :THUDM/GLM
介绍:清华团队从21年底到22年中旬持续开发的130B大模型,在中英文上都具有很高精度,超过GPT3,ernie-tianti等。
三、数据集介绍
3.1 指令微调
大模型用到的数据集可以参考指令微调的数据集,其中大部分开源数据集可以在LLaMa的论文中找到。
3.2 微调LLaMa
一般实现自己的gpt平替模型,可以用LLama在对话数据集进行微调。
四、Benchmark
4.1 WinoGrande
WinoGrande 是一个包含 44k 问题的大型数据集,其灵感来自最初的 WSC 设计,但进行了调整以提高数据集的规模和硬度。数据集构建的关键步骤包括
(1) 精心设计的众包程序
(2) 使用新颖的 AfLite 算法减少系统偏差,该算法将人类可检测的词关联概括为机器可检测的嵌入关联。
4.2 BigBench
Beyond the Imitation Game Benchmark (BIG-bench) 是一个协作基准,旨在探索大型语言模型并推断其未来的能力。 Big-bench 包括 200 多个任务。
https://opendatalab.com/BIG-bench
4.3 MMLU
MMLU(Massive Multitask Language Understanding)基准是由一系列学术科目中类似考试的问题组成。Chinchilla显著优于Gopher,平均准确率67.6%。Chinchilla甚至超越了2023年6月专家预测的63.4%准确率。
GLM在 MMLU 上略优于 GPT-3 175B(+0.9%)
4.4 LAMBADA
在单词预测数据集LAMBADA上,Chinchilla实现了77.4%的准确率,相比于Gopher的74.5%和MT-NLG 530B的76.6%。在RACE-h和RACE-m上,Chinchilla显著优于Gopher,在两个case上改善超过10%。
GLM(130B)在 LAMBADA 上优于 GPT-3 175B davinci(+4.0%)、OPT-175B(+5.5%)和 BLOOM-176B(+13.0%)
五、一些QA
4.1 为什么大模型都是decoder模型
为什么现在的LLM都是Decoder-only的架构?–苏剑林
苏神主要通过性能分析了同参数量情况,decoder,较encoder-decoder模型效果好一些。
我认为更多可能是通过GPT系列的实验,预测一下个词的预训练任务,更适合于超大型预料的预训练策略,相较于MLM等预训练任务,超大型预料可能后面预料会学不到更深层的语义,逻辑信息,MLM等任务相对较为简单,而类似span-mask,sentence-mask等任务针对模型,虽然任务难度上升了些,但对于模型调整需要进行适应,超大型模型需要的是广泛适应性,和可扩展性,综合各种预训练策略来看,基础的LM预训练策略更好,所以使用搭配的Decoder-only架构作为LLM的框架更为合适。