2023 年,大语言模型依旧是「话题制造机」,不管是 OpenAI 的「宫斗剧」,还是各个大厂的新模型、新产品「神仙打架」,亦或是行业大模型发展的风生水起,都昭示着大语言模型具备巨大的发展空间。花香自引蝶,其实从 ChatGPT 一夜爆红后,我们便时常能够听到各路大佬下场入局的消息,资金或技术背景各异的初创公司如雨后春笋般拔地而起。
显然,这样的热闹场景并不会在 2024 年轻易冷却。越来越多的企业、传统行业开始探索如何应用大语言模型与自身业务相结合,快速膨胀的市场需求也反向推动了相关领域的研究进一步深化、创新,arXiv 等平台上的论文更新也愈发频繁。
其中,哪些论文值得看?复杂的论文题目背后讲的是哪些知识点?
为了帮助大家更快检索高价值论文,亚马逊工程师 Eugene Yan 等人建立了一个语言模型论文阅读清单,持续分享前沿论文,目前已经汇总了 40 余篇高质量论文。
合集链接:
https://eugeneyan.com/writing/llm-reading-list/
关注公众号,回复「LLM论文」即可打包下载论文合集
Transformer 开山论文
Attention Is All You Need
** 作者*:NEAR 联合创始人 Illia Polosukhin (前 Google AI 团队成员) 等人
** 原文*:https://arxiv.org/abs/1706.03762
主流的序列转换模型是基于复杂的递归或卷积神经网络的编码器-解码器配置。高性能模型还通过 attention 机制连接编码器和解码器。该研究提出了一种新的简单网络架构——Transformer,完全基于 attention 机制,完全省去了递归和卷积神经网络配置的过程。在两项机器翻译任务上的实验表明,这些模型的质量更优,可并行化程度更高,所需的训练时间也大大减少。
GPT: 通过生成式预训练提高语言理解能力
Improving Language Understanding by Generative Pre-Training
** 作者*:OpenAI
** 原文*:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
自然语言理解涵盖了多种类任务,如文本关联、问答、语义相似度评估等。尽管大量未标记的文本语料库充足,但用于学习这些特定任务的标记数据却很有限,这使得经过辨别训练的模型难以充分发挥作用。对此,Ilya 带领 OpenAI 的研究人员提出,通过在丰富的未标记文本语料库上进行语言模型的生成预训练,并在每个具体任务上进行差异性微调,可以改善这种现象。研究人员在微调过程中使用了 task-aware input transformations,对模型架构的调整程度更小,同时还实现了有效的迁移学习。
针对通用任务的对比实验结果显示,在常识推理 (Stories Cloze Test) 上,该模型取得了 8.9% 的性能提升,在问答 (RACE) 上为 5.7%,在文本关联 (MultiNLI) 上为 1.5%。
BERT:用于语言理解深度双向 Transformers 的预训练
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
** 作者*:谷歌 DeepMind
** 原文*:https://arxiv.org/abs/1810.04805
研究人员提出了一个全新的语言表征模型 BERT (Bidirectional Encoder Representations from Transformers),通过在所有层 (layer) 中,综合考虑上下文来预训练深度双向表征。因此,预训练的 BERT 模型只需增加一个输出层即可进行微调,从而为问题解答和语言推理等多类任务创建先进模型,而无需对特定任务的架构进行大量修改。
BERT 在 11 项自然语言处理任务上取得了大幅提升,包括将 GLUE 分数提高到 80.5%(相对提高 7.7%),MultiNLI 准确率提高到 86.7%(相对提高 4.6%),SQuAD v1.1 问题解答测试 F1 提高到 93.2(相对提高 1.5%),SQuAD v2.0 测试 F1 提高到 83.1(相对提高 5.1%)。
T5:用统一的文本到文本转换器探索迁移学习的极限
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
** 作者*:谷歌 DeepMind
** 原文*:https://arxiv.org/abs/1910.10683
研究人员引入了一个统一框架,将所有基于文本的语言问题转换为文本到文本的格式,从而进一步探索了 NLP 的迁移学习技术。该研究比较了数十种语言理解任务的预训练目标、架构、无标记数据集、迁移方法和其他因素。通过将对比结果、实验结果与该团队最新提出的 Colossal Clean Crawled Corpus 语料库相结合,该项研究在摘要、问题解答、文本分类等多项基准测试中取得了最先进的结果。
GPT2:语言模型是无监督多任务学习器
Language Models are Unsupervised Multitask Learners
** 作者*:OpenAI
** 原文*:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
该研究证明,当在由数百万网页构成的新数据集 WebText 上进行训练时,语言模型可以在没有明确监督的情况下学习自然语言处理任务。当在文档 + 问题的条件下,语言模型生成的答案在 CoQA 数据集上的 F1 分数达到 55,匹配或超过了 4 个基线系统中的 3 个,同时还无需使用 127,000 余个训练示例。GPT-2 是一个拥有 15 亿参数的 Transformer,在 zero-shot 设定下,在 8 个测试的语言建模数据集中的 7 个取得了最优表现,但其仍未完全适应 WebText。
GPT-3:语言模型是少样本学习器
Language Models are Few-Shot Learners
** 作者*:Anthropic 创始人 Dario Amodei、OpenAI 联合创始人 Ilya Sutskever 等人
** 原文*:https://arxiv.org/abs/2005.14165
研究人员训练了自回归语言模型 GPT-3,并测试了该模型在少数几个场景中的性能。在所有任务中,GPT-3都没有进行任何梯度更新或微调,任务和少样本演示纯粹通过与模型的文本交互来实现。GPT-3 在多数 NLP 数据集上都取得了很好的性能,包括翻译、问题解答,以及一些需要即时推理或领域适应的任务,如解词、在句子中使用新词或进行三位数运算。此外,研究人员还发现 GPT-3 可以生成人们难以区分的新闻文章。
神经语言模型的缩放法则:在较少数据集上训练出更大的模型
Scaling Laws for Neural Language Models
** 作者*:Anthropic 创始人 Dario Amodei 及 OpenAI 研究人员
** 原文*:https://arxiv.org/abs/2001.08361
研究人员研究了语言模型性能在交叉熵损失 (cross-entropy loss) 上的缩放规律。损失随模型大小、数据集大小和训练所用计算量的变化呈幂律缩放,部分缩放趋势超过 7 个数量级。过拟合 (overfitting) 对模型/数据集大小的依赖性,以及训练速度对模型大小的依赖性,都是由简单的方程式决定的。基于此,研究人员提出,模型越大,样本效率就越高,因此最佳计算效率的训练需要在相对较少的数据量上训练更大的模型,并在收敛前大幅停止。
Chinchilla:训练计算效率最优的大型语言模型
Training Compute-Optimal Large Language Models
** 作者*:谷歌 DeepMind
** 原文*:https://arxiv.org/abs/2203.15556
研究人员提出,模型大小和训练 tokens 数量应该成比例增加,并通过训练一个预测的计算效率最优模型 Chinchilla 来验证这一假设。Chinchilla 使用与 Gopher 相同的算力,但参数规模为 70 亿且数据量增加了 4 倍。Chinchilla 在各种下游评估任务中都显著优于 Gopher (280B)、GPT-3 (175B)、Jurassic-1 (178B) 和 Megatron-Turing NLG (530B)。这也意味着 Chinchilla 在微调和推理时使用的计算资源大大减少,极大地方便了下游应用。
LLaMA:开放、高效的基础语言模型
LLaMA: Open and Efficient Foundation Language Models
** 作者*:Mistral AI 联合创始人 Guillaume Lample (曾任职于 Meta AI) 等人
** 原文*:https://arxiv.org/abs/2302.13971
LLaMA 是一个参数范围从 7B 到 65B 的基础语言模型集合。Meta AI 的研究人员在数万亿个 tokens 上训练该模型,训练过程中仅使用公开可用的数据集,不借助专有和无法访问的数据集。LLaMA-13B 在大多数基准测试上表现优于 GPT-3 (175B),而 LLaMA-65B 可以与 Chinchilla-70B 和 PaLM-540B 相媲美。
InstructGPT:通过人类反馈训练语言模型遵循指令
Training language models to follow instructions with human feedback
** 作者*:OpenAI
** 原文*:https://arxiv.org/abs/2203.02155
研究人员展示了,在各种任务中通过人类反馈进行微调,从而使语言模型与用户意图保持一致。研究人员将由此产生的模型称为 InstructGPT,在 prompt 分布的评估中,1.3B InstructGPT 模型的输出比 175B GPT-3 模型的输出更受青睐。此外,InstructGPT 在真实性方面也有所改进,减少了 toxic output。
LoRA:大型语言模型的低秩适应
LoRA: Low-Rank Adaptation of Large Language Models
** 作者*:微软
** 原文*:https://arxiv.org/abs/2106.09685
微软的研究人员提出了 LoRA (Low-Rank Adaptation),可以冻结预训练模型的权重,并将可训练的秩分解矩阵注入 Transformer 架构的每一层,从而大大减少下游任务的可训练参数数量。与使用 Adam 进行微调的 GPT-3 175B 相比,LoRA 可以将可训练参数数量减少 1 万倍,GPU 内存需求减少 3 倍。
QLoRA:量化大型语言模型的高效微调
QLoRA: Efficient Finetuning of Quantized LLMs
** 作者*:华盛顿大学的研究人员
** 原文*:https://arxiv.org/abs/2305.14314
QLoRA 是一种高效的微调方法,能够减少内存使用量,在单个 48GB GPU 上对 65B 参数模型进行微调,同时保持完整的 16 位微调任务性能。QLoRA 通过一个冻结的 4 位量化预训练语言模型,将梯度反向传播到 LoRA。研究人员将基于 QLoRA 得到的最佳性能模型命名为 Guanaco,其在 Vicuna 基准测试中的表现优于之前所有公开发布的模型,达到了 ChatGPT 99.3% 的性能水平,而在单个 GPU 上只需要 24 小时的微调。
DPR:用于开放域问答的密集通道检索
Dense Passage Retrieval for Open-Domain Question Answering
** 作者*:FAIR at Meta
** 原文*:https://arxiv.org/abs/2004.04906
在该研究中,研究人员展示了,如何仅使用密集表征来实现检索,即通过简单的双编码器框架从少量问题和段落中学习嵌入。在广泛的开放域问答数据集上进行评估时,该检索器在前 20 个段落检索准确性方面相较于 Lucene-BM25,提高了 9%-19%。
RAG:用于知识密集型 NLP 任务的检索增强生成
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
** 作者*:Meta、UCL和伦敦大学的研究人员
** 原文*:https://arxiv.org/abs/2005.11401
研究人员提出通用微调方法 RAG (retrieval-augmented generation),将预先训练的参数和非参数结合起来用于语言生成。该研究引入 RAG 模型,其中参数存储器是预训练的 seq2seq 模型,非参数存储器是维基百科的致密向量索引 (DPR),可通过预训练的神经检索器访问。研究人员比较了两种 RAG 方案,一种方案以整个生成序列中检索到的相同段落为条件,另一种方案则可以使用每个标记的不同段落为条件。在语言生成任务中,研究人员发现 RAG 模型生成的语言比最先进的纯参数 seq2seq 基线模型生成的语言更具体、更多样、更真实。
RETRO:通过从数万亿 tokens 中检索来提高语言模型性能
Improving language models by retrieving from trillions of tokens
** 作者*:谷歌 DeepMind
** 原文*:https://arxiv.org/abs/2112.04426
Retrieval-Enhanced Transformer (RETRO) 拥有 2 万亿个标记数据库,尽管使用的参数比 GPT-3 和 Jurassic-1 少 25 倍,但在 Pile 上却能获得与之相当的性能。RETRO 结合了冻结的 Bert 检索器、可微分编码器和分块 cross-attention 机制,可根据比训练期间消耗数据多出一个数量级的数据来预测标记。
针对开放领域问题解答,通过少量提示建立互联网增强语言模型
Internet-augmented language models through few-shot prompting for open-domain question answering
** 作者*:谷歌 DeepMind
** 原文*:https://arxiv.org/abs/2203.05115
该研究旨在利用大规模语言模型 (LSLMs) 独特的少量提示能力,克服其在基于事实和最新信息方面所面临的挑战。研究人员发现,在开放领域的问题解答中,基于网络的语言模型在性能上,超越了模型规模相似、甚至更大的闭卷模型。此外,通过使用多个检索证据生成多个答案,然后使用相同 LMs 生成的分数进行重新排序,可以提高模型的推理计算时间,从而提高性能,并缓解少量 LMs 性能较低的问题。
HyDE:无需相关性标签的 Zero-Shot 稠密检索
Precise Zero-Shot Dense Retrieval without Relevance Labels
** 作者*:卡内基梅隆大学、滑铁卢大学的研究人员
** 原文*:https://arxiv.org/abs/2212.10496
该实验中,HyDE (Hypothetical Document Embeddings ) 首先以零样本方式指导一个遵循指令的语言模型 (例如InstructGPT) 生成一个假设文档。该文档捕捉了相关性模式,但是是虚构的,可能包含虚假的细节。然后,一个无监督对比学习的编码器 (例如Contriever) 将文档编码为嵌入向量。该向量在语料库嵌入空间中标识一个邻域,其中根据向量相似性检索类似的真实文档。实验证明,HyDE 在各种任务和语言中明显优于最先进的无监督稠密检索器 Contriever,并表现出与微调检索器相当的强大性能。
FlashAttention:具有 IO-Awareness 的准确 Attention 算法
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
** 作者*:斯坦福大学、纽约州立大学的研究人员
** 原文*:https://arxiv.org/abs/2205.14135
FlashAttention 是一种具有 IO-Awareness 的精确 Attention 算法,使用平铺 (tiling) 来减少GPU高带宽内存 (high bandwidth memory,HBM) 和 GP U片上 SRAM 之间的内存读写次数。FlashAttention 和块稀疏 FlashAttention 在 Transformers 中实现了更长的上下文,从而产生了更高质量的模型和创新功能。
Attention 线性偏置,实现输入长度外推
Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation
** 作者*:华盛顿大学、FAIR 等研究团队
** 原文*:https://arxiv.org/abs/2108.12409
研究人员提出了一种更简单、更高效的位置表示方法–ALiBi (Attention with Linear Biases),能在长度为 1024 的输入序列上训练出一个 13 亿参数的模型,并能推断出长度为 2048 的输入序列,与在长度为 2048 的输入序列上训练出的正弦位置嵌入模型,达到了相同性能,但训练速度快了 11%,使用的内存也少了 11%。
Codex:评估基于代码训练的大型语言模型
Evaluating Large Language Models Trained on Code
** 作者*:OpenAI
** 原文*:https://arxiv.org/abs/2107.03374
研究人员介绍了基于 GitHub 公开代码微调的 GPT 语言模型 Codex,并研究了其 Python 代码编写能力。同时,研究人员还发布了一个新的评估集 HumanEval,用于测量从文档脚本合成程序的功能正确性。在该评估集上,Codex 解决了 28.8% 的问题,而 GPT-3 解决了 0%,GPT-J 解决了 11.4%。
Layer Normalization
Layer Normalization
** 作者*:多伦多大学的研究人员
** 原文*:https://arxiv.org/abs/1607.06450
研究人员我们将批量归一化 (batch normalization) 转换为层归一化 (Layer Normalization),即在单个训练样本中,通过计算层中神经元所有输入总和的均值和方差来实现归一化。与批量归一化不同,层归一化在训练和测试时执行完全相同的计算。经验表明,与之前发布的技术相比,层归一化可以大大缩短训练时间。
在 Transformer 架构中的层归一化
On Layer Normalization in the Transformer Architecture
** 作者*:微软
** 原文*:https://arxiv.org/abs/2002.04745
研究人员通过平均场理论证明,在初始化阶段,对于原始设计的 Post-LN Transformer,输出层附近参数的期望梯度较大,基于此使用高学习率会使训练变得不稳定。此外,如果将层归一化放在 Post-LN Transformer,则在初始化时梯度是良好的。研究表明,去除预热阶段的 Pre-LN Transforme 在实际应用中可以达到与基线相当的结果,同时减少了训练时间和超参数调整。
PPO:近端策略优化算法
Proximal Policy Optimization Algorithms
** 作者*:OpenAI
** 原文*:https://arxiv.org/abs/1707.06347
研究人员提出的 PPO (proximal policy optimization) 具有 TRPO (rust region policy optimization) 的相似优势,但更简单、更通用,并具有更好的样本复杂度。研究人员在一系列基准任务上测试了 PPO,结果表明,PPO 优于其他在线策略梯度方法,总体上在样本复杂度、简单性和上墙时间之间取得了良好的平衡。
WizardCoder:使用 Evol-Instruct 增强代码大型语言模型的能力
WizardCoder: Empowering Code Large Language Models with Evol-Instruct
** 作者*:微软、香港浸会大学的研究人员
** 原文*:https://arxiv.org/abs/2306.08568
研究人员提出的 WizardCoder,通过将 Evol-Instruct 方法调整到代码领域,使 Code LLM 具备复杂指令微调功能。在 HumanEval、HumanEval+、MBPP 和 DS-1000 四个代码生成基准上的实验显示,WizardCoder 大大超越了所有其他开源 Code LLM。此外,在 HumanEval 和 HumanEval+ 上,WizardCoder 甚至超过了 Anthropic 的 Claude 和 Google 的 Bard。
Llama 2: 开放的基础和微调的聊天模型
Llama 2: Open Foundation and Fine-Tuned Chat Models
** 作者*:GenAI, Meta
** 原文*:https://arxiv.org/abs/2307.09288
Llama 2 是经过预训练和微调的大型语言模型,规模从 70 亿到 700 亿参数不等。研究人员的微调 LLM 被称为 Llama 2-Chat,针对对话应用进行了优化。该论文详细介绍了研究人员对 Llama 2-Chat 进行微调和安全性改进的方法。
RWKV:为 Transformer 时代重新定义循环神经网络 (RNNs)
RWKV: Reinventing RNNs for the Transformer Era
** 作者*:EleutherAI、巴塞罗那大学等研究团队
** 原文*:https://arxiv.org/abs/2305.13048
研究人员提出了一种新颖的模型架构,称为 Receptance Weighted Key Value (RWKV),结合了 Transformer 的高效可并行训练和 RNN 的高效推理。该方法利用了线性 attention 机制,能够将模型制定为 Transformer 或 RNN,从而在训练过程中并行化计算,并在推理过程中保持恒定的计算和内存复杂度。研究人员将模型扩展到了 140 亿参数,是迄今为止最大的稠密 RNN 模型。
RLAIF:无害的 AI 反馈
Constitutional AI: Harmlessness from AI Feedback
** 作者*:Anthropic
** 原文*:https://arxiv.org/abs/2212.08073
研究人员尝试通过自我提升 (self-improvement) 的方式培训一个AI助手,并将这种方法称为 Constitutional AI。该训练过程包括监督学习和强化学习两个阶段。在监督学习阶段,研究人员从初始模型中采样,然后生成自我批评和修订,最后在修订后的响应上对原始模型进行微调。
在强化学习阶段,研究人员从微调后的模型中采样,使用模型评估两个样本中哪个更好,然后从 AI 偏好的数据集中训练偏好模型。然后,研究人员使用偏好模型作为奖励信号进行RL训练,即使用「RL from AI Feedback (RLAIF)」。
超大规模神经网络
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
** 作者*:Google Brain(已与 DeepMind 合并)
** 原文*:https://arxiv.org/abs/1701.06538
研究人员引入了由多达数千个前馈子网络组成的稀疏门控 MoE (Mixture-of-Experts) ,将 MoE 应用于语言建模和机器翻译任务。在这些任务中,模型容量对于吸收训练语料库中的大量知识至关重要。研究人员提出了一种模型架构,具有多达 1370 亿参数的 MoE 以卷积方式应用于堆叠的 LSTM 层之间。在大型语言建模和机器翻译基准测试中,该模型以较低的计算成本得到了明显优于最新技术的性能。
CLIP:从自然语言监督中学习可转移的视觉模型
Learning Transferable Visual Models From Natural Language Supervision
** 作者*:OpenAI
** 原文*:https://arxiv.org/abs/2103.00020
研究人员提出了一种预训练任务,即预测哪个标题与哪个图像相匹配,这是一种高效且可扩展的方法,可以从头开始学习 SOTA 的图像表征。该研究使用了从互联网上收集的 4 亿对的数据集,包含图像与文本。预训练后,自然语言被用于引用学到的视觉概念(或描述新的概念),从而实现了将模型零样本迁移到下游任务。
ViT:规模化图像识别的Transformer
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
** 作者*:Google Research,Brain Team (已与 DeepMind 合并)
** 原文*:https://arxiv.org/abs/2010.11929
卷积运算的应用通常伴随着全局结构和长距离依赖性的限制,因此需要更多的参数和更深的网络来解决这些问题。研究人员提出了一个完全基于 Transformer 的图像识别模型,称为ViT (Vision Transformer),采用了 Transformer 的核心思想,并且能够捕获全局信息。
生成式 Agents:人类行为的交互模拟
Generative Agents: Interactive Simulacra of Human Behavior
** 作者*:斯坦福大学、谷歌 DeepMind 研究人员
** 原文*:https://arxiv.org/abs/2304.03442
为了构建生成式 Agents,研究人员提出了一种架构,扩展了一个大语言模型,用于存储 Agents 使用自然语言的完整经验记录,将这些记忆逐渐合成为更高层次的反思,并动态检索以规划行为。该研究通过将大型语言模型与计算、交互 Agents 相融合,引入了架构和交互模式,实现了对可信人类行为的模拟。
DPO:直接偏好优化算法
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
** 作者*:斯坦福大学的研究人员
** 原文*:https://arxiv.org/abs/2305.18290
研究人员提出的直接偏好优化 (DPO) 算法,稳定、高效且计算量轻,无需拟合奖励模型,也无需在微调期间从 LM 采样或执行显著的超参数调整。实验表明,DPO 可以微调 LMs,使其与人类偏好保持一致。实验表明,使用 DPO 进行微调在控制生成的情感方面优于基于RLHF (reinforcement learning from human feedback)。
一致性模型
Consistency Models
** 作者*:OpenAI
** 原文*:https://arxiv.org/abs/2303.01469
该研究提出的一致性模型,是一种通过将噪声直接映射到数据来生成高质量样本的新模型。其支持快速的一步生成,同时也可以通过多步采样,在计算和样本质量之间进行权衡。该模型还支持零样本数据编辑,如图像修补、着色和超分辨率,而无需在这些任务上进行明确的训练。
潜在一致性模型
Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference
** 作者*:清华大学研究人员
** 原文*:https://arxiv.org/abs/2310.04378
研究人员提出的潜在一致性模型 (Latent Consistency Models,LCMs),能够在任何预训练的潜在扩散模型 (Latent Diffusion models,LDMs) 上以最少步骤进行快速推理,包括稳定扩散 (rombach et al)。实验结果显示,通过从预训练的无分类器引导扩散模型中进行高效提取,一个高质量的 768 x 768 2~4 步 LCM 仅需要在 A100 GPU训练 32 小时。
LCM-LoRA: 通用稳定扩散加速模块
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
** 作者*:清华大学、Hugging Face
** 原文*:https://arxiv.org/abs/2311.05556
该研究进一步拓展了 LCMs的潜力。首先,研究人员通过将 LoRA 应用于包括 SD-V1.5、SSD-1B 和 SDXL 在内的 Stable-Diffusion 模型,将 LCM 的范围扩展到内存消耗更少的大模型,实现了更优越的图像生成质量。其次,研究人员通过将 LCM 蒸馏 (distillation) 获得的 LoRA 参数,识别为通用的 Stable-Diffusion 加速模块,并命名为 LCM-LoRA。LCM-LoRA 可以直接插入各种 Stable-Diffusion 微调模型或 LoRAs,而无需训练,因此代表了适用于多样图像生成任务的通用加速器。
Chain-of-Note:增强检索增强型语言模型的鲁棒性
Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models
** 作者*:腾讯 AI Lab
** 原文*:https://arxiv.org/abs/2311.09210
研究人员提出的 Chain-of-Noting (CoN),能够提高检索增强型语言模型 (RALM) 在面对嘈杂的、无关的文档,以及处理未知情景时的鲁棒性。CoN 能够为检索到的文档生成顺序阅读注释,以彻底评估其与给定问题的相关性,并将此信息集成到制定最终答案的过程中。
大语言模型的新兴能力
Emergent Abilities of Large Language Models
** 作者*:Google Research、斯坦福大学、UNC、DeepMind
** 原文*:https://arxiv.org/abs/2206.07682
研究人员提出了大型语言模型的新兴能力,将其定义为在较小规模模型中不存在但在大规模模型中存在的能力,衡量标准为训练计算量和模型参数数量。
Q-Transformer: 通过自回归 Q 函数实现可扩展的离线强化学习
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
** 作者*:谷歌 DeepMind
** 原文*:https://arxiv.org/abs/2309.10150
研究人员提出了一种可扩展的强化学习方法 Q-Transformer,用于从大规模离线数据集中,训练能够利用人类演示和自主收集数据的多任务策略。该方法使用 Transformer 来提供 Q 函数的可扩展表示,通过离线时间差备份进行训练。
Llama Guard
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
** 作者*:Meta GenAI
** 原文*:https://arxiv.org/abs/2312.06674
Llama Guard 是一个基于 LLM 的输入、输出保护模型,在 Meta 收集的数据集上基于 Llama2-7b 模型进行了微调,尽管数据量较小,但在现有基准测试中表现出色,例如 OpenAI Moderation Evaluation 数据集和 ToxicChat,其性能与当前可用的内容审查工具相匹配或表现更佳。
ReSTEM:超越人类数据
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
** 作者*:谷歌 DeepMind、 Mila
** 原文*:https://arxiv.org/abs/2312.06585
研究人员提出了一种基于期望最大化 (expectation-maximization) 的自我训练方法,称之为 ReSTEM,从模型中生成样本并使用二进制反馈对其进行过滤,随后对这些样本进行微调,并重复这个过程数次。在使用 PaLM-2 模型进行 MATH 推理和 APPS 编码基准测试时,研究人员发现,ReSTEM 的表现与模型大小呈正比,并且在人类数据上显著超越了仅进行微调的方法。
Mixed Expert Models 详解
** 来源*:Hugging Face
** 原文*:https://huggingface.co/blog/moe
SPIN:自我博弈微调将弱语言模型转化为强语言模型
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
** 作者*:UCLA、清华大学、加利福尼亚大学的研究人员
** 原文*:https://arxiv.org/abs/2401.01335
研究人员提出了一种新的微调方法,称为自我博弈微调 (Self-Play fIne-tuNing,SPIN),核心是自我博弈机制。语言模型生成其前一迭代的训练数据,通过区分这些自我生成的响应与从人工注释数据中获取的响应,进一步调整其策略。
Self-Instruct:用自动生成的指导语言对齐语言模型
Self-Instruct: Aligning Language Models with Self-Generated Instructions
** 作者*:华盛顿大学等
** 原文*:https://arxiv.org/abs/2212.10560
研究人员提出的 Self-Instruct,能够利用预训练语言模型自己生成的内容来提高其遵循指导的能力。研究人员从语言模型中生成指导、输入和输出样本。在使用样本对原始模型进行微调之前,过滤无效或相似的样本。研究人员将该方法应用于 GPT-3,并在 Super-NaturalInstructions 上进行验证,结果显示比原始模型提升了 33%,与使用私人用户数据和人工注释进行训练的 InstructGPT-001 性能相当。
关注公众号,回复「LLM论文」即可打包下载论文合集
参考资料:
https://eugeneyan.com/writing/llm-reading-list/.