1. 文章简介

标题：LIMA: Less Is More for Alignment
作者：Zhou, Chunting, et al.
日期：2023
期刊：arxiv preprint

2. 文章概括

文章基于表面对齐假设(superfacial alignment hypothesis)展开了一系列的数值实验，证明了大模型的能力是在与训练过程中学习得到，而对齐过程只是为了教会大模型一种符合人类偏好的风格/格式。在此假设基础上，文章训练了一个6B参数的LLaMA模型：LIMA。LIMA只采用了1000条对齐数据，效果已经追平或超过Alpaca，Davinci003，BARD和ClAUDE大模型。

3 文章重点技术

3.1 表面对齐假设(Superfacial Alignment Hypothesis)

文章定义了表明对齐假设：大模型的知识和能力几乎全部在预训练阶段获得的，对齐只是教会模型以何种子分布来和用户进行交互。形象一点来说，pretraining阶段就是知识积累、学习阶段，而预训练阶段则是学习如何演讲、教学等技巧。

3.2 对齐数据

社区的问答数据：保证样本的多样性
- stackExchange：stackExchange网站共计179个社区，我们从中选择包括编程、数学、物理等社区在内的75个STEM exchanges(communities)和99个其它的社区，放弃5个社区。我们从每个社区随机抽样几个self-contained问题（即问题包含在标题中），得到不同领域的样本共计200个，并选择每个问题的top 回答。为了保持一致的风格，我们将下述几种情况的答案进行了过滤：1）太短的答案 2）太长的答案 3）第一人称作答的答案 4）参考其它答案的答案(出现关键词as mentioned, stack exchange等）。此外，我们一出了图像、超链接和其它HTML tag，只保留代码和列表。我们随机采用一部分问题的title作为prompt（因为是self-contained，问题包含在title中），另一部分问题用问题描述作为prompt。
- wikiHow：wikiHow包含了24万how-to文章，比如"How to update Microsoft Edge?", "How to tie a tie?"等问题及回答。我们从该网站的19个不同类别下依此采样1篇文章以保证多样性，最终得到200篇how-to文章。这里直接使用标题"How to …"作为prompt，对应的回答作为response即可。
- Pushshift Reddit：Reddit是一个类似贴吧的网站，但相比于前两个网站，Reddit里面受欢迎的回答往往是幽默的、讽刺的等。为此，我们选择两类样本：1）r/AskReddit: 70个self-contained标题作为prompt，用作test set（因为top回答不一定可靠） 2）r/WritingPrompts：150个科幻故事的前提，选择每个前提对应的高质量的补全回答作为response，添加到training set。
手动编写的示例
- 我们将作者划分为GroupA和GroupB，每组分别创作250个prompts，从GroupA中选择200个放入training set，50个放入dev set（不参与训练过程）；GroupB中过滤后的230个prompts放入test set。
- 我们自己编写了200个高质量回答的训练样本。
- 我们增加了13个有害或恶意的样本到training set，并精心设计了拒绝回答这些样本的答案。增加30个类似样本在test set中
- 我们从SNI数据集中随机采样50个训练样本放入training set，包括文本摘要、风格转换各种NLP任务。

3.3 训练

在LLaMA[1]语言模型的基础上，我们用上述prompts对齐数据进行微调，得到我们的LIMA(Less Is More for Alignment)模型。

4 数值实验

我们采用了两种方法评估LIMA：针对每组prompt，让LIMA与其它语言模型（Alpaca，DaVinci003，Bard，Claude，GPT-4）同时生成回答，人类去评估哪一个更好；针对每组prompt，让LIMA与其它语言模型（Alpaca，DaVinci003）同时生成回答，GPT-4去评估哪一个更好。下图可以看到，无论是人类还是GPT-4，LIMA在50%以上的情况是优于或等于Alpaca和DaVinci003的。值得注意的是，GPT-4有19%的情况下认为LIMA优于GPT-4自己产生的答案。
exp-res