论文笔记--LIMA: Less Is More for Alignment

news2024/12/22 22:23:47

论文笔记--LIMA: Less Is More for Alignment

  • 1. 文章简介
  • 2. 文章概括
  • 3 文章重点技术
    • 3.1 表面对齐假设(Superfacial Alignment Hypothesis)
    • 3.2 对齐数据
    • 3.3 训练
  • 4 数值实验
  • 5. 文章亮点
  • 5. 原文传送门
  • 6. References

1. 文章简介

  • 标题:LIMA: Less Is More for Alignment
  • 作者:Zhou, Chunting, et al.
  • 日期:2023
  • 期刊:arxiv preprint

2. 文章概括

  文章基于表面对齐假设(superfacial alignment hypothesis)展开了一系列的数值实验,证明了大模型的能力是在与训练过程中学习得到,而对齐过程只是为了教会大模型一种符合人类偏好的风格/格式。在此假设基础上,文章训练了一个6B参数的LLaMA模型:LIMA。LIMA只采用了1000条对齐数据,效果已经追平或超过Alpaca,Davinci003,BARD和ClAUDE大模型。

3 文章重点技术

3.1 表面对齐假设(Superfacial Alignment Hypothesis)

  文章定义了表明对齐假设:大模型的知识和能力几乎全部在预训练阶段获得的,对齐只是教会模型以何种子分布来和用户进行交互。形象一点来说,pretraining阶段就是知识积累、学习阶段,而预训练阶段则是学习如何演讲、教学等技巧。

3.2 对齐数据

  • 社区的问答数据:保证样本的多样性
    • stackExchange:stackExchange网站共计179个社区,我们从中选择包括编程、数学、物理等社区在内的75个STEM exchanges(communities)和99个其它的社区,放弃5个社区。我们从每个社区随机抽样几个self-contained问题(即问题包含在标题中),得到不同领域的样本共计200个,并选择每个问题的top 回答。为了保持一致的风格,我们将下述几种情况的答案进行了过滤:1)太短的答案 2)太长的答案 3)第一人称作答的答案 4)参考其它答案的答案(出现关键词as mentioned, stack exchange等)。此外,我们一出了图像、超链接和其它HTML tag,只保留代码和列表。我们随机采用一部分问题的title作为prompt(因为是self-contained,问题包含在title中),另一部分问题用问题描述作为prompt。
    • wikiHow:wikiHow包含了24万how-to文章,比如"How to update Microsoft Edge?", "How to tie a tie?"等问题及回答。我们从该网站的19个不同类别下依此采样1篇文章以保证多样性,最终得到200篇how-to文章。这里直接使用标题"How to …"作为prompt,对应的回答作为response即可。
    • Pushshift Reddit:Reddit是一个类似贴吧的网站,但相比于前两个网站,Reddit里面受欢迎的回答往往是幽默的、讽刺的等。为此,我们选择两类样本:1)r/AskReddit: 70个self-contained标题作为prompt,用作test set(因为top回答不一定可靠) 2)r/WritingPrompts:150个科幻故事的前提,选择每个前提对应的高质量的补全回答作为response,添加到training set。
  • 手动编写的示例
    • 我们将作者划分为GroupA和GroupB,每组分别创作250个prompts,从GroupA中选择200个放入training set,50个放入dev set(不参与训练过程);GroupB中过滤后的230个prompts放入test set。
    • 我们自己编写了200个高质量回答的训练样本。
    • 我们增加了13个有害或恶意的样本到training set,并精心设计了拒绝回答这些样本的答案。增加30个类似样本在test set中
    • 我们从SNI数据集中随机采样50个训练样本放入training set,包括文本摘要、风格转换各种NLP任务。

3.3 训练

  在LLaMA[1]语言模型的基础上,我们用上述prompts对齐数据进行微调,得到我们的LIMA(Less Is More for Alignment)模型。

4 数值实验

  我们采用了两种方法评估LIMA:针对每组prompt,让LIMA与其它语言模型(Alpaca,DaVinci003,Bard,Claude,GPT-4)同时生成回答,人类去评估哪一个更好;针对每组prompt,让LIMA与其它语言模型(Alpaca,DaVinci003)同时生成回答,GPT-4去评估哪一个更好。下图可以看到,无论是人类还是GPT-4,LIMA在50%以上的情况是优于或等于Alpaca和DaVinci003的。值得注意的是,GPT-4有19%的情况下认为LIMA优于GPT-4自己产生的答案。
exp-res

5. 文章亮点

  文章基于表面对齐假设,给出了一种仅基于1000个对齐样本微调的大模型LIMA。LIMA在人类偏好度/GPT-4偏好度上的表现优于Alpaca 55B和DaVinci003。文章认为对齐样本并非越多越好,对齐的能力可能还与样本的多样性和质量有关,这可能是下一代语言模型对齐可以重点优化的方向。

5. 原文传送门

LIMA: Less Is More for Alignment

6. References

[1] 论文笔记–LLaMA: Open and Efficient Foundation Language Models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/643320.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FTP协议分析(主动模式和被动模式)

今天本来计划分析下suricata中协议识别和解析的代码的,准备先从ftp协议开始看,不过看了一会儿代码后,还是觉得有必要对ftp协议的细节先熟悉熟悉。 目录 1、FTP环境搭建工具 2、FTP协议介绍 3、FTP文件操作命令列表 4、FTP请求码列表 5、…

硬件测试---相位噪声测试

一:相位噪声的概述 相位噪声是指信号或振荡器在频率上的相位变动或不稳定性。它是相对于理想稳定振荡器的相位偏离或波动的度量。相位噪声的存在意味着信号的相位在时间上会有微小的变化或扰动,这可能对某些应用产生负面影响。 相位噪声通常以相位噪声密…

【电子技术综合设计】数字钟(包含计数模块、12/24进制切换模块以及闹钟模块)

工程文件: https://pan.baidu.com/s/1PnYd2mwMUf0tgxczdcl2MA 提取码: ihrk B站演示: 【电子技术综合设计】数字电子时钟(包含计数模块、12/24进制切换模块以及闹钟模块)_哔哩哔哩_bilibili 一、设计要求 1. 24小时制的时、分…

基于Java汽车在线租赁管理系统设计实现(源码+lw+部署文档+讲解等)

博主介绍: ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

吴恩达老师《机器学习》课后习题2之逻辑回归(logistic_regression)

逻辑回归-线性可分 用于解决输出标签y为0或1的二元分类问题。判断邮件是否属于垃圾邮件?银行卡交易是否属于诈骗?肿瘤是否为良性?等等。 案例:根据学生的两门学生成绩,建立一个逻辑回归模型,预测该学生是否会被大学录…

一、深度学习引言

文章目录 一、机器学习中的关键组件1. 数据2. 模型3. 目标函数4. 算法 二、各种机器学习问题1. 有监督学习1.1 回归1.2 分类1.3 标记问题1.4 搜索1.5 推荐系统1.6 序列学习 2. 无监督学习3. 与环境互动4. 强化学习 三、深度学习的发展 一、机器学习中的关键组件 1. 数据 数据…

MM32F3273G8P火龙果开发板MindSDK开发教程17 -U8g2库的移植

MM32F3273G8P火龙果开发板MindSDK开发教程17 -U8g2 OLED库的移植 1、U8g2简介 手头正好有一块0.96寸的OLED屏,驱动芯片为ssd1306,心想怎么才能显示更为炫彩的图像。无意间,接触到U8g2图形库,遂决定将其移植到自己的工程中。 U8g…

2023软件测试面试避坑指南

今年2023整体IT行业不景气,大厂小厂裁员不断,因岗位稀缺,匹配性,竞争大,被裁以后面临房贷、车贷等压力,不得不看下银行卡,还能够支撑多久,得赶紧地找下一家,但偏偏事与愿…

深入学习 Mybatis 的四大组件源码

博主介绍: ✌博主从事应用安全和大数据领域,有8年研发经验,5年面试官经验,Java技术专家✌ Java知识图谱点击链接:体系化学习Java(Java面试专题) 💕💕 感兴趣的同学可以收…

JavaScript之ES6高级语法(一)

本文是我在学习过程中记录学习的点点滴滴,目的是为了学完之后巩固一下顺便也和大家分享一下,日后忘记了也可以方便快速的复习。 ES6高级语法(一) 前言一、垃圾回收机制(Garbage Collection)1.1、引用计数法…

看病排队问题

目录 一、代码 二、功能函数介绍 三、运行截图 一、代码 #define _CRT_SECURE_NO_WARNINGS 1//不用VS删除这一行 #include<stdio.h> #include<stdlib.h> struct LinkQueue {int data;struct LinkQueue* next; };struct Node {LinkQueue* frount;LinkQueue* re…

docker无法启动 -> 缺少libseccomp

systemctl status docker.servicejournalctl -u dockeryum install -y libseccomplibseccomp是一个用于Linux操作系统的安全计算模式&#xff08;seccomp&#xff09;的用户空间库。seccomp是一种Linux内核特性&#xff0c;允许限制进程可以执行的系统调用&#xff0c;以增加应…

C语言中的基本数据类型

C语言中的基本数据类型分别为以下几种 整型、浮点型、字符类型 整型又分为整型int、短整型short、长整型long 浮点型分为单精度浮点型float、双精度浮点型double 1、短整型short 2.整型 3.长整型 短整型、长整型、整形都是表示整形的&#xff0c;并且输出结果也都为10&…

教你如何批量关闭窗口,省时又省力!

哈喽哈喽&#xff0c;大家好&#xff0c;今天我们来分享一个小功能。 在实际的应用场景中&#xff0c;我们可能需要打开多个窗口&#xff0c;在关闭窗口时&#xff0c;逐个关闭窗口可能比较繁琐&#xff0c;而且有些窗口虽然不再显示了&#xff0c;但可能是隐藏的。在这种情况…

Flutter 库:强大的工具及扩展——nb_utils

Flutter 库&#xff1a;强大的工具及扩展——nb_utils 文章目录 Flutter 库&#xff1a;强大的工具及扩展——nb_utils一、概述1、简介2、功能3、官方资料 二、基本使用1、安装2、基本使用第一步&#xff1a;在 main.dart 中初始化第二步&#xff1a;在您的 MaterialApp 或 Cup…

java的字符输入流

字符流的底层也是字节流。字符流字节流字符集。 特点是输入流一次读一个字节&#xff0c;遇到中文时&#xff0c;一次读多个字节&#xff08;读多少个与字符集有关&#xff09;&#xff1b;输出流底层会把数据按照指定的编码方式进行编码&#xff0c;变成字节再写到文件中。 字…

15个提效的设计类AI生成工具推荐

最近越来越多的AI工具如雨后春笋般涌现。我相信很多设计师会开始使用人工智能工具来帮助我们提高工作效率。 本文整理了15种易于使用的设计类AI工具 即时 AI 即时 AI 是通过自然语言描述&#xff0c;快速生成可编辑的 UI 设计稿的设计工具。 输入文字描述后&#xff0c;即可…

C语言:使用函数完成整型数组的打印、元素逆置、初始化

题目&#xff1a; 创建一个整形数组&#xff0c;完成对数组的操作 1. 实现 函数init() -- 初始化数组为全0 2. 实现 函数print() -- 打印数组的每个元素 3. 实现 函数reverse() -- 函数完成数组元素的逆置 要求&#xff1a;自己设计以上函数的参数&#xff0c;返回值。 思路&a…

AB32VG1:SDK_AB53XX_V061(4)蓝牙音频测试笔记

文章目录 1. 淘宝上两种开发板&#xff0c;有一种的蓝牙功能不正常2. 蓝牙音频测试2.1 《config.h》和《Boombox.setting》两个配置以哪个为准2.2 codeblocks更换链接库2.2.1 这样进入build options是错的2.2.2 build options正确打开方式 2.3.编译工程&#xff0c;下载运行2.3…

kafka 报错 - Cannot assign requested address

背景 在华为云服务器上跑了 zookeeper 和 kafka 的 broker&#xff0c;想内外网分流&#xff0c;重点就是做不到从外网去消费&#xff0c;比如用自己的 windows 笔记本去消费。 配置 server.properties 的 listener 为 broker 所在机子的的内网 IP 后&#xff0c;终于能 star…