Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到

news2025/1/8 5:36:17

自从Meta发布LLaMA以来,围绕它开发的模型与日俱增,比如Alpaca、llama.cpp、ChatLLaMA以及Vicuna等等,相关的博客可以参考如下:

【Alpaca】斯坦福发布了一个由LLaMA 7B微调的模型Alpaca(羊驼),训练3小时,性能比肩GPT-3.5

【llama.cpp】量化130亿参数LLaMA模型的llama.cpp,推理仅需4GB内存

【ChatLLaMA】Meta开源的LLaMA性能真如论文所述吗?如果增加RLHF,效果会提升吗?

【Vicuna】斯坦福开源一个性能相当于90%ChatGPT的聊天机器人:Vicuna

在线体验地址:https://koala.lmsys.org/

训练和部署框架:https://github.com/young-geng/EasyLM

模型权重下载1:https://drive.google.com/drive/folders/10f7wrlAFoPIy-TECHsx9DKIvbQYunCfl?usp=sharing

模型权重下载2:https://huggingface.co/young-geng/koala/tree/main

训练数据预处理:https://github.com/young-geng/koala_data_pipeline

Koala评估数据集:https://github.com/arnav-gudibande/koala-test-set

今天将继续分享LLaMA系列模型:Koala,它是使用ChatGPT蒸馏数据和公开互联网数据fine-tuning LLaMA模型得到的,仅仅是微调了LLaMA,下面是Alpaca、ChatGPT以及Koala的模型效果对比

它认为高质量的训练数据对于LLM非常重要,尤其是对于小型的LLM,下面分析一下它的训练数据:

ChatGPT蒸馏数据

    • ShareGPT数据:使用公开API收集了ShareGPT 60K的对话数据,为保持数据质量,在用户查询级别删除了重复数据,并删除了所有非英语对话。最后保留了大约 30K 个示例。

    • Human ChatGPT Comparison Corpus (HC3):针对24K个问题,得到了60K 人类答案和通过与ChatGPT交互得到的 27K ChatGPT 答案,总共大约 87K 的问答示例。

开源数据

  • 开放式教学通才 (OIG):从(https://laion.ai/blog/oig-dataset/)中手动选择了大约30K的数据,其中包括小学数学教学、诗歌到歌曲和情节-剧本-书籍-对话数据集。

  • 斯坦福Alpaca:使用OpenAI 的 text-davinci-003 按照self-instruct生成52K的数据,值得注意的是,HC3、OIG 和 Alpaca 数据集是单轮问答,而 ShareGPT 数据集是对话对话。

  • Anthropic HH:Anthropic HH数据集包含人类对模型输出的危害性和有用性的评级。该数据集包含约 160,000 个人类评价的示例,其中该数据集中的每个示例都包含来自聊天机器人的一对响应,其中一个是人类更喜欢的。该数据集为我们的模型提供了功能和额外的安全保护。

  • OpenAI WebGPT。OpenAI WebGPT数据集(https://huggingface.co/datasets/openai/webgpt_comparisons)总共包含大约 20K 个比较,其中每个示例都包含一个问题、一对模型答案和元数据。答案由具有偏好分数的人进行评分。

  • OpenAI 摘要。OpenAI摘要数据集包含约 93K 个示例,每个示例都包含人类对模型生成的摘要的反馈。人类评估人员从两个选项中选择了更好的摘要。

使用开源数据集时,一些数据集有两个响应,分别对应评级为好或差的响应(Anthropic HH、WebGPT、OpenAI Summarization)。Keskar 等人、Liu 等人和Korbak 等人之前的研究证明了条件语言模型对人类偏好标记(例如“有用的答案”和“无用的答案”)提高性能的有效性。我们根据偏好标签将模型设置为正标记或负标记。我们在没有人工反馈的情况下对数据集使用正面标记。为了进行评估,我们提示带有正标记的模型。

模型训练

Koala 模型在EasyLM中使用 JAX/Flax 实现,这是我们的开源框架,可以轻松预训练、微调、服务和评估各种大型语言模型。我们在配备 8 个 A100 GPU 的单个 Nvidia DGX 服务器上训练我们的 Koala 模型。完成 2 个 epoch 的训练需要 6 个小时。在公共云计算平台上,使用可抢占实例进行此类训练的成本通常低于 100 美元。

模型评估

评估了两个模型:只使用蒸馏数据的 Koala-Distill 和使用所有数据(包括蒸馏和开源数据)的 Koala-All。目标是比较这些模型的性能,并评估蒸馏和开源数据集对最终性能的影响。上图展示了 Koala-All 与 Koala-Distill、Alpaca 和 ChatGPT 人工评估结果。

Alpaca测试集由从self-instruct数据集中采样的用户提示组成,并代表羊驼模型的分布数据。为了提供第二个更真实的评估协议,还引入了 (Koala) 测试集,其中包含在线发布的180 个真实用户查询。这些用户查询涵盖各种主题,通常是对话式的,并且可能更能代表基于聊天的系统的真实用例。为了减少可能的测试集泄漏,使用训练集中的任何示例过滤掉了 BLEU 分数大于 20% 的查询。此外,还删除了非英语和与编码相关的提示,因为对这些查询的回答无法由评分员(人群工作者)可靠地审查。

有了这两个评估集,通过在 Amazon Mechanical Turk 平台上询问大约 100 名评估员来比较这些保留的提示集上模型输出的质量,从而进行了盲配对比较。在评分界面中,向每个评分者展示一个输入提示和两个模型的输出。然后要求他们使用与响应质量和正确性相关的标准来判断哪个输出更好(或者它们同样好)。

在 Alpaca 测试集上,Koala-All 表现出与 Alpaca 相当的性能。然而,在由真实用户查询组成的测试集上,Koala-All 在近一半的情况下被评为优于Alpaca,并且在 70% 的情况下超过或与Alpaca持平。当然,Koala 测试集中的对话提示越多,越接近 Koala 训练集,所以这也许并不奇怪,但就此类提示越接近此类模型的可能下游用例而言,这表明 Koala 是预期的在类似助手的应用程序中表现更好。这表明来自用户在网络上发布的示例的 LLM 交互数据是赋予此类模型有效指令执行能力的有效策略。

也许更令人惊讶的是,发现除了蒸馏数据 (Koala-All) 之外,对开源数据的训练比仅对 ChatGPT 蒸馏数据 (Koala-Distill) 的训练表现稍差,如与 Koala-Distill 在两个数据集。尽管差异可能并不显着,但这一结果表明 ChatGPT 对话的质量如此之高,以至于即使包含两倍的开源数据也不会带来显着的改进。最初的假设是 Koala-All 应该至少表现得更好一些,因此在所有评估中都将其用作主要模型,但这些实验的一个潜在收获是有效的指令和辅助模型可以从 LLM 主干(如 LLaMA)中进行微调完全使用来自更大更强大模型的数据,只要这些响应的提示代表用户将在测试时提供的提示类型。这也进一步支持了这样一种观点,即建立强大的对话模型的关键可能更多地在于策划用户查询多样化的高质量对话数据,而不是简单地将现有数据集重新格式化为问题和答案。

模型局限性

除了幻觉之外,Koala 还存在其他聊天机器人语言模型的不足之处。其中一些包括:

  • 偏见和刻板印象:模型会从它所训练的对话数据中继承偏见,可能会延续有害的刻板印象、歧视和其他危害。

  • 缺乏常识:虽然大型语言模型可以生成看起来连贯且语法正确的文本,但它们往往缺乏人类认为理所当然的常识知识。这可能会导致无意义或不适当的反应。

  • 有限的理解:大型语言模型可能难以理解对话的上下文和细微差别。他们也可能难以识别讽刺或讽刺,这可能会导致误解。

为了解决 Koala 的安全隐患,在 ShareGPT 和 Anthropic HH 的数据集中加入了对抗性提示,以使模型更加稳健和无害。为了进一步减少潜在的滥用,在线演示中部署了 OpenAI 的内容审核过滤器,以标记和删除不安全的内容。

未来的规划

希望 Koala 模型将成为未来大型语言模型学术研究的有用平台:该模型足以展示我们与现代 LLM 相关的许多功能,同时又足够小以进行微调或用于更多有限的计算。潜在有希望的方向可能包括:

  • 安全性和一致性:Koala 允许进一步研究语言模型的安全性并更好地与人类意图保持一致。

  • 模型偏差:Koala 能够更好地理解大型语言模型的偏差、对话数据集中虚假相关和质量问题的存在,以及减轻此类偏差的方法。

  • 理解大型语言模型:由于 Koala 推理可以在相对便宜的商品 GPU 上执行,能够更好地检查和理解对话语言模型的内部结构,使(以前的黑盒)语言模型更具可解释性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/563279.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot+Vue前后端分离项目——订单模块——订单管理页面设计

接口返回数据格式: {"msg": "查询成功","total": 1,"code": 200,"data": [{"orderId": "qwer1234","userId": "1","userName": "admin","ad…

全网最全JAVA面试八股文,终于整理完了,堪称2023最强

当今互联网行业中,Java作为一种广泛应用的编程语言,对于求职者来说仍是一项受欢迎的技能。然而,随着市场上的开发人员数量越来越多,Java面试的竞争也愈加激烈。 目前Java面试有着以下现状: 面试难度加大 与过去相比…

9:00进去,9:05就出来了,这问的也太变态了···

从外包出来,没想到死在另一家厂子了。 自从加入这家公司,每天都在加班,钱倒是给的不少,所以也就忍了。没想到5月一纸通知,所有人不许加班,薪资直降30%,顿时有吃不起饭的赶脚。 好在有个兄弟内推…

第四章 内存管理

4.1 内存的基本知识 4.1.1 知识总览 1、内存的作用: 内存可存放数据。程序执行前需要先放到内存中才能被CPU处理--->缓和CPU与硬盘之前的速度矛盾 2、内存的存放: 内存的存放类似于酒店,给内存的每个存储单元都编号。(在多道…

使用柔性数组重写MyString

hello,各位宝子,今天阿崽将使用c和柔性数组的方式重新去写String类 在开始本次知识前,首先给大家介绍下柔性数组这个buff特点: 结构中的柔性数组成员前面至少要包含一个其他成员 sizeof返回的这种结构大小不包括柔性数组的内存 …

不想打工做什么好呢?厌倦打工的不妨试试以下几种赚钱方式

除开一些比较幸运的人,谁不是一边打工养家,一边在找寻好机会?人与人之间本来就存在诸多的不公平。有的人这辈子只能靠打工养家,只有少数人能不靠打工来挣钱养家,但是这极少部分人凭什么是你? 现在社会上&am…

( 数组) 209. 长度最小的子数组——【Leetcode每日一题】

❓209. 长度最小的子数组 难度:中等 给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其和 ≥ target 的长度最小的 连续子数组 [numsl, numsl1, ..., numsr-1, numsr] ,并返回其长度。如果不存在符合条件的子数组,…

【ArcGIS Pro二次开发】(30):数据定义语言DDL详解

在之前的文章【ArcGIS Pro二次开发】(19):创建要素类(FeatureClass)中有涉及DDL的知识点,随着深入的学习,在这里做一个小总结。 一、DDL基本概念 ArcGIS Pro二次开发中的DDL API是一种【数据定义语言】,主…

【Web服务器集群】Web基础与HTTP协议

文章目录 一、Web基础1.域名概述1.1域名的概念1.2域名解析1.3域名空间结构 2.域名注册3.网页的概念4.HTML概述4.1HTML概念4.2HTML文档的结构 5.网页基本标签6.Web概述7.静态网页与动态网页7.1静态网页7.2动态网页7.3动态网页语言 二、HTTP协议1.概念2.HTTP协议的版本3.HTTP方法…

pytest+requests+Python3.7+yaml+Allure+Jenkins+docker实现接口自动化

目录 接口自动化测试框架(用例自动生成) 项目说明 技术栈 环境部署 框架流程图与目录结构图及相关说明 1、框架流程图如下 2、代码目录结构图如下 关联详解 函数助手详解 代码设计与功能说明 1、定义运行配置文件 runConfig.yml 2、接口配置…

构建系统安全防线!Genmai安全漏洞检测框架全面解析

01 Genmai是什么? Genmai是由openkylin社区SecurityGovernance SIG为了挖掘、检测、验证麒麟产品的安全漏洞而主导开发的一款开源主机漏洞扫描、网络漏洞扫描以及基线扫描的安全扫描框架。其致力于能在短时间内对主流的操作系统进行安全检测,并确保准确…

Unity3D :使用 UXML 实例作为模板

推荐:将 NSDT场景编辑器 加入你的3D工具链 3D工具集: NSDT简石数字孪生 使用 UXML 实例作为模板 您可以将现有 UXML 文档实例化为 UXML 文档中的模板作为模板实例,类似于预制件 在 Unity 中工作。 使用 UXML 文档作为模板 要将项目中的现有…

「API 接口获取方法」

在创建一个应用程序的过程中,获取数据是非常关键的一步。而通过API接口获取数据通常是最好的方式之一。那么,如何通过关键字获取API接口呢?以下是一些步骤: 1.确定你需要获取的数据类型 首先,你需要确定你需要获取的…

深入浅出 SQL Server CDC 数据同步

简介 SQL Server 是一款老牌关系型数据库,自 1988 年由 Microsoft、Sybase 和 Ashton-Tate 三家公司共同推出,不断迭代更新至今,拥有相当广泛的用户群体。 如今,我们提到 SQL Server 通常指 Microsoft SQL Server 2000 之后的版本。 SQL S…

软件测试的7个级别,做到3级已经超越80%测试人!

有人说:软件测试就是最low的点点点工作。 有人说:测试工作职位薪水到一定程度只能原地踏步无法提升 也有人说:测试行业相对于开发来说技术性很低,容易被取代。 这其实是对测试行业最大的误解。测试可深可浅,可窄可广…

linux嵌入式学习

https://www.runoob.com/linux/linux-comm-ls.html https://www.bilibili.com/video/BV1w4411B7a4?p19&spm_id_frompageDriver&vd_sourcee7d12c9f66ab8294c87125a95510dac9 1 eMMC eMMC(embedded MultiMediaCard)是一种集成电路,用…

vue2+wangeditor富文本域

vue2wangeditor富文本域 效果图安装依赖初始化简约模式自定义模式图片设置只允许 base64 方式支持图片服务器 更多配置项目依赖项目代码 效果图 安装依赖 npm i wangeditor/editor wangeditor/editor-for-vue初始化 <template><div class"editor-box">…

IIS 日志解析,增强 IIS 服务器安全性

企业严重依赖 Microsoft Internet 信息服务 &#xff08;IIS&#xff09; 服务器来托管其网页和 Web 应用程序&#xff0c;以及存储其文件。请务必妥善保护您的 IIS 服务器&#xff08;包括 Web 和 FTP&#xff09;。 什么是 IIS 日志 IIS 日志是 Microsoft IIS Web 服务器上…

柔顺机构学读书笔记1:悬臂梁变形

题目&#xff1a; 如图考虑悬臂梁&#xff0c;材料各向同性&#xff0c;即各个方向上的弹性模量和强度都相同。如果在x方向上作用一个可使最大应力等于屈服强度 S S S的力 F x F_x Fx​时&#xff0c; x x x轴方向的变形为多少&#xff0c;书上给出了答案&#xff1a; 我们来验…

网易有道财报:网易有道2023财年收入将强劲增长,亏损将减少?

来源&#xff1a;猛兽财经 作者&#xff1a;猛兽财经 预计2023年收入增长强劲&#xff0c;净亏损收窄 猛兽财经认为网易有道&#xff08;DAO&#xff09;今年是有能力实现更多的收入增长和减少亏损的。具体来说&#xff0c;我们预计网易有道的收入将在2023财年增长至少20%&am…