刘知远团队提出:如何通过扩大高质量指导性对话数据集,来提高模型的性能和效率...

news2024/11/18 15:43:39

8bbf6bc5bf9b98e0e0185ffbabf55fe6.png

深度学习自然语言处理 原创
作者 | 刘嘉玲

随着开源语言大模型(LLM)的百花齐放,模型的性能和效率关乎到产品的成本和服务体验的均衡。那么,有没有办法让语言大模型变得更高效、更优秀呢?

为了进一步提高开源模型的上限,清华大学的研究团队给出了一个答案:通过扩大高质量指导性对话数据,显著提高了模型的性能和效率。如下图所示,UltraLLaMA问鼎LLM榜!

36820e63690a44dda914d65a073abd37.png

被网友评价:包含150万个高质量,多样化的多回合对话的UltraChat,优于SotA开源模型Vicuna。50b95ea69f469298d28028044e0410dc.png我们一起仔细读读论文,看看能带来哪些启示~

论文:Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
地址:https://arxiv.org/pdf/2305.14233.pdf
代码:https://github.com/thunlp/UltraChat

进NLP群—>加入NLP交流群

1 论文项目概述

为了进一步提高开源模型的上限,论文提出了一种新的聊天语言模型——UltraLLaMA,它是通过提供多样化、高质量的指令对话数据集UltraChat上微调LLaMA模型得到的,成功提升了聊天语言模型的性能。

1bf4f7642ddf863f5e49016c2f30b24f.png
图:GPT-4生成的论文架构
fb08bb7ca32b0e67bbb913e7c4155275.png

2 UltraChat多模态数据集是如何构建的?

构建设计:UltraChat的总体思路是使用单独的LLM来生成开场白、模拟用户和响应查询。UltraChat的三个方案:关于世界的问题、写作和创作、对现有材料的协助都有特点的设计,如下图:

d4431b4118a816b6becf75eb0e12c099.png
图:UltraChat的构建过程

2.1 关于世界的问题

  • 这部分数据主要关注的是现实世界中存在的概念、对象和实体。

  • 收集这部分数据的方法有两个角度:一个是围绕主题和概念,另一个是围绕现实世界的实体。

  • 请求ChatGPT生成30个涵盖我们日常生活各个方面,具有代表性和多样性的元主题,如下图:

cfe097475489656e6cb51d16061f7421.png
表:30个用于生成超端聊天数据的第一部分的元概念

构建过程

  • 首先,根据这些元主题生成了1100多个子主题;同时从维基数据中收集了最常用的10,000个现实世界的命名实体,比如人物、地点、事件等。

  • 再为每个子主题设计了最多10个具体的问题;每个实体设计了5个基本问题,10个具体问题和20个扩展问题。

  • 然后使用Turbo API为10个问题中的每一个生成新的相关问题。想用这些问题来创建对话,所以从大约500,000个问题中筛选和抽样了一些作为对话的开头。

  • 使用手工制作的prompt来指示模型生成涵盖各种常见概念和对象的各种问题,要求它回答简洁、有意义,并且考虑到对话历史的上下文。

  • 最后对200k个特定问题和250k个一般问题以及50k个元问题进行采样,并迭代地生成多轮的对话。

2.2 写作和创作

  • 这部分的目的是根据用户的指示,自动生成不同类型的写作文本。

  • 使用ChatGPT使其根据用户的指示,生成20种不同类型的写作文本,比如故事、诗歌、论文等。

89a1e3153b89a33760a3029004aaaa5b.png
表:20种类型的用于案例2和3的聊天生成的文本材料

构建过程

  • 对于每种类型的写作,生成200条不同的prompt,让AI助手生成文本材料,其中80%的指令被进一步扩展和细化。

  • 将生成的指令作为初始输入,分别生成2~4轮的对话。

2.3 对现有材料的协助

  • 这部分的目的是根据现有的文本材料,生成不同类型的任务,比如改写、翻译、总结等。

  • 用到包含了大量文本片段和源URL的数据集的C4语料库,和20种故事、诗歌、论文等不同的材料类型。

构建过程

  • 从C4数据集中提取了约10w种不同的材料。

  • 为每种类型设计了一些关键字,得到了根据关键字和URL对文本片段进行归类后的材料。

  • 用ChatGPT为每份材料生成最多5个问题/说明。

  • 将每个问题/指令的材料与一组手动设计的模板结合起来,作为用户的初始输入,开始与 AI 助手的对话。

  • 得到了50万个对话开头,每个对话开头包含了一个文本片段和一个任务指令。对于每个输入,生成 2~4 轮对话。

0e8bd5666622db64cf363a33d30ec1cb.png
表:手动设计用于连接现有材料和生成的说明的模板

2.4 数据集评价

UltraChat数据集是一个大规模的多模态对话数据集,它包含了超过100万个对话,每个对话平均包含8轮对话。其中不仅包含了文本信息,还包含了音频、视频和屏幕共享数据。

UltraChat与其他几个指令数据集进行统计分析比较,结果下表所示。

09fbe57f7239da593a21c616374a0185.png
表:现有指令数据集的统计数据
  • UltraChat在规模、平均回合数、每个实例的最长平均长度和词汇多样性方面都优于其他数据集,是最大的开源数据集之一。

  • UltraChat的话题多样性略低于GPT4ALL,但仍高于其他数据集。这可能是因为UltraChat的每个对话包含更多的令牌,而GPT4ALL的每个对话只有一个回合。

  • 评估数据集的连贯性,发现UltraChat和Baize的数据在一致性方面排名最高。

3 UltraLLaMA对话模型有多强大?

模型基本情况

  • 改进LLaMA-13B模型的UltraLLaMA,能够更好地理解对话上下文。

  • 为了使模型能够利用对话前面部分的信息,生成更相关和连贯的回复,研究者们将对话切分为较短的序列,最大长度为2048个标记,并只优化模型响应的损失函数。

  • 使用交叉熵损失和128A100gpu来微调模型,总批量大小为512。

建立评估数据集7583bdbd1df8a3b2660caa75375dc84a.png

  • 构建了一个评估集,包含Vicuna基准和GPT-4生成的300个问题/指令,涉及多个主题和难度等级,如上表所示。

  • 使用TruthfulQA基准来评估模型和基线的世界知识,检测它们是否能够识别真实的陈述,避免产生或传播虚假信息。

  • TruthfulQA基准是一个具有挑战性的测试,包含38个类别和两种评估任务:多项选择题和生成任务。

3.1 模型评价

基线评估

  • 使用ChatGPT来评估UltraLLaMA和其他基线模型在每个问题上的回答。

230e6f8679997407e45fd35c0340ff83.png
比较评估的prompt
  • 给ChatGPT输入问题和两个模型的回答 ,并让它对每个回答打分,从1到10,并给出理由。

  • 评估提示是以正确性为主要标准。

ae360bb04af96c3ecc6e7b75179a1360.png
图:UltraLLaMA与其他基线在策划评价集上的反应比较,该评估由ChatGPT完成
  • 比较了UltraLLaMA和其他基线模型在评估集上的Win/Tie/Lose次数,如上图所示。

  • UltraLLaMA在评估集上的表现远超其他开源模型,胜率高达85%。

  • UltraLLaMA的胜率比Vicuna高出13%。

独立评估

71aba1f578f1447b7435938213b1bb56.png
独立评估的prompt

使用ChatGPT对UltraLLaMA模型和基线模型的回答进行独立评分。基于回答的质量分数从1到10。粗体表示最好的分数,下划线表示第二好的。

bb0cf9cbe32856f60540579337ce33b1.png
表:每个模型在精选评估集上的总体得分和分段得分

上表显示了UltraLLaMA和基线模型的得分比较。UltraLLaMA在总分和评估集的大部分部分上都优于其他开源模型,显示了其强大的能力。

这个细分也反映了每个模型在不同类型的问题和指令上的性能。一般来说,所有模型在简单的常识和世界知识相关的问题上表现更好,但在涉及推理和创造性写作的更复杂的任务上表现较差。有趣的是,LLaMA虽然参数较少,但在常识和世界知识相关的问题上与较大的模型相当,但在更苛刻的任务上落后。此外,我们还注意到,Dolly和OpenAssistant基于Pythia的模型比基于LLaMA的模型表现更差,即使它们更小。这说明了底层语言模型的重要性。

问答精确度

  • 在真实QA多重回声任务上测试了UltraLLaMA和其他基线模型。让模型判断每个候选答案是真的还是假的。

  • 下表显示了各个模型的判断准确率。发现真实判断对于现有模型来说仍然是一项困难的任务。

  • UltraLLaMA在这个任务上比Vicuna表现更好,也超过了其他基线。

6c70675dd089088ec5d05ecc6893f6f4.png
表:对不同模型的真实质量保证基准的准确性

系统提示符的影响

  • 大家常使用系统prompt来指导各种角色和回答风格。

  • 发现系统提示会影响模型生成的输出的质量。当模型被提示提供“有用且详细的”回答时,它会生成更相关和信息丰富的回答。

  • 这种提示虽然不一定会提高确定性问题的准确性,但会提高回答的整体质量,因为它会包含更多的额外信息。

可以从下表中看到一个例子,其中两个回答都是正确的,但系统通过prompt引导的模型产生了更详细的回答。

a9eae59efee98a61c1c692c91269f61d.png
表:是否有系统提示的UltraLLaMA的比较

4 总结

这篇论文的研究成果对于聊天语言模型的发展具有重要的意义。首先,UltraChat数据集的创建为聊天语言模型的训练提供了丰富的资源。其次,通过对LLaMA模型的微调,研究者们成功地创建了一个性能优越的对话模型UltraLLaMA,这为聊天语言模型的进一步优化提供了有力的参考。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/604303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据库新闻速递 明白3中主流的数据迁移方法 (译)

头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共8…

Webstorm 支持微信小程序开发插件 Wechat mini program support

支持微信小程序插件安装: Wechat mini program support, 微信小程序语法支持,rpx 单位报错解决。 插件官方文档 Wiki - Gitee.com 安装方法: File-> Settings->Plugins 选择Marketplace: 输入Wechat ,搜索,然…

岭回归有看点:正则化参数解密,显著性不再成问题!

一、概述 「L2正则化(也称为岭回归)」 是一种用于线性回归模型的正则化方法,它通过在模型的损失函数中添加一个惩罚项来防止过拟合。L2正则化的惩罚项是模型参数的平方和,乘以一个正则化参数λ,即: L2正则化…

初阶二叉树的相关题目

前言: 前面我们介绍了初阶二叉树的相关知识,二叉树常考的还是链式二叉树,而且二叉树也会考很多选择题,本文重点是在给出一些常考的二叉树的性质定理推导和经典练习题目配合强化巩固知识。 目录 一、二叉树的常见性质定理 二、常…

你的业务被AI所取替的风险度有多高?AI社交、克隆人、角色扮演、代理人

hi,大家好,最近我们陆续会推出各种实验性项目,把我们在AIGC和数字体验上的思考进行验证,欢迎持续关注我们的进展。(文末领取PDF) 目前,已经有不少的例子证明了ChatGPT有多好用了。 亚马逊员工在…

定制比例阀控制放大器

定制比例阀控制放大器是为特定应用场景设计的定制化控制系统。它可以根据客户的需求和应用要求,配置输入输出及颤振频率等参数,对现有的控制器进行修改和优化,以满足特定的性能指标和功能要求。随着工业自动化技术的不断发展,定制…

关于安卓viewpager实现堆叠卡片交互

背景 长江后浪推前浪,无聊的需求一浪接一浪。 最近做到一个关于卡片堆叠的需求,觉得挺有意思,所以特此记录一下。 文末将附上源码链接 首先看设计图: 可以看到,是一个卡片堆叠的效果,关于这种UI的实现&…

Android系统安全技术---FBE密钥框架和技术详解

一、前言 用户数据加密是移动设备的重要功能,是使用对称加密算法对Android设备上的所有用户数据进行编码的过程,防止用户数据被未经授权的用户或应用程序访问。 本文是Android系统安全技术系列第二篇,主要介绍基于文件的加密技术。首先介绍An…

到底什么是“云手机”?

今天这篇文章,我们来聊一个很有趣的东东——云手机。 说到云手机,有些童鞋可能并不会觉得陌生。是的,它确实并不是一个新名词。早在2011年左右,国内就有厂商推出了云手机的概念。掐指一算,至今已经有12个年头了。 大家…

APP在应用市场内该如何做推广

苹果应用商城的自然流量都是通过精品推荐,畅销排行榜和搜索来获取的,此外,应用名称、副标题、应用截图视频、应用描述、用户评论、下载量、用户留存率还有曝光量,这些都是影响ASO优化的关键因素。 为了防止一些应用堆砌热词&…

传统设备充电接口如何升级成USB-C PD快充接口?

早在 2009 年开始,欧盟就致力于推动消费电子产品充电接口的统一进程,减少资源浪费推动绿色环保进程,同时充电配件通用化也为消费者带来更好的充电体验。2022 年 10 月 4 日,欧洲议会全体会议上表决通过,在 2024 年底之…

C++服务器框架开发8——日志系统LogFormatter_3/override/宏定义优化switchcase结构

该专栏记录了在学习一个开发项目的过程中遇到的疑惑和问题。 其教学视频见:[C高级教程]从零开始开发服务器框架(sylar) 上一篇:C服务器框架开发7——日志系统LogFormatter_2 C服务器框架开发8——日志系统LogFormatter_3/override/宏定义优化switchcase…

代码随想录算法训练营day60 | 84.柱状图中最大的矩形

代码随想录算法训练营day60 | 84.柱状图中最大的矩形 84.柱状图中最大的矩形解法一:单调栈解法二:暴力双指针(会超时)解法三:优化双指针 总结 最后一天打卡留念! 84.柱状图中最大的矩形 教程视频:https://www.bilibili.com/video/BV1Ns4y1o7…

国产化麒麟linux系统QtCreator和QtCreator编译的程序无法输入中文libfcitx最新版本编译1.2.7

1.问题描述 麒麟linux系统QtCreator和QtCreator编译的程序无法输入中文,网上找了很多的libfcitxplatforminputcontextplugin.so库都无法使用正常输入; Qt版本:5.9.6 麒麟系统版本:海光麒麟桌面版kylin V10 SP1 小版本号2203 X…

一个多功能(聚合)查询接口,实现模糊、分页、主键、排序以及多条件查询

一个多功能(聚合)查询接口,实现模糊、分页、主键、排序以及多条件查询 前言 写的啰嗦了点,看效果请直接忽略中间,直接看后半部分。 引个流,公众号:小简聊开发 概念 瞎编的名字,哈哈哈,我就勉强…

一道北大强基题背后的故事(二)——出题者怎么想的?

早点关注我,精彩不错过! 上篇文章中,我们给出一道北大强基考试中的试题,计算[((1 sqrt(5)) / 2) ^ 12],给出了一条没有任何数学直觉,纯硬算的弯路以及题目的参考答案,相关内容请戳:…

IronPDF 2023.6.10 FOR NET CRACK

适用于.NET的IronPDF 2023.6.10 添加新的注释API并改进图像压缩逻辑。 2023年6月2日-14:42新版 特点 添加了新的连续进给选项。例如用于生成收据文档。 添加了新的注释API,包括注释删除。 添加了删除书签的功能。 将内存使用率和性能提高了10%。 改进了图像…

全球加速AEB「强标」,15万元以下车型或将「释放」巨量需求

目前,智能驾驶技术升级,主要是在帮助中高端车型提升产品竞争力,同时为车企构建未来软件付费盈利模式的转型。 但另一方面,基础辅助驾驶,尤其主动安全,比如,AEB(自动紧急制动&#xf…

【企业化架构部署】基于Apache搭建LAMP架构

文章目录 前言一、LMAP架构介绍1.概念2.LAMP构建顺序3.LAMP编译安装4.各组件介绍4.1 Linux4.2 Apache4.3 MySQL4.4 PHP/Perl/Python 二、服务器部署1.Apache部署2.MySQL部署3.PHP部署4.安装论坛 前言 LAMP架构是目前成熟的企业网站应用模式之一,指的是协同工作的一整…

考上大学,走进网安

出品|MS08067实验室(www.ms08067.com) 本文作者:北平靴 01 我和网络安全的相遇,说来很巧。2022年我考入吉林大学计算机学院,正巧我们的导助是学校ctf战队的成员,所以在刚入学的很清闲的日子里&a…