基于大语言模型(LLM)的合成数据生成、策展和评估的综述

news2024/11/15 11:55:25

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。

针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。

合集:

《大模型面试宝典》(2024版) 正式发布!


图片

在不断发展的深度学习领域,数据的数量和质量问题一直是一个长期存在的难题。最近大语言模型(LLMs)的出现为合成数据生成提供了一种以数据为中心的解决方案,缓解了现实世界数据的限制。然而,目前对这一领域的研究缺乏统一的框架,大多停留在表面。

因此,本文基于合成数据生成的一般工作流程,整理了相关研究。通过这样做,我们突出了现有研究中的空白,并概述了未来研究的潜在方向。本研究旨在引导学术界和工业界向更深入、更系统地探究LLMs驱动的合成数据生成的能力和应用。

图片

在深度学习领域不断演变的背景下,数据数量和质量的问题一直是一个长期存在的困境。大语言模型(LLMs)的革命性出现引发了深度学习领域的显著范式转变(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。尽管有这些进展,大量高质量数据仍然是构建稳健自然语言处理(NLP)模型的基础(Gandhi et al., 2024)。具体来说,这里的高质量数据通常指的是包含丰富监督信号(通常以标签形式)并与人类意图紧密对齐的多样化数据。然而,由于高成本、数据稀缺、隐私问题等原因,依赖于人类数据来满足这些需求有时是具有挑战性甚至是不现实的(Kurakin et al., 2023)。此外,多项研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人类生成的数据由于其固有的偏见和错误,可能并不是模型训练或评估的最佳选择。这些考虑促使我们更深入地探讨一个问题:是否有其他更有效和可扩展的数据收集方法可以克服当前的限制?

鉴于LLMs的最新进展,它们展示了生成与人类输出相当的流畅文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成数据成为了人类生成数据的一种可行替代品或补充。具体来说,合成数据旨在模仿真实世界数据的特征和模式(Liu et al., 2024)。一方面,LLMs通过广泛的预训练,积累了丰富的知识库,并展现出卓越的语言理解能力(Kim et al., 2022; Ding et al., 2023a),这为生成真实的数据奠定了基础。另一方面,LLMs深厚的指令遵循能力允许在生成过程中实现更好的可控性和适应性,从而能够为特定应用创建定制的数据集,并设计更灵活的流程(Eldan and Li, 2023)。这两个优势使LLMs成为极具前景的合成数据生成器。

作为LLMs的一项关键应用,合成数据生成对于深度学习的发展具有重要意义。如图1所示,LLMs驱动的合成数据生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整个模型训练和评估过程实现自动化,最小化了人类参与的需求(Huang et al., 2023),从而使深度学习模型的优势可以应用于更广泛的领域。除了提供可扩展的训练和测试数据供应之外,LLMs驱动的合成数据生成还可能为开发下一代LLMs铺平道路。来自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的见解强调了数据质量对于有效模型学习的重要性,而LLMs赋予我们主动“设计”模型学习内容的能力,通过数据操作显著提高了模型训练的效率和可控性。截至2024年6月,Hugging Face上已有超过300个被标记为“合成”的数据集,许多主流LLMs利用高质量的合成数据进行训练,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。

尽管看似简单,但生成同时具有高正确性和足够多样性的合成数据集需要精心设计过程,并涉及许多技巧(Gandhi et al., 2024),使得LLMs驱动的合成数据生成成为一个非平凡的问题。虽然大多数现有工作通常针对各种任务(如预训练(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微调(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、评估(Feng et al., 2023; Wei et al., 2024))和不同领域(如数学(Yu et al., 2023a; Luo et al., 2023a)、代码(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))进行数据生成,但它们共享许多共同的理念。为了应对LLMs驱动的合成数据生成这一新兴领域中缺乏统一框架的问题,并开发通用工作流程,本综述调查了最近的研究,并根据生成、策展和评估三个密切相关的主题进行组织,如图2所示。我们的主要目的是提供该领域的全面概述,确定关键关注领域,并突出需要解决的空白。我们希望为学术界和工业界带来见解,并推动LLMs驱动的合成数据生成的进一步发展。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1924631.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Mongodb-04】Mongodb聚合管道操作基本功能

Mongodb系列整体栏目 内容链接地址【一】Mongodb亿级数据性能测试和压测https://zhenghuisheng.blog.csdn.net/article/details/139505973【二】springboot整合Mongodb(详解)https://zhenghuisheng.blog.csdn.net/article/details/139704356【三】亿级数据从mysql迁移到mongodb…

【Mac】App Cleaner Uninstaller(Mac应用清理和卸载)及同类型软件介绍

今天给大家介绍的软件是App Cleaner & Uninstaller,这是一款mac应用清理和卸载软件,还会介绍同类型的其他几款软件,大家可以选择自己适合的来使用。 App Cleaner & Uninstaller软件介绍 App Cleaner & Uninstaller 是一款专门用…

《知识点扫盲 · 学会 WebService》

📢 大家好,我是 【战神刘玉栋】,有10多年的研发经验,致力于前后端技术栈的知识沉淀和传播。 💗 🌻 CSDN入驻不久,希望大家多多支持,后续会继续提升文章质量,绝不滥竽充数…

《斯科特·凯尔比的风光摄影手册》读书笔记

写在前面 《斯科特凯尔比的风光摄影手册》读书笔记整理没有全部读完,选择了感兴趣的章节理解不足小伙伴帮忙指正 😃,生活加油 99%的焦虑都来自于虚度时间和没有好好做事,所以唯一的解决办法就是行动起来,认真做完事情,…

NLP之词的重要性

文章目录 何为重要词TF*IDFTF*IDF其他版本TFIDF 算法特点TF*IDF的优势TF*IDF劣势 TF*IDF的应用搜索引擎文本摘要文本相似度计算 上一篇文章介绍了新词的发现,用内部凝固度和左右熵来发现新词。这时候机器对一篇文章有了对词的一定理解,这时我们让机器上升…

云服务器重置密码后,xshell远程连接不上,重新启用密码登录方式

云服务器重置密码后 ,xshell连接出现不能使用密码登录 解决方案:以下来自阿里云重新启用密码登录方式帮助文档 为轻量应用服务器创建密钥且重启服务器使密钥生效后,服务器会自动禁止使用root用户及密码登录。如果您需要重新启用密码登录方式&…

【python】基于决策树的语音识别

目录 引言 决策树的主要特点 决策树的构建过程 决策树的应用 数据集 代码实现 引言 决策树(Decision Tree)是一种常用的分类与回归方法,其中最为人所知的是其在分类问题上的应用。决策树模型呈树形结构,其中每个内部节点表…

centos7|Linux操作系统|编译最新的OpenSSL-3.3,制作rpm安装包

一、 为什么需要编译rpm包 通常,我们需要安装某个软件,尤其是在centos7这样的操作系统,一般是通过yum包管理器来安装软件,yum的作用是管理rpm包的依赖关系,自动的处理rpm包的安装顺序,安装依赖等的相关问…

【数智化案例展】沃太能源——MES系统建设引领智能制造新篇章

‍ 联想集团案例 本项目案例由联想集团投递并参与数据猿与上海大数据联盟联合推出的《2024中国数智化转型升级创新服务企业》榜单/奖项评选。 大数据产业创新服务媒体 ——聚焦数据 改变商业 沃太能源股份有限公司,一家在储能产品及智慧能源管理方案领域享有盛誉的…

对B-树的理解

目录 前言-为什么要使用B-树?B-树概念 前言-为什么要使用B-树? 首先,我们正常的搜索都有一下方式: 搜索二叉树,极端场景下会退化,类似于单支,此时的效率变成了O(N);为了解决1的问题…

基于微信小程序的音乐播放平台

基于微信小程序的音乐播放平台 音乐播放小程序项目简介技术栈功能模块项目流程系统E-R图项目页面 音乐播放小程序 项目简介 微信音乐小程序旨在提供一个简洁高效的音乐播放平台,用户可以方便地搜索、播放和收藏自己喜欢的音乐。整个项目采用前后端分离的架构&…

Rust 测试的组织结构

测试的组织结构 本章一开始就提到,测试是一个复杂的概念,而且不同的开发者也采用不同的技术和组织。Rust 社区倾向于根据测试的两个主要分类来考虑问题:单元测试(unit tests)与 集成测试(integration test…

基于3D感知的端到端具身操作论文导读

DexIL:面向双臂灵巧手柔性操作的端到端具身执行模型 模型架构 输入:   观测Ot: RGB点云,使用PointNet进行编码;   状态St: 双臂末端7x2Dof位姿16x2灵巧手关节位置,只进行归一化,无编码&am…

在word中删除endnote参考文献之间的空行

如图,在References中,每个文献之间都有空行。不建议手动删除。打开Endnote。 打开style manager 删除layout中的换行符。保存,在word中更新参考文献即可。

InjectFix 热更新解决方案

简介 今天来谈一谈,项目种的客户端热更新解决方案。InjectFix是腾讯xlua团队出品的一种用于Unity中C#代码热更新热修复的解决方案。支持Unity全系列,全平台。与xlua的思路类似,InjectFix解决的痛点主要在于Unity中C#代码写的逻辑在发包之后无…

复杂设备操作流程3D数字化全景展示好处多

传统的纸质说明书,尽管承载着产品的使用指南,但其图文平面的表现形式往往限制了表现力和说明力。对于简单产品,用户或许能摸索使用;但对于复杂产品,即使拥有详实的说明书,也可能因理解困难而导致使用障碍。现在&#x…

【工具使用】adb下载和配置

【工具使用】adb下载和配置 一,简介二,操作步骤2.1 Bing搜索adb2.2 下载adb工具2.3 添加路径到环境变量 三,效果验证 一,简介 本文主要介绍如何下载adb并安装使用,供参考。 此时打开cmd,输入adb 会提示&am…

<数据集>猫狗识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:3686张 标注数量(xml文件个数):3686 标注数量(txt文件个数):3686 标注类别数:2 标注类别名称:[cat, dog] 序号类别名称图片数框数1cat118811892dog24982498 使用标…

计算机网络复习笔记【面向考纲整理】

计算机网络复习笔记 一、计算机网络体系结构(一)计算机网络的概念、分类、组成与功能1.计算机网络的概念、组成与功能1.1计算机网络的概念1.2计算机网络的组成1.3计算机网络的功能 2.计算机网络的分类3.计算机网络的标准化工作及相关知识 (二…

主机安全-进程、命令攻击与检测

目录 概述反弹shell原理nc/dev/xxx反弹shell下载不落地反弹Shell各种语言反弹shell linux提权sudosuid提权mysql提权 Dnslog参考 概述 本文更新通过在主机(不含容器)上直接执行命令或启动进程来攻击的场景。检测方面以字节跳动的开源HIDS elkeid举例。每…