如何通过大模型生成业务需要的数据集

news2024/9/30 21:18:55

现在大模型训练数据的主力都是LLM自己贡献的了。但是也不是说你让它输出什么,然后它就一劳永逸地不停地输出你想要的东西。受限于LLM本身的能力、上下文规定的长度、训练方式导致的有限变化,你需要不断变更你的prompt,以让输出更多样。

接下来介绍SmolLM的数据生成方法

SomlLM

在这里插入图片描述
在这里插入图片描述

这是一个小模型,应该是一个base模型。是huggingface团队推出的。
他们主要的工作是数据增强,基于Cosmopedia V1数据集生成V2数据集,前者是基于网页爬取的种子数据+主题识别后,同时提供种子数据+主题,进行扩写得到的数据集。
他们一开始想一劳永逸,写一个prompt,应用到多个LLM上,根据LLM的多样性来吐出多样性的数据。然而效果不好。
所以第二个方法,使用更好的prompt策略。
首先是对Cosmopedia V1的清洗。他们抛弃了原本的主题分类,因为他们认为这些主题不能很好地反应真实世界的分类。他们选择BISAC书籍分类,这是一个包含51个大类、5000多个标签的分类。借此,他们用LLM扩写出了5000个分类下面的二级分类,从图表中粗略估算,有三万多类,与他们提供的3.4w个分类相符,也就是说他们从5000扩展到了3.4w。
在这里插入图片描述
生成新数据的思路很简单。按照上面图片给的例子,一个种子数据,一个主题词,一堆输出限制,然后按照种子数据和主题词进行扩写。问题是,3.4w个主题,几十万的种子数据,你好歹先确定种子属于哪个一级标签吧?不然一个体育数据+医学主题词,生成的东西四不像了。

为了找到与每个主题最相近的文档聚类,他们放弃了聚类算法,转而使用网页搜索的方法,即,把大类标题、一级标题、二级标题串起来作为搜索query,把数据库作为一个个“网页”。具体怎么搜索的不知道,但是代码里面出现了一个词:IDF。那看来就是IDF了,用基于单字的逆文档频率排序网页,然后选择其中1000个最相近的。代码里还有一个boosted_subtopic,里面把每个字符^2了,这是针对TF-IDF类搜索的,把得分平方的意思,可能与具体的搜索引擎处理方式有关,但是肯定是加权用的。搜索引擎那边会对搜索结果截断,不相关的就不返回了,所以boosted方法返回不够了,再用不加权的搜索一次,然后合并。

至此有了基于主题获得种子数据的方法。

另一个问题是,什么样的种子数据是好的?
确定这个的思路很简单。假如有A、B两组数据,风格不同,你把它们都扔进LLM里训练,看评测结果就得了。另外,如果你以后生成了数据,拿生成数据去训一版LLM,对比种子数据训出来的效果,就能知道生成的数据有没有用、够不够优秀了。
基于上述方法,作者们从Cosmopedia V1中的几个数据包里测试了:
两个 web 样本集:web_samples_v1和web_samples_v2、stories子集,stanford和openstax两个子集
这么些个数据集拿来,都训了20亿个token,epoch=4,也就是每个数据集80亿token,以测评结果作为指标,选择合适的种子数据集。

上面只是个例子,涉及到的数据集只是一个部分,实际上他们还要做关于教育和代码的数据集生成。对于教育部分,他们有课文的数据集,但是选择生成的口吻是一个问题:你是生成说话像小学生的数据,还是中学生,还是大学生?核心问题是,你生成的数据,** 受众是谁?**
也不好说哪个好,只能都生成,然后看一下效果。结果是中学生、大学生各有千秋。实际上他们也不会把所有受众都罗列出来测一遍,那怕是要写几十个了。最终决定的受众比例是:40中学生,30大学生,剩下的受众瓜分剩下的30,还有Cosmopedia v1 中 stories、stanford 等数据集的课文风格。

总结一下。上面3.4万个主题,结合种子数据,每个主题生成1000条数据,这是3400w条文章数据。还有500w条涉及代码、故事、课本。总token数到达28B,就是280亿token,平均一条数据小1000个token呗。

以上就是SmolLM数据生成的大概内容。还有后续关于教育性的代码、网页内容的筛选机制报告,大概就是通过llama70b-instruct对数据的教育性按1~5分评分,拿着这个数据去训练一个reward model,再去过滤脏数据。细节看这里

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1991381.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

录屏为什么没有声音?一款软件为您解决无声难题

录屏已经成为我们日常工作和生活中不可或缺的一部分。然而,有时在录屏过程中,我们可能会遇到一个令人困惑的问题:录屏为什么没有声音?本文将详细解析电脑录屏没有声音的可能原因,并提供相应的解决方案。同时&#xff0…

YOLOv10问世,登顶GiTHub!性能飞升,【多尺度目标检测】值得大看特看!

【多尺度目标检测】是近年来在深度学习领域中备受关注的一项技术,它通过处理图像中不同尺度的目标,显著提升了模型在复杂场景中的检测精度和鲁棒性。多尺度目标检测技术已经在自动驾驶、安防监控和遥感图像分析等多个领域取得了显著成果,其独…

SQL Server Management Studio的使用

之前在 https://blog.csdn.net/fengbingchun/article/details/140961550 介绍了在Windows10上安装SQL Server 2022 Express和SSMS,这里整理下SSMS的简单使用: SQL Server Management Studio(SSMS)是一种集成环境,提供用于配置、监视和管理SQL…

前端工程师学习springboot2.x之配置idea热更新实现高效率开发节奏

目前已经学习springboot实现了增删改查分页查询,每次修改业财或者是代码重启项目都让我觉得很闹心,现在给出idea2021版本自带热更新操作设置,设置过程分享给大家 总结:以上就是配置的全部过程,祝大家写代码快乐…

鸿蒙(Harmony) NEXT - AlphabetIndexer实现联系人字母索引

鸿蒙(Harmony) NEXT 9月份就要正式上架了,并且不会再兼容安卓平台,于是我也赶紧给App开发鸿蒙版本,接下来会写一系列的Harmony开发教程。 今天使用AlphabetIndexer实现联系人字母索引,AlphabetIndexer是官方封装好的组件 咱们实…

【驱动程序】3.5寸SPI液晶屏_ILI9488_stm32f103c8t6_CubeMX_HAL库

【驱动程序】3.5寸SPI液晶屏_ILI9488_stm32f103c8t6_CubeMX_HAL库 主控芯片: stm32f103c8t6 接线: LED-3.3v其他管脚按main.h文件接: #define LCD_CS_Pin GPIO_PIN_1 #define LCD_CS_GPIO_Port GPIOA #define LCD_RS_Pin GPIO_PIN_2…

武汉流星汇聚:全球化与多元化并进,亚马逊展望电商领域无限可能

在全球电商的浩瀚星空中,亚马逊无疑是最为耀眼的一颗星辰。凭借其多年在跨境市场的深耕细作,亚马逊不仅积累了庞大的高活跃用户群,还构建了显著的平台流量优势。根据Similar Web的权威数据,亚马逊的独立访问用户数量已超过26.59亿…

EGO-Swarm 仿真环境搭建

EGO-Swarm仿真环境搭建 参考教程: https://github.com/ZJU-FAST-Lab/ego-planner-swarm EGO-Swarm是一种分散的异步系统解决方案,用于仅使用机载资源在未知的障碍物丰富的场景中进行多机器人自主导航。 1. 查看系统环境 要运行本仿真程序&#xff0c…

评估测量仪器/传感器时的各种精度解析一览

在工业测量中,精度是一个复合概念,涉及到多个方面,通常用来描述测量结果的准确性和可靠性。 在选择测量仪器/传感器时,面对众多的精度名称,你是否苦恼他们具体描述的是什么精度,是否和评估要求有直接关联&…

开放式耳机有什么好处?开放式耳机该怎么选?

​开放式耳机的好处多多呀!如今,开放式耳机已经迅速成为耳机市场上的新宠,它们以其独特的佩戴方式和卓越的音质表现,赢得了广大音乐爱好者和运动达人的喜爱。尤其是对于那些热爱听歌和追求运动自由的人们来说,开放式耳…

电脑录屏软件推荐,6款高效录屏神器(2024最全最新)

电脑录屏软件成为了我们工作、学习和娱乐中不可或缺的工具。无论是录制PPT演示、QQ聊天过程,还是进行专业的直播或教学,都需要一款功能强大、操作简便的录屏软件。 那么,本文将为大家进行电脑录屏软件推荐,让您无论在哪种录屏场景…

共享之道——享元模式(Python实现)

共享之道——享元模式(Python实现) 大家好,今天我们继续来讲结构型设计模式,上一期我们介绍了外观模式,这一期我们来讲享元模式(Flyweight Pattern)。 享元模式(Flyweight Pattern…

超实用 不再担心猫咪掉毛 一文教你养宠家庭空气净化器怎么选

一到夏天,家中的猫咪给你带来的不仅仅是温暖的陪伴,还有那挥之不去的宠物异味。普通空气净化器虽然能够应对一般的空气净化需求,但对于养猫家庭特有的挑战,如宠物毛发、皮屑和异味等,它们往往难以胜任。专业的宠物空气…

【LLM大模型】大模型Prompt Engineering提示词工程

目录: 1、提示工程简介 2、如何写好提示词 2.1 描述清晰2.2 角色扮演2.3 提供示例2.4 复杂任务分解2.5 使用格式符区分语义2.6 情感和物质激励2.7 使用英语2.8 结构化提示词 1、提示工程简介 1.1 什么是Prompt 提示词? 不论是文生图应用,…

STM32-门电路-储存器-寄存器-STM32f1-MCU-GPIO-总线-keil5-点led

1、门电路 门电路组成简单加法器: 二进制对电路的影响: 0和1代表无和有; 以下图例,演示与门:左1右1输出1; 电平标准:使用不同的电压表示数字0和1; 高电平:1&#xff1…

【CSS】文字交融展开

实现如下效果,仅需一个动画几行代码 首先给文本元素添加动画 letter-spacing:初始文本堆在一起,结束展开文本filter:初始模糊,结束清晰 然后给文本的父元素设置对比度,简单理解为亮的更亮暗的更暗。 以…

vue3 项目部署到线上环境,初始进入系统,页面卡顿大概一分钟左右,本地正常无卡顿。localStorage缓存1MB数据导致页面卡顿。

使用vue3进行项目开发,前端框架使用jeecg-boot进行开发,项目初期,打包部署到生产环境,无异常。某天,进行前端项目打包部署到生产环境,突然出现异常情况,部署到线上环境,初始进入系统…

专题十一_字符串

目录 14. 最长公共前缀 解析 题解 5. 最长回文子串 解析 题解 67. 二进制求和 解析 题解 43. 字符串相乘 解析 题解 14. 最长公共前缀 14. 最长公共前缀 - 力扣(LeetCode) 解析 题解 解法一:两两比较,横向比较 clas…

苹果手机录屏没有声音怎么办?2招教你快速解决

今天,录屏功能已成为了我们工作和娱乐中的得力助手。苹果手机凭借其卓越的性能和丰富的功能,自然也在录屏方面有着不俗的表现。苹果手机自带的录屏功能简单直观,能够轻松记录屏幕的精彩瞬间。 然而,有时候苹果手机录屏没有声音怎…