SELF-INSTRUCT: Aligning Language Modelswith Self-Generated Instructions 学习

news2024/11/15 23:30:04

指令微调就是要训练模型执行用户的要求的能力。

文章首先说“指令微调”数据集经常是人工生成,有数量少等缺点。文章提供了一个让语言模型自己生成指令微调数据,自己学习的方法。首先会让一个语言模型自己生成要求,输入和输出,然后去除低质量,重复的例子,得到的数据集再去训练这个语言模型。接下来是流程中的一些细节:

1,从人工生成的初始任务池中选出8个的instruction作为例子交给模型,让它生成类似的instruction。

如图,给8个实例,然后让模型继续生成。

2,让模型分辨这个instruction是不是分类任务。

如图,给模型几个例子,让他知道什么叫分类任务,什么叫非分类任务,然后然他分辨一下自己刚刚生成的任务是不是分类任务。

3,实例生成,也就是input,output的生成。这一步中,第二步的工作就要发挥作用了。文章表示在分类任务中,先生成output再生成input更好,其他的任务都是先生成input再生成output。

4.筛选。文章使用ROUGE-L similarity(Rouge-L是基于最长公共子序列的相似度评价指标。 它寻找参考摘要和文摘之间的最长公共子序列,并计算其相似度分数。)计算新instruction和已有instruction之间的相似度,只有新instruction和每一个旧instruction相似度都不超过0.7的时候它才会被采纳。在input,output方面,筛掉和旧例子完全一样或者input一样output不一样的。

5.微调。把新得到的数据喂给模型,多弄一些花样(比如修改一下格式之类的)给他训练

基本结构就是这样,接下来是收集到的数据的统计。

下面是收集到的任务信息的统计:

作者还研究了一下这些instruction当中最常见的动词和名词

这些词汇可以表现instruction多样性的程度。

还要检查新产生的这些任务相较于原始的任务池有多大差别,依旧是使用ROUGE-L算法计算相似度。

可以看到大部分都集中在0.2到0.4,相似度较低。

还统计了instruction的长度之类的信息。

总而言之,论文用这些数据来证明模型新产生的数据是足够多样化,且与原有数据差别够大的。接下来就要衡量这些数据质量够不够高。

为了衡量得到数据的质量,项目组随机选择了200个instruction,每个instruction随便选一个inputoutput对,然后请了项目组的老大来评价这些数据:

最终正确率为54%,不过作者说即使最终正确率不高,至少大部分样例是部分正确的,可以用来训练模型。

接下来是实验这些数据有没有用:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2087583.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【SpringBoot】电脑商城-09-默认收获地址和删除收货地址

默认收货地址 1 默认收货地址-持久层 1.1 规划需要执行的SQL语句 1.将某用户的所有收货地址设置为非默认地址(是否默认:0-不默认,1-默认)。 update t_address set is_default0 where uid?2.将某用户指定的收货地址设置为默认…

108页PPT分享:华为流程体系及实施方法最佳实践

PPT下载链接见文末~ 华为的流程体系、流程框架及实施方法是一个复杂而精细的系统,旨在确保公司运作的高效性和竞争力。以下是对这些方面的详细描述: 一、华为的流程体系 华为的流程体系是一套全面的管理体系,它涵盖了企业所有的活动&#…

玩转云服务:Oracle Cloud甲骨文永久免费云主机配置指南(续)

前段时间,和大家分享了白嫖Oracle Cloud的云服务器: 玩转云服务:Oracle Cloud甲骨文永久免费云服务器注册及配置指南。 新注册的小伙伴,可以在 30 天内,利用 300 美元免费储值,任性使用所有 Oracle Cloud …

【unity实战】使用新版输入系统Input System+Rigidbody实现第三人称人物控制器

最终效果 前言 使用CharacterController实现3d角色控制器,之前已经做过很多了: 【unity小技巧】unity最完美的CharacterController 3d角色控制器,实现移动、跳跃、下蹲、奔跑、上下坡、物理碰撞效果,复制粘贴即用 【unity实战】C…

InternLM2.5 部署到安卓手机上

环境准备 1.1 安装rust export RUSTUP_DIST_SERVERhttps://mirrors.ustc.edu.cn/rust-static export RUSTUP_UPDATE_ROOThttps://mirrors.ustc.edu.cn/rust-static/rustup curl --proto https --tlsv1.2 -sSf https://mirrors.ustc.edu.cn/misc/rustup-install.sh | sh1.2 安…

PostgreSQL 服务启动不了问题

如图,遇到这个问题,需要给文件夹打开权限即可。 先给主文件夹postgreSQL打开所有权限,点击属性->安全那里,所有修改啥的权限都打开。再给里面的data文件夹打开权限。

开源搜索引擎之Solr

Apache Solr 是一个开源的企业级搜索平台,构建在 Apache Lucene 之上,提供了强大的全文搜索、实时索引和分布式搜索能力。Solr 被广泛用于构建高性能的搜索应用程序,支持从简单的搜索引擎到复杂的数据分析平台等多种场景。以下是对 Apache So…

1panle搭建的maxkb增加本地向量模型

首先下载模型,比如m3e-large,并上传到/opt/maxkb/model/local_embedding/ 目录,没有就创建 目录如下: 然后修改1panel的容器信息,点击右边的编辑: 在下方的挂在目录处点击添加: 在两个框都输入…

ISIS路由渗透

/ 实验介绍: / 原理概述 在IS-IS网络中,所有的Level-2和Level-1-2路由器构成了一个连续的骨干区域。Level-1区域必须且只能与骨干区域相连,不同的Level-1区域之间不能直接相连。Level-1区域内的路由信息会通过Level-1-2路由器通报给Level-2区域&#x…

EmguCV学习笔记 C# 8.3 Grabcut法

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 EmguCV是一个基于OpenCV的开源免费的跨平台计算机视觉库,它向C#和VB.NET开发者提供了OpenCV库的大部分功能。 教程VB.net版本请访问…

爬取央视热榜并存储到MongoDB

1. 环境准备 在开始之前,确保你已经安装了以下Python库: pip install requests pymongo2. 爬取网页内容 首先,我们需要爬取央视热榜的网页内容。通过requests.get()方法,我们可以获取网页的HTML内容,并通过re.finda…

KEYSIGHT是德 Infiniium EXR系列 示波器

Infiniium EXR系列 示波器 苏州新利通 引言 概述 Infiniium EXR系列 出色的信号完整性让信号纤毫毕现 该系列的所有型号都集成了一个 10 位 ADC,并且在所有通道上同时提供 16 GSa/s 的采样率。高分辨率 ADC 的效用取决于示波器的前端底噪是否足够低以提供与之匹…

Nvidia主导AI推理竞赛,但新兴对手纷纷崭露头角

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

健康早知道小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,医生管理,健康信息管理,健康评估管理,在线留言,系统管理 微信端账号功能包括:系统首页,医学知识&#xff0…

【网络】数据链路层协议——以太网,ARP协议

1.局域网转发 (1)IP提供了将数据包跨网络发送的能力,这种能力实际上是通过子网划分目的ip查询节点的路由表来实现的,但实际上数据包要先能够在局域网内部进行转发到目的主机,只有有了这个能力之后,数据包才…

【问题分析】放大镜影响权限弹窗接收事件【Android14】

1 问题描述 如图,打开google的放大镜功能,然后将该放大镜和权限弹窗部分重合,会发现权限弹窗的按钮如“Allow”,点击无响应。 顺便一提,如果放大镜和权限弹窗完全重合或者完全不重合,是没问题的。 2 问题…

create-react-app 移除 ESLint 语法检查

ESLint 的作用: ESLint 是一个流行的 JavaScript 代码静态检查工具,旨在帮助开发者识别和修复代码中的问题。以下是关于 ESLint 的一些关键信息: 主要功能: 1.代码风格检查:ESLint 可以检查代码是否符合特定的编码风…

基于STM32开发的智能农业监测与控制系统

目录 引言环境准备工作 硬件准备软件安装与配置系统设计 系统架构硬件连接代码实现 系统初始化传感器数据采集与处理自动灌溉与环境控制数据融合与决策算法OLED显示与状态提示Wi-Fi通信与远程监控应用场景 温室环境的智能监控与自动化控制农田土壤与作物生长的实时监测常见问题…

2017年系统架构师案例分析试题四

目录 案例 【题目】 【问题 1】(9 分) 【问题 2】(9 分) 【问题 3】(7 分) 【答案】 【问题 1】解析 【问题 2】解析 【问题 3】解析 相关推荐 案例 阅读以下关于数据库设计的叙述,在答题纸上回答问题 1 至问题 3。 【题目】 某制造企业为拓展网上销售业…

强化学习,第 6 部分:n 步 Bootstrapping

一、介绍 1.1 概述 R强化学习是机器学习中的一个领域,它引入了智能体在复杂环境中学习最佳策略的概念。代理从其操作中学习,从而根据环境的状态获得奖励。强化学习是一个具有挑战性的话题,与机器学习的其他领域有很大不同。 强化学习的显着…