ChatGPT实现数据集模拟生成,ChatGPT实现密码生成

news2025/1/15 13:56:38

数据集模拟生成

之前章节我们已经演示过ChatGPT 如何根据 prompt 编写文章或续写文章,文本生成的作用不仅仅在语文方面有用,本节我们演示另一种场景,利用 ChatGPT 来生成数据。看似作用差不多,其实这是目前开源社区非常常用的大语言模型研究中的一步,学名叫 self-instruction。简单来说,将一些人工编写好的或者挑选好的极少数训练数据,交给 ChatGPT 进行仿写,可以得到多出两三个数量级的新训练数据。这样有助于大语言模型的微调训练。

我们以北京航空航天大学开源的 LogQA 标注数据集(https://github.com/LogQA-dataset/LogQA/blob/main/data/Spark/qa.json.train)中的前十行训练数据为例,让 ChatGPT 来生成更多数据:

{"Question": "What stage was the task 28.0 completed in?", "Answer": "29.0", "RawLog": "Finished task 28.0 in stage 29.0 (TID 1348). 2128 bytes result sent to driver"} {"Question": "How many kb is broadcast_3 free?", "Answer": "318.5", "RawLog": "Block broadcast_3 stored as values in memory (estimated size 384.0 B, free 318.5 KB)"} {"Question": "Is partition rdd_42_18 found?", "Answer": "not", "RawLog": "Partition rdd_42_18 not found, computing it"} {"Question": "Is partition rdd_42_15 found?", "Answer": "not", "RawLog": "Partition rdd_42_15 not found, computing it"} {"Question": "How many kb is broadcast_24_piece0 free?", "Answer": "393.0", "RawLog": "Block broadcast_24_piece0 stored as bytes in memory (estimated size 5.6 KB, free 393.0 KB)"} {"Question": "Is partition rdd_42_4 found?", "Answer": "not", "RawLog": "Partition rdd_42_4 not found, computing it"} {"Question": "What is the ID for stage 7.0?", "Answer": "299", "RawLog": "Running task 1.0 in stage 7.0 (TID 299)"} {"Question": "What is the ID for stage 12.0?", "Answer": "494", "RawLog": "Running task 1.0 in stage 12.0 (TID 494)"} {"Question": "Is partition rdd_11_1 found?", "Answer": "not", "RawLog": "Partition rdd_11_1 not found, computing it"} {"Question": "What stage was the task 42.0 completed in?", "Answer": "24.0", "RawLog": "Finished task 42.0 in stage 24.0 (TID 1127). 2364 bytes result sent to driver"}

参照上面数据,仿写一批类似数据。

得到的 ChatGPT 生成结果如图:

对比原始数据可以发现,ChatGPT 完美的识别除了数据中哪些内容是可以被随机替换的,应该怎么替换,并且保证了在同一行内,相同的的内容,Question、Answer 和 RawLog 中保持一致。

有趣的是:ChatGPT 严格按照示例数据的样式,循环生成。我们给的 prompt 中,分别是 1 个 complate、1 个 kb、2 个 found、1 个 free、1 个 found、2 个 ID、1 个 found、1 个 complete,ChatGPT 生成 30 条也一模一样按照这个顺序循环 3 次。

所以如果要生成更多数据,或者生成均衡数据的,也可以分批分类生成。这里就不重复演示了。如果我们确实希望采用这种方式生成数以万计的训练数据,建议通过 API 方式调用 ChatGPT 服务。本书后续章节会介绍ChatGPT 的接口开通和调用方法,请参阅。

 

密码生成

个人密码强度非常重要,但是靠个人自己编写,总会不由自主的寻找一些有意义的、方便记忆的密码组合。市面上甚至有诸如 1passwd 之类的密码生成和管理器软件,来方便我们按需生成和保管不同网站的密码。

ChatGPT 也可以在这个时候帮我们的忙。为了加强 ChatGPT 生成的密码强度,我们把一些具体规则也通过 prompt 告知 ChatGPT,包括密码长度、数字、大小写、特殊符号的数量等等。

为那些需要安全密码的人提供密码生成器。我将为您提供包括“长度”、“大写”、“小写”、“数字”和“特殊”字符在内的输入表单。您的任务是生成一个复杂的密码使用这些输入形式,并提供给我。不要在回复中包含任何解释或其他信息,只需提供生成的密码。例如,如果输入的表单是长度= 8,大写= 1,小写= 5,数字= 2,特殊= 1,那么您的响应应该是一个密码,例如“D5%t9Bgf”。

然后尝试输入一次具体期望,看 ChatGPT 给我们的结果会是什么:

很有趣的结果产生了,我们实际数一数,ChatGPT 生成的密码,密码复杂度是:长度= 12,大写= 3,数字= 4,特殊= 3,小写= 2。看起来,ChatGPT 较差的数学水平再次暴露了!

不过,因为密码本身就需要随机性,这种"生成器"自己都测不准的结果,某种程度上来说,不符合我们在之前章节提及的错误会有严重影响的原则,倒也可以正常使用了。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/467984.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

低代码和零代码二子争夺,你扶谁上位?

传统的软件研发方式目前并不能很好地满足企业的需求:人员成本高、研发时间长、运维复杂。这时低代码或零代码工具的出现为快速开发软件提供了更好的思路。对于不太了解两者的人来说,零代码和低代码是什么?又有什么联系与区别? 什么…

手把手教你安装telnet(离线方式+在线方式)

系列文章目录 文章目录 系列文章目录前言一、telnet是什么?二、安装步骤总结 前言 一、telnet是什么? Telnet协议是TCP/IP协议族中的一员,是Internet远程登录服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程主机工作的能力…

[openwrt] valgrind定位内存泄漏

目录 要求 valgrind 简介 工具介绍 linux程序的内存布局 内存检查的原理 valgrind的使用 使用举例 内存泄漏 内存越界 内存覆盖 Linux分配虚拟内存(申请内存)的两种方式 brk和mmap 要求 被调试程序带有-g参数编译,携带debug参数…

二维码在数字化班组管理中的应用

为了更好地贯彻落实集团公司对班组安全建设的要求,可以运用“加法思维”,勇于直面当前安全班组建设中的突出问题,敢于创新和突破,自主搭建数字化班组管理平台,以进一步提升班组安全建设水平。 本文将详细介绍搭建设备…

腾讯云CDN的HTTPS服务是收费的?

腾讯云内容分发网络CDN的HTTPS请求数收费了,之前阿里云CDN是收费的,现在腾讯云HTTPS请求数也开始收费的,但是腾讯云还是很良心的每月300万次以内是不计费的,只有超出free额度的部分才另外收费,HTTPS请求数价格为0.05元…

Windows10资源管理器使用

文章目录 前言二、关联菜单操作1.分组展示2.添加选择复选框3.使用窗格模式4.功能区折叠二、“文件夹选项”对话框操作1.访问模式调整2.状态栏控制总结前言 目前Windows系统中的使用较多当属Windows10,资源管理器属于Windows系统中一个常用工具。本文总结了Windows 10 专业版下…

类的默认成员函数

为什么会有构造函数和析构函数呢? 1、初始化和销毁经常忘记 2、有些地方写起来很繁琐. Stack有了构造和析构,就不怕忘记写初始化和清理函数了,也简化了 例如在队列oj时,忘记释放,造成内存泄漏 构造函数 主要任务&am…

spark on k8s 部署的一点理解

Running Spark on Kubernetes - Spark 3.4.0 Documentation (apache.org) 前提条件 1. 本地有spark安装包,以便于执行 spark submit 命令 2. k8s 集群,以及本地的有 kubectl 并且配置的用户包含相关权限,具体可以参考官网 一些观念的转变 …

二百左右的蓝牙耳机哪款好?200左右音质最好的蓝牙耳机

在日常生活中离不开智能手机,特别是对无线蓝牙耳机的需求程度也越来越高,但是市面上有很多的蓝牙耳机戴久了耳朵会出现不舒服,为了获得更好的使用体验,我整理了市面上200左右价位佩戴和音质都表现不错的蓝牙耳机。 一、南卡小音舱…

Leetcode 并查集详解

在一些应用的问题中,需将n个不同的元素划分成一组不相交的集合。开始时,每个元素自成一格单元素集合,然后按一定顺序将属于同一组的元素的集合合并。其间要反复用到查询某个元素属于哪个集合的运算。适合于描述这类问题的抽象数据类型称为并查…

【22】linux进阶——文本处理工具:cut、awk、sed

大家好,这里是天亮之前ict,本人网络工程大三在读小学生,拥有锐捷的ie和红帽的ce认证。每天更新一个linux进阶的小知识,希望能提高自己的技术的同时,也可以帮助到大家 另外其它专栏请关注: 锐捷数通实验&…

一段凄惨Android 面试经历分享,败在了项目架构原理上……

大家应该看过很多分享面试成功的经验,但根据幸存者偏差的理论,也许多看看别人面试失败在哪里,对自己才更有帮助。 这是一位网友分享的面试经历,他准备了3个月,刚刚参加完字节跳动的第三面,视频面&#xff…

数说故事联合中山大学国际关系学院共建「国关数据实验室」,深化数据科学与国际关系融合创新

4月9日,数说故事联合中山大学国际关系学院共建的「国关数据实验室」正式启动,此次强强联合是双方在国际关系领域的一项创新尝试,该实验室旨在整合数说故事和国际关系学院师生的资源优势,将数据科学与国际关系研究相结合&#xff0…

真实还原美团4面经历,低学历成功拿到20K Offer...

个人背景 如标题所示,我的个人背景非常简单,软件测试经验 1 年半,学历普通,2 本毕业后出来就一直在做功能测试,在公司每天重复的工作对我的技术提升并没有什么帮助,但小镇出来的我也深知自我努力的重要性&…

Binder 与 四大组件工作原理 其一

Binder Binder的组成结构 Binder的架构如图所示 ServiceManager负责把Binder Server注册到一个容器中。 我们可以这样理解Client、Server 、ServiceManager、Binder Driver之间的关系: 把ServiceManager比喻成电话局,存储着每个住宅的座机电话。张三给…

记录-Vue移动端日历设计与实现

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 工作中遇到一个需求是根据日历查看某一天/某一周/某一月的睡眠报告,但是找了好多日历组件都不是很符合需求,只好自己手写一个日历组件,顺便记录一下。 先看看UI给的…

linux文件编辑与编辑命令

文章目录 一、linux文件编辑与编辑命令总结 一、linux文件编辑与编辑命令 Linux mkdir命令:创建目录 Linux more命令:显示文本文件内容 Linux cat命令:连接文件并打印到标准输出设备上 Linux grep命令:检索文件内容 Linux rm命令:删除文件或目录 Linux touch命令:修改文件的时…

15款时间计划、任务管理APP/软件对比(团队\个人)

15 款不同类型的日程、任务管理应用:1.PingCode;2.Worktile;3.Todoist;4.Trello;5.Microsoft To Do;6.Asana;7.Google 任务;8.Notion;9.Monday.com;10.Teambi…

Matlab对日期变量和时间变量的管理

Matlab2012a内置了三个函数 datanumdatevecdatestr 靠这三个函数,可以基本实现日期变量和时间变量的管理。下面直接来看。 (1)datanum 这个函数用来将字符串,日期矢量转为通用日(数值型)。所谓的通用日…

js特殊对象 - RegExp对象(正则表达式)

1、概述 正则表达式用于定义一些字符串的规则,计算机可以根据正则表达式,来检查一个字符串是否符合规则,获取将字符串中符合规则的内容提取出来。 使用typeof检查正则对象,会返回object。 2、创建正则对象 2.1、使用对象创建 语法…