使用AI平台处理训练和微调数据

news2025/1/11 5:14:29

              Llama.cpp是Georgi Gerganov 基于 Meta 的 LLaMA 模型 手写的纯 C/C++ 版本,让我们实现了在笔记本电脑上部署和体验AI大模型,实现没有GPU也可以运行AI大模型。执行起来虽然比较慢,但是只能算做体验,还可以选择不同语言。某个模型使用体验不好时,还可以更换模型。同时也可以对于既有的模型合并后使用,处理能力更强。

      本地可以运行模型之后,计划自己利用已有的数据进行数据训练和模型微调。

      为了在已有模型上面增强威胁建模能力,需要使用已有的威胁建模数据进行数据训练,包括训练用基础数据和微调数据。基础数据一般使用txt文本进行存储,只是对问题和答案描述有大致的对应关系即可,而用于微调的数据则需要按照instruction、input和output标准的指令和答案格式的json文件数据。原来数据都是使用excel存储的,在ChatGPT-3.5中描述需要如何读取excel数据,生成的数据什么格式,则AI就可以生成程序代码,处理数据使用Python比较方便,把代码拷贝到编辑器后,调试和执行,当代码无法实现功能或实现有问题时,可以继续让AI进行修正,发现AI真的很强大,虽然生成的代码还需要调试和修改,但是生成框架后,在上面修改大幅度减少了开发的工作量。下面处理完成的json数据格式。

这种数据格式是无法用于数据微调的,需要转化为指令格式。我发现在ChatGpt输入的编辑框非常小,且不小心单击回车后会提交问题,AI就会去处理,影响效率,同时也会消耗我们使用AI的次数。可以事先编辑要实现的功能,包括示例数据格式,要生成的数据格式,则AI生成的结果会更接近我们想要达到的目的。像下面这种方式比较好

例如:

{

"安全需求一级": "公共技术",

"安全需求二级": "加密算法",

"安全需求三级": "加密算法",

"安全需求编号": "AL-001-001",

"安全需求": "使用安全的加密算法。",

"重要程度": "安全需求一级",

"对应威胁": "密文暴力破解",

"参考标准": "None",

"安全测试用例建议": "访谈项目架构分析师,确定加密算法。"

},

{

"安全需求一级": "None",

"安全需求二级": "None",

"安全需求三级": "签名算法",

"安全需求编号": "AL-002-001",

"安全需求": "使用安全的签名算法。",

"重要程度": "安全需求一级",

"对应威胁": "None",

"参考标准": "None",

"安全测试用例建议": "访谈项目架构分析师,确定签名算法。"

},

{

"安全需求一级": "操作资源",

"安全需求二级": "输入数据处理",

"安全需求三级": "利用可变编码",

"安全需求四级": "使用前置ghost字符序列绕过输入过滤器",

"安全需求五级": "/",

"安全需求六级": "/",

"面临威胁": "使用前置ghost字符序列绕过输入过滤器",

"攻击模式": "精细模式",

"概述": "攻击者意图引入一些前置字符来使输入绕过过滤器,被攻击的API(应用程序编程接口)在忽略掉前置ghost字符后执行了攻击者的输入。当API会接受多种语法的输入数据,并用相同的语法将其解释,而过滤器又没有将目标API能接受的所有语法范围都考虑进来时,这一攻击就会发生。<br>一些API会从参数(形参)的字符串中删除特定前置字符。有时是因为被认为存在重复,因此被移除。另一种可能性是解释器的逻辑在分析的一开始就被指定要求通过一些方式删除某些字符。攻击者可以在一开始指定多种类型的可变编码试探绕过。<br>最常见的是加入ghost字符—这些额外字符不会影响请求在API层的有效性。如果攻击者能够访问被作为目标的API函数库,某些攻击想法就可以被直接测试了。一旦能够通过测试的可变ghost编码出现,攻击者就可以从基于库的API测试转移到对真实服务的测试了。",

"执行攻击的前提条件": "目标API必须能够忽略用来绕过过滤器的前置ghost字符并且保持在语义上与原句子相同。",

"严重程度": "中",

"被利用的可能性": "中",

"所需资源": "/",

"探测技术": "/",

"攻击发生的告警提示": "/",

"混淆技术": "/",

"解决、缓解方案": "执行白名单列表,而不是黑名单列表的输入有效性验证。<br>在验证有效性前规范所有数据。<br>对于输入有效性的验证,采用迭代的方法(参考深度防御原则)。",

"攻击对象位置方式(注入向量)": "网页表单元素,URL,Networksocket,文件。",

"攻击负载": "攻击负载(payload)是攻击者提供给目标API,允许攻击者提权、破坏认证服务的参数(形参)。",

"生效区域": "/",

"攻击负载生效会带来的影响": "授权服务的失败会造成数据机密性和完整性的沦陷。",

"相关的安全性要求": "/"

},

{

"安全需求四级": "使用可变IP地址编码",

"安全需求五级": "/",

"安全需求六级": "/",

"面临威胁": "使用可变IP地址编码",

"攻击模式": "精细模式",

"概述": "这一攻击依赖于非常规格式的IP地址表示方法。网络上的应用需要一个指定格式的网络位置信息,比如描述完全的域名、URL、IP地址或IP地址段。问题是攻击者可以利用这些设计时可能未被验证的假设使用多种不同的可能编码和网络地址格式。使用naming方式创建策略的命名空间、进行访问控制管理的应用程序可能是易受直接使用IP地址查询的方式影响的,这却是一种在网络上进行通讯时使用的更权威通用的方式。<br>可变的IP地址可被攻击者用于绕过应用程序访问控制,从而连接到仅仅通过隐藏位置保护起来的数据。<br>除此之外,这一类型的攻击还可以被当做探测机制得到入口点信息,攻击者收集后用于更深入地渗透进系统。",

"执行攻击的前提条件": "目标软件必须未能预料到IP/web地址所有可能的有效编码方式。",

"严重程度": "高",

"被利用的可能性": "中",

"所需资源": "与服务器建立会话的能力,或者通过同步会话直接捕获输出的能力,再或者其他如使用FTP等方法。",

"探测技术": "/",

"攻击发生的告警提示": "/",

"混淆技术": "/",

"解决、缓解方案": "设计阶段:使用默认拒绝的访问控制策略。<br>设计阶段:输入有效性验证例程需要检查并确保输入的数据类型和内容以对抗主动的指定。对于IP地址,需要使用应用程序授权使用的IP地址表示方式,不接受用户指定IP的地址或IP地址格式(比如IP地址段)。<br>贯彻阶段:对所有远程内容执行输入有效性验证。",

"攻击对象位置方式(注入向量)": "恶意输入通过标准输入点传递。",

"攻击负载": "根据攻击模式的不同,payload(攻击负载)也不同。恶意payload可能是通过诸如网页浏览器等客户端应用程序传递给服务器的。",

"生效区域": "客户端主机和客户端网络",

"攻击负载生效会带来的影响": "允许攻击者查看并访问意料之外的网络服务。",

"相关的安全性要求": "/"

},

两种情况处理:

第一种情况:前面数组中有“安全需求一级”或“安全需求二级”或“安全需求三级”,但是第二个数组中“安全需求一级”或“安全需求二级”或“安全需求三级”中有一个为“None”,则第二个数组都是从第一个数组继承相同键名称对应的值,所以提问的问题可以是:instruction=公共技术中的加密算法包括什么? 则input=加密算法和签名算法, 加密算法和签名算法就是来自于安全需求一级和安全需求二级相同上面数组的相同键名称对应的值。对于包括了“安全需求四级”键值,则其前三个安全需求对应的键值为None的话,则其值都是来自于前面数组。对于安全需求之外的键值,组合成一个字符串赋值给output,作为训练数据时的output。

第二种情况:前面数组中有安全需求一级”或“安全需求二级”或“安全需求三级”,但是当前数组却没有这三个键名称,只有“安全需求四级”,则说明该数组对应的前面三个键值都是来自于上一个数组。

根据这个规律,你能帮我生成一个python代码吗

则可以生成类似下面格式的Json文件:

上面的问题只是根据Json中单个数组元素提炼出的指令,问题相对比较单一,后面还在借助AI提炼更多的指令,这些问题的生成,就可以用来去微调数据模型了。

(结束)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1373540.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自动化的运维管理:探究Kubernetes工作机制的奥秘

1 云计算时代的操作系统 Kubernetes 是一个生产级别的 容器编排平台 和 集群管理系统 &#xff0c;能够 创建、调度容器&#xff0c;监控、管理服务器。 容器是什么&#xff1f;容器是软件&#xff0c;是应用&#xff0c;是进程。服务器是什么&#xff1f;服务器是硬件&#…

通过 Elastic Stack 充分利用电信领域生成式 AI 的力量

作者&#xff1a;Elastic Piotr Kobziakowski, Jrgen Obermann 在瞬息万变的电信领域&#xff0c;Elastic Stack 与生成式 AI 的集成正在开创运营效率和创新的新时代。 这些技术不仅增强了网络运营&#xff0c;而且还彻底改变了各个部门的内部流程。 下面&#xff0c;我们将深入…

OpenAI推出GPT商店和ChatGPT Team服务

&#x1f989; AI新闻 &#x1f680; OpenAI推出GPT商店和ChatGPT Team服务 摘要&#xff1a;OpenAI正式推出了其GPT商店和ChatGPT Team服务。用户已经创建了超过300万个ChatGPT自定义版本&#xff0c;并分享给其他人使用。GPT商店集结了用户为各种任务创建的定制化ChatGPT&a…

联手英特尔,释放星飞分布式全闪存储潜能

近日&#xff0c;英特尔官网发布了与 XSKY 星辰天合联手打造的解决方案&#xff0c;即 XSKY 的新一代全闪分布式存储系统 XINFINI&#xff0c;该存储系统采用英特尔 QAT 加速数据压缩/解压缩&#xff0c;从而大幅度提升存储系统性能。 全闪存储系统面临的解压缩挑战 在存储系统…

LeetCode刷题--- 地下城游戏

个人主页&#xff1a;元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客 个人专栏 力扣递归算法题 http://t.csdnimg.cn/yUl2I 【C】 ​​​​​​http://t.csdnimg.cn/6AbpV 数据结构与算法 ​​​http://t.csdnimg.cn/hKh2l 前言&#xff1a;这个专栏主要讲述动…

【C++】零碎知识点汇总_1

abs() 函数&#xff1a; abs() 是 C 和 C 标准库中的函数&#xff0c;用于计算整数的绝对值。在 C 中&#xff0c;abs() 函数的原型位于 <stdlib.h> 头文件中&#xff0c;用于整数类型在 C 中&#xff0c;abs() 函数的原型位于 <cstdlib> 头文件中&#xff0c;并可…

【漏洞复现】Hikvision SPON IP网络对讲广播系统存在命令执行漏洞CVE-2023-6895

漏洞描述 Hikvision Intercom Broadcasting System是中国海康威视(Hikvision)公司的一个对讲广播系统。 Hikvision Intercom Broadcasting System是中国海康威视(Hikvision)公司的一个对讲广播系统。Hikvision Intercom Broadcasting System 3.0.3_20201113_RELEASE(HIK)版…

SpringBoot集成Skywalking实现分布式链路追踪

官方网址&#xff1a; Apache SkyWalking官方文档&#xff1a; SkyWalking 极简入门 | Apache SkyWalking下载地址&#xff1a;Downloads | Apache SkyWalking Agent&#xff1a;以探针的方式进行请求链路的数据采集&#xff0c;并向管理服务上报&#xff1b; OAP-Service&am…

2023年快要结束了,今年哪些计算机书值得推荐?

2023年推荐新书有如下几本&#xff1a; 1、软件开发安全之道概念、设计与实施 软件安全设计和实施&#xff0c;覆盖安全概念、设计与实践&#xff0c;让您轻松应对各种威胁与挑战&#xff0c;帮助读者培养安全意识&#xff0c;全面了解软件开发安全之道。 2、C Templates&…

云服务器搭建GitLab

经验总结&#xff1a; 1、配置需求&#xff1a;云服务器内存最低4G 2、内存4G的云服务器&#xff0c;在运行容器后&#xff0c;会遇到云服务器操作卡顿问题&#xff0c;这里有解决方案 转载&#xff1a;服务器搭建Gitlab卡顿解决办法-CSDN博客 3、云服务器的操作系统会影响…

OpenAI大反击!称纽约时报涉嫌故意操纵,且数据是「合理使用」

大家好我是二狗。 《纽约时报》向法院起诉OpenAI侵犯版权后续事件来了&#xff01; 就在今天&#xff0c;OpenAI进行了一场“危机公关”&#xff1a;直接在官方博客上撰文发声&#xff0c;反驳《纽约时报》的诉讼&#xff0c;其主要观点有四个&#xff1a; 1、我们正在和新闻…

将WebGL打包的unity项目部署至Vue中

一、webgl打包 创建一个空项目&#xff08;或者直接使用现成的项目都可以&#xff09;这里以该空项目为例子 注意&#xff1a; 如果你的unity项目中有文字&#xff0c;不需要使用unity默认的字体&#xff0c;需要更改它的字体&#xff0c;否则在最后生成的页面中会显示不出来…

Vue过滤器详解

聚沙成塔每天进步一点点 本文内容 ⭐ 专栏简介基本用法多个过滤器的串联过滤器在指令中的应用全局过滤器 ⭐ 本期推荐 ⭐ 专栏简介 Vue学习之旅的奇妙世界 欢迎大家来到 Vue 技能树参考资料专栏&#xff01;创建这个专栏的初衷是为了帮助大家更好地应对 Vue.js 技能树的学习。每…

reactNative0.71版本的使用

开发环境配置 参考reactNative 官网 版本选中0.71 打包配置 1. IOS 打开项目 -> 进入ios目录->执行命令 pod install ->项目名称.xcworkspace -> 使用xcode打开->配置证书 证书配置截图如下 &#x1f4a1;tips&#xff1a;TARGETS目录下会有多个文件&#x…

Java获取时间,自动给创建时间创建人等赋值

ApiOperation("添加")PostMapping()public ApiResult<?> save(RequestBody FeePropertyRoomArea feePropertyRoomArea) {User usergetLoginUser();LocalDateTime localDateTime LocalDateTime.now();feePropertyRoomArea.setCreateTime(localDateTime);feePr…

数据库编程大赛冠军:郑凌云:0.67秒通过百万级数据评测!SQL代码惊现神之一手!

12月27日&#xff0c;NineData和云数据库技术社区主办&#xff0c;华为云、火山引擎、开源中国、云和恩墨、TDengine、云猿生数据、DORIS、ITPUB等协办单位和媒体&#xff0c;共同举办了本次《数据库编程大赛》。大赛题目「用一条SQL给出扑克牌24点的计算表达式」。 以下冠军选…

VUE购物车商品的添加、删除和计算总金额功能

效果 代码 <template><div id"box"><!--全选功能--><input type"checkbox" change"handleChange" v-model"isAllChecked" /><!--绑定事件&#xff0c;不选用click&#xff0c;使用change每次check值改变会…

swing快速入门(四十三)JTree的常见节点关系用法

注释很详细&#xff0c;直接上代码 上一篇 新增内容&#xff08;一共16个常见用法&#xff0c;内容较多此处概述一下&#xff09; ⚡按各类关系查询节点或节点组内容 ⚡按各类关系查询某种关系是否成立 ⚡按各类关系查询符合某些关系的数量 package swing41_50;import javax.sw…

【vitest 单元测试】如何蹭 ant-design-web3 的PR

这篇文章分享单测经验&#xff0c;希望你能收获到有用的单测知识或者pr思路&#xff0c;填补单测的过程可以深刻理解组件内部的每一个流程&#xff0c;相信一定有所收获。 ant-design-web3 前言查看单测覆盖情况运行命令&#xff0c;本地会生成一份临时目录通过live server打开…

java基础之Java8新特性-Optional

目录 1.简介 2.Optional类常用方法 3.示例代码 4.示例代码仓库地址 1.简介 Java 8引入了一个重要的新特性&#xff0c;即Optional类。Optional类是为了解决空指针异常而设计的。 在Java中&#xff0c;当我们尝试访问一个空对象的属性或调用其方法时&#xff0c;很容易抛出…