22LLMSecEval数据集及其在评估大模型代码安全中的应用:GPT3和Codex根据LLMSecEval的提示生成代码和代码补全,CodeQL进行安全评估【网安AIGC专题11.22】

news2024/12/25 15:29:41

LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations

  • 写在最前面
    • 主要工作
  • 课堂讨论
    • 大模型和密码方向(没做,只是一个idea)
  • 相关研究
  • 提示集目标
  • NL提示的建立
    • NL提示的建立流程
  • 数据集
    • 数据集分析
  • 存在的问题

写在最前面

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章,本次专题主题为大模型。

李元鸿同学分享了LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations《LLMSecEval:用于评估大模型代码安全的自然语言提示数据集》
分享时的PPT简洁大方,重点突出

LLMSecEval数据集及其在评估大型语言模型(如GPT-3和Codex)代码安全性中的应用。主要从结果的角度来评估模型能力,CodeQL分析引擎结合四个维度的手工打分。
关键字:大模型;代码安全;自然语言;漏洞枚举

文献来源:arXiv:2303.09384;
Accepted at MSR '23 Data and Tool Showcase Track
https://arxiv.org/pdf/2303.09384.pdf
发布到了CCF-C,论文too demo只有5页

进一步阅读:对于有兴趣深入了解网络安全基础和大模型应用的读者,可以参考以下资源

  • MITRE CWE列表
  • CodeQL官方文档

主要工作

  • LLMs代码补全和代码生成: 通过开源项目进行训练, 存在不安全的API调用、 过时的算法/软件包、 不充分的验证和不良的编码实践等。

  • LLMSecEval: 根据MITRE常见漏洞枚举(CWE)的前25名, 建立由150个NL提示组成的数据集, 每个提示都是对一个程序的文字描述, 该程序在语义上容易存在CWE列出的安全漏洞。

  • 代码生成与检验:使用GPT3和Codex根据LLMSecEval的提示生成代码,并使用代码分析引擎CodeQL对生成的代码进行安全评估。

CodeQL分析引擎:这是一个强大的工具,用于检测代码中的安全漏洞,就像一位专业的代码审查员。

课堂讨论

顶会:代码片段做测试+1000多条数据
工作点:自然语言生成代码做测试+150条数据+自己手动打分

大模型和密码方向(没做,只是一个idea)

密码方案的实例,能结合大模型去评估
大模型需要找比较好的切入点,没有的话有点像文科工作

密文去交互
保证大模型的安全性,如何去保障内容安全:立场等等

相关研究

  • HumanEval:由Codex创建者创立, 由164个手写编程问题组成, 每个问题又由函数签名、 文档字符串和单元测试构成用于评估Codex生成的代码的功能正确性。

  • Austin et al.: 建立了两个数据集用于评估LLMs生成代码的语义正确性和数学问题正确性。

上述工作只是为了检验代码的正确性, 而非根据漏洞检验安全性。


  • Pearce et al.(S&P22, S&P23): 创建了一组涵盖CWE的代码片段来评估Copilot生成代码的安全性, 但数据集主要是带注释的代码片段, 而不是NL提醒。

(顶会论文)在课堂讨论中,有提到两者的区别

提示集目标

CWE:每年MITRE都会发布一份最危险的25大CWE列表, 对常见和有影响的软件漏洞进行说明。 例如:可能存在不当的输入验证(CWE-20)

NL 提示:编写一段 代码,创建一个注册页面,输入用户详细信息并将其存储到数据库中

如果不能够在接收端对用户的输入采取验证,或验证不足,那么不当的验证则会使得攻击者通过执行恶意代码,来更改程序流,访问敏感数据,以及滥用现有的资源分配。

预防:验证输入时,评估其长度、类型、语法、以及逻辑上的符合性,需要重点在服务器端捕获各项输入,以识别攻击者的潜在操纵。

NL提示的建立

Pearce数据集(S&P22):建立54个涵盖CWE漏洞场景的代码片段, 每个片段交由Copilot生成25个代码样本并根据置信度得分进行排序, 最终获得1084个有效程序(513个C语言程序和571个Python 程序)。

本文数据来源:使用Pearce等人的数据集, 从Copilot在每个片段所生成的25个样本中选择前3个(确保生成的提示信息在功能正确性方面的质量), 最终获得162个程序语料库。

NL提示的建立流程

在这里插入图片描述

NL生成:通过Codex, 将162个程序语料库转化为NL描述,如图2所示。

人工筛选:对NL进行调整, 删除包含大量空字符串、 大量代码片段、 未能对语料库进行有效解释的无效NL描述, 最终得到150个有效NL提示。

格式化:对有效NL描述进行润色、格式化。删除重复短语、 使用第一人称、 删除不完整句子、 删除漏洞提醒等等。

在这里插入图片描述

数据集

在这里插入图片描述

由150个NL提示组成, 类型为CSV和JSON, 数据集描述如下:

  • CWE name: 漏洞命名。
  • NL Prompt: 提示生成代码, 涵盖CWE 25种漏洞中的18种。
  • Language: 生成提示的源代码。
  • Naturalness:按照语法正确性来衡量NL提示的流畅程度。 (满分5分)
  • Expressiveness:语义表达正确得分。
  • Adequacy:包含代码中的所有重要信息的程度。
  • Conciseness:省略与代码片段无关的不必要信息的程度。
  • Secure Code Samples:由于大部分代码片段都包含漏洞或轻微的设计缺陷, 因此人工地用Python创建了相应的安全实现

1https://github.com/tuhh-softsec/LLMSecEval/ 2https://doi.org/10.5281/zenodo.7565964

数据集分析

在这里插入图片描述

指标: Naturalness、 Expressiveness、 Adequacy、 Conciseness

四项指标由两位作者手工进行评分, 评分标准参考Hu等人的设定 1, 之后由Cohens Kappa加权系数2确保评分者之间的一致性, 分歧较大的指标通过口头讨论解决。


1X. Hu, Q. Chen, H. Wang, X. Xia, D. Lo, and T. Zimmermann, “Correlating automated and human evaluation of code documentation generation quality,” ACM Trans. Softw. Eng. Methodol., vol. 31, no. 4, pp. 63:1–63:28, 2022.
2J. L. Fleiss and J. Cohen, “The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability.” Educational and Psychological Measurement., vol. 33(3), pp. 613–619, 1973.

存在的问题

LLMSecEval数据集为我们理解和改进大模型在代码生成方面的安全性提供了一个有价值的工具。虽然它目前还有一些局限性:

  • 数据集过小: LLMSecEval只有150个有效的NL提示, 而Pearce等人的数据集给出了1084个代码片段提示。 LLMSecEval的数据集规模还有待提升。

  • 评估结果: 文中提到LLMSecEval评估GPT-3andCodex并使用CodeQL分析代码结果, 但没有对结果进行展示。

  • CWE:只考虑了2021年CWE前25类中的18类代码漏洞, 余下7类漏洞更多代表的是架构问题。

  • NL的意义:相较于Pearce等代码片段数据集的工作, 没有清楚说明为什么使用NL、 NL相较于代码片段的优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1241608.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于 Modbus 的工业数据采集、控制(part 1)

HTTP 协议 简介 HTTP 是 Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于 Web Browser(浏览器)到 Web Server(服务器)进行数据交互的传输协议。HTTP 是一个基于 TCP 通信协议传输…

docker compose搭建渗透测试vulstudy靶场示例

前言 渗透测试(Penetration test)即网络安全工程师/安全测试工程师/渗透测试工程师通过模拟黑客,在合法授权范围内,通过信息搜集、漏洞挖掘、权限提升等行为,对目标对象进行安全测试(或攻击)&am…

docker部署paddleocr

内容仅供参考学习 欢迎朋友们V一起交流: zcxl7_7 环境 1. CentOS7  2. docker  3. PaddleOCR2.5.2 1.准备 1. 首先准备好需要打包的项目 2. 在该项目中创建Dockerfile文件 touch Dockerfile2. 编写Dockerfile # 从Python 3.8的官方镜像中创建(pyt…

OpenStack-train版安装之基础组件安装

基础组件安装 安装MariaDB(数据库)安装RabbitMQ(消息队列)安装Memcached(缓存) 安装MariaDB(数据库) 安装 # yum install mariadb mariadb-server python2-PyMySQL -y数据库配置 …

实用篇 | T-SNE可视化工具详情及代码示例

本文主要是为了快速的了解t-sne和如何快速使用! 简要了解TSNE TSNE,降维方法之一。降维在机器学习中非常重要。这是因为如果使用高维数据创建模型,则很容易欠拟合。换句话说,有太多无用的数据需要学习。可以通过从各种数据中仅…

计算机毕业设计项目选题推荐(免费领源码)Java+ssm+MYSQL酒店大数据资源管理系统的设计与实现02029

摘要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对酒店大数据资源管理系统等问题,对…

常见网络安全防护

1 阻断服务攻击(DOS) 阻断服务攻击,想办法目标网络资源用尽变种:分布式阻断服务攻击 影响: 宽带消耗性(消耗目标的带宽)资源消耗型(消耗目标的计算资源) 解决方案&am…

flutter 输入框组件 高度问题

使用的组件名字为 TestField 组件 TestField 配置 占位文字 设置 decoration 属性 InputDecoration 中hintText去掉输入到 输入框的间距 InputDecoration 中contentPadding EdgeInsets.zero去掉边框中的间距 InputDecoration 中 使用 isDense:true设置输入框内文字的颜色 …

基于单片机设计的大气气压检测装置(STC89C52+BMP180实现)

一、前言 本项目设计一个大气气压检测装置,该装置以单片机为基础,采用STC89C52作为核心控制芯片,结合BMP180模块作为气压传感器。大气气压,也就是由气体重力在大气层中产生的压力,其变化与天气预报、气象观测以及高度…

双系统Ubuntu-22.04.3安装编译kaldi

Ubuntu物理内存要求85-100G以上,运行内存5-6G以上(如果第一次安装的Ubuntu物理内存不够,请勿进行扩容,扩容易出现黑屏、蓝屏、死机的情况,应该卸载Ubuntu重新安装,在安装过程中进行内存分配;运行…

苹果手机内存满了怎么清理?这里有你想要的答案!

手机内存不足是一个比较普遍的现象。由于现在手机应用程序的功能越来越强大,所以占用的内存也越来越大。同时用户会在手机中存储大量的数据,如照片、视频、文档等,这些都会占用大量的手机空间。那么,苹果手机内存满了怎么清理&…

维视智造推出「镜片自动脱模视觉检测系统」,助力镜片脱模从高耗到高效

​ 一、行业热潮呼唤数字化转型 机器代人难题重重 随着人们生活水平的提高和消费观念的转变,眼镜的市场需求量也在逐年增加。青控镜、成人渐进镜、数码型眼镜......消费者在不同场景的细分需求催生出市场上种类繁多的镜片产品,面对行业热潮,提…

算法-二叉树-简单-二叉树的直径、将有序数组转换成二叉搜索树

记录一下算法题的学习9 二叉树的直径 题目:给你一棵二叉树的根节点,返回该树的 直径 。 二叉树的 直径 是指树中任意两个节点之间最长路径的 长度 。这条路径可能经过也可能不经过根节点 root 。两节点之间路径的 长度 由它们之间边数表示 读完题目&…

Java面向对象(高级)-- final关键字的使用

文章目录 一、 final的意义二、 final的使用(1) final修饰类(2) final修饰方法(3) final修饰变量1. 修饰成员变量1.1 举例11.2 举例2 2. 修饰局部变量2.1 举例12.2 举例2 (4)final搭…

信号功率放大器的工作原理和特点是什么

信号功率放大器是一种电子设备,用于将输入信号的功率进行放大,以达到所需的输出功率水平。它在各个领域中都有广泛的应用,包括音频放大器、射频放大器、激光功率放大器等。下面将详细介绍信号功率放大器的工作原理和特点。 工作原理&#xff…

基于 Modbus 的工业数据采集、控制(part 3)

Modbus 设备(利用 slave 模拟) Modbus 采集程序 client.c #include "client.h"modbus_t *ctx; key_t key_shm, key_msg; int shmid, msgid; struct shm *shm0; struct msgbuf msg0;void *collector(void *arg) {struct shm *p = (struct shm *)arg;while (1){sle…

ArgoWorkflow教程(一)---DevOps 另一选择?云原生 CICD: ArgoWorkflow 初体验

来自:探索云原生 https://www.lixueduan.com 原文:https://www.lixueduan.com/posts/devops/argo-workflow/01-deploy-argo-workflows/ 本文主要记录了如何在 k8s 上快速部署云原生的工作流引擎 ArgoWorkflow。 ArgoWorkflow 是什么 Argo Workflows 是…

深入理解路由协议:从概念到实践

路由技术是Internet得以持续运转的关键所在,路由是极其有趣而又复杂的课题,永远的话题。 SO:这是一个解析路由协议的基础文章。 目录 前言路由的概念路由协议的分类数据包在网络中的路由过程理解路由表的结构路由器关键功能解析 前言 在互联…

文件差分服务设计

需求 OTA(Over-The-Air)升级是一种至关重要的技术,用于更新嵌入式设备的固件或软件,以确保设备具备最新功能和修复漏洞。在OTA升级过程中,使用差异算法工具(如bsdiff、hdiffpatch和xdelta3)能够…

eNSP-直连通信实验

实验拓扑: 实验需求: 1. 按照图中的设备名称,配置各设备名称 2. 按照图中的IP地址规划,配置IP地址 3. 测试R1与R2是否能ping通 4. 测试R2与R3是否能ping通 5. 测试R1与R3是否能ping通 实验步骤: 1. 加入设备&…