【论文速读】|对BusyBox进行模糊测试:利用大语言模型和崩溃重用挖掘嵌入式系统中的漏洞

news2025/1/10 11:34:12

图片

本次分享论文:Fuzzing BusyBox: Leveraging LLM and Crash Reuse for Embedded Bug Unearthing

基本信息

原文作者:Asmita, Yaroslav Oliinyk, Michael Scott, Ryan Tsang, Chongzhou Fang, Houman Homayoun

作者单位:1. University of California, Davis 2. NetRise

关键词:模糊测试,大语言模型,嵌入式系统,BusyBox,漏洞检测

原文链接:

https://arxiv.org/pdf/2403.03897v1

开源代码:

https://github.com/asmitaj08/FuzzingBusyBox_LLM

论文要点

论文简介:

BusyBox 是一个开源软件包,集成了300多个基本的Linux命令,广泛用于基于Linux的嵌入式设备中。BusyBox中的漏洞可能会对大量设备产生严重影响。这项研究对BusyBox的使用情况进行了深入分析,发现实际嵌入式产品中普遍存在旧版本的BusyBox,从而促使研究者对BusyBox进行模糊测试。研究者提出了两种技术来提高软件测试的效率。

第一种技术利用大语言模型(LLM)生成目标特定的初始种子,大幅度提高了崩溃数量,展示了LLM在生成高效种子方面的潜力。第二种技术是重用先前获取的崩溃数据,这一策略能够在不进行传统模糊测试的情况下识别最新BusyBox版本中的崩溃,从而有效提升软件测试和嵌入式系统漏洞检测的效率。

研究目的:

随着物联网(IoT)设备的迅速增长,嵌入式设备在IoT安全中占据了重要地位。根据IoT Analytics的数据,全球IoT设备数量已达到16.7亿,年增长率为16%。由于嵌入式设备中的漏洞可能会危及整个系统的安全,对其进行持续分析显得尤为重要。固件是控制系统行为的核心,通常由许多第三方软件组件组成,这些组件在各种产品中重复使用。因此,研究者的研究重点是基于嵌入式Linux的固件,尤其是BusyBox。

BusyBox是一个关键组件,提供了300多个常用的Unix工具,非常适合资源受限的嵌入式设备。然而,它也存在较大的安全风险,因为它通常以高权限运行并处理用户输入,容易成为攻击目标。本文的研究问题包括:

1. BusyBox的不同变种在实际设备中有多普遍?如何高效识别这些变种中的类似漏洞?

2. 如何利用大语言模型(LLM)改进嵌入式Linux实用程序(如BusyBox)的模糊测试?

研究贡献:

1. 识别BusyBox的使用情况:研究发现许多实际嵌入式设备仍在使用包含已知漏洞的旧版本BusyBox,强调了更新的重要性。

2. 引入LLM种子生成技术:通过利用大语言模型(LLM)生成目标特定的初始种子,提高了模糊测试的效率和漏洞检测能力。

3. 提出崩溃重用策略:重用之前获取的崩溃输入,快速识别不同版本的相同软件组件中的重复漏洞,节省测试时间。

4. 实验证明:在最新版本的BusyBox中成功识别崩溃并进行手动分类,验证了LLM和崩溃重用技术的有效性。

引言

物联网(IoT)设备数量的迅速增长引发了严重的网络安全问题。根据IoT Analytics的数据,全球IoT设备数量达到16.7亿,年增长率为16%。这种扩展使得嵌入式设备在IoT安全中占据了重要位置,因为其中的漏洞可能会危及整个系统的安全。固件在控制系统行为的各个方面起着至关重要的作用,通常包含许多第三方软件组件,这些组件在各种产品中重复使用,放大了它们的安全问题。因此,对这些组件的持续分析是必要的。

图片

研究者的研究重点是基于嵌入式Linux的固件,尤其是BusyBox。BusyBox是一个关键组件,提供了300多个常用的Unix工具,非常适合资源受限的嵌入式设备。然而,它也存在较大的安全风险,因为它通常以高权限运行并处理用户输入,容易成为攻击目标。

研究背景

BusyBox是一个单一的二进制可执行文件,包含了多个Unix工具,专为资源受限的嵌入式设备设计。它是开源的、轻量级的,占用空间小,允许制造商在不显著增加固件大小的情况下包含必要的Linux工具。此外,它具有高度可定制性,可以配置为仅包含嵌入系统功能所需的特定工具。

然而,BusyBox也存在潜在的安全风险。它通常以高权限运行,处理用户输入,如果这些命令没有正确清理,可能导致命令注入、缓冲区溢出等漏洞。鉴于BusyBox在许多嵌入式系统中的关键角色及其潜在的安全风险,通过适当的配置、定期更新、代码审查和安全评估来确保BusyBox的安全至关重要。

相关工作

模糊测试是一种广泛使用的软件测试方法,利用覆盖率反馈来识别可能导致程序崩溃的输入,并随后分析这些崩溃以发现漏洞。模糊测试可以描述为输入测试,由于无法进行详尽的输入测试,通常采用半随机化的方式。在黑盒模糊测试中,模糊引擎生成基于一组规则或策略的输入,并将其输入到程序中,观察程序的执行覆盖情况。模糊测试过程可以重复多次,直到找到新的覆盖路径或程序崩溃。

与黑盒模糊测试相比,白盒模糊测试假设对程序内部结构的完全了解,可以利用污点分析或符号执行等技术指导输入生成。灰盒模糊测试则介于黑盒和白盒之间,通常通过代码覆盖率信息来指导输入生成。

American fuzzy lop(AFL)是一种基于覆盖率的灰盒模糊测试工具,通过编译时插桩和多种算法高效地对程序进行模糊测试。AFL++是AFL的社区驱动后继者,包含了新的增强功能、模糊策略和性能改进。AFL++提供详细的文档说明支持的所有功能。在源代码不可用的情况下,AFL++的QEMU模式可以在运行时执行内部插桩。

研究实验

本研究重点在于对BusyBox的AWK工具进行模糊测试,通过生成符合AWK语法的脚本作为初始种子,提高模糊测试效率。研究者使用OpenAI的GPT-4模型生成初始种子,并对比使用随机种子的模糊测试结果,发现使用LLM生成的种子显著提高了崩溃数量和覆盖路径。接着,研究者将收集到的崩溃输入应用到最新版本的BusyBox上,通过重用崩溃数据快速识别漏洞,而不需要进行全面的模糊测试。

图片

研究结果

通过实验,研究者验证了利用大语言模型(LLM)生成初始种子和重用崩溃数据的有效性。结果表明,使用LLM生成的初始种子可以显著提高模糊测试的覆盖率和崩溃数量。在对BusyBox进行模糊测试时,LLM生成的种子比随机生成的种子检测出更多崩溃,显现出LLM在生成高效种子方面的巨大潜力。此外,通过重用先前版本的崩溃数据,研究者能够快速识别最新BusyBox版本中的漏洞,大幅度减少了测试时间和资源投入。具体而言,研究者在最新版本的BusyBox中识别出97个崩溃,其中19个为独特崩溃。这一结果验证了崩溃重用策略在实际应用中的高效性,并为嵌入式系统的漏洞检测提供了一种创新且有效的解决方案。

图片

研究讨论

本文提出的两种技术在提升模糊测试效率和漏洞检测方面表现出了显著的效果。LLM生成的初始种子提高了模糊测试的覆盖率和崩溃数量,而重用崩溃数据则节省了测试时间和资源。此外,通过对最新版本的BusyBox进行手动崩溃分类,验证了这些技术在实际应用中的有效性。然而,这些技术也有其局限性,特别是在处理新的或不熟悉的目标时,可能需要额外的调整和优化。

论文结论

本研究提出了利用大语言模型(LLM)和崩溃重用技术来提高BusyBox模糊测试效率的方法,并通过实验证明了这些技术的有效性。研究结果表明,通过使用LLM生成初始种子和重用崩溃数据,可以显著提高模糊测试的效率和漏洞检测能力。未来的工作可以进一步扩展这些技术的应用范围,针对更多类型的嵌入式系统和固件进行测试和优化。

原作者:论文解读智能体

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1846091.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GD32F303 低功耗模式要点

我们都知道,MCU有低功耗模式,比如GD32F303芯片,就有Sleep、Deepsleep和Standby三种模式。关于这三种模式的具体使用方法,小伙伴们可以参考《GD32F30x系列用户手册》。 今天我们来聊下几个低功耗模式要点。 1、进入低功耗模式后I…

uniapp 自定义页面顶部导航栏

效果图 1.移除原生导航栏 {"path": "pages/common/homePage/homePage","style": {"navigationBarTitleText": "","navigationStyle": "custom"} } 2.获取不同手机顶部自带 电量高度、信号、时间导航栏…

3D模型在电商行业的应用有哪些?

3D模型在电商行业的应用广泛且多样化,以下是几个主要的应用领域: 1、商品展示: 3D立体展示技术能够利用商品的3D模型进行全方位的展示,支持720旋转和任意缩放,使得消费者能够更直观地了解产品的外观、结构和特点。这…

LearnOpenGL - Android OpenGL ES 3.0 绘制纹理

系列文章目录 LearnOpenGL 笔记 - 入门 01 OpenGLLearnOpenGL 笔记 - 入门 02 创建窗口LearnOpenGL 笔记 - 入门 03 你好,窗口LearnOpenGL 笔记 - 入门 04 你好,三角形OpenGL - 如何理解 VAO 与 VBO 之间的关系LearnOpenGL - Android OpenGL ES 3.0 绘制…

世界财富 500 强公司走向 Web3,加密开发者需求量大增

原文:https://www.coinbase.com/blog/the-state-of-crypto-the-fortune-500-moving-onchain 作者:Coinbase 编译:TinTinLand 美国顶级上市公司在链上的活动量正在突破历史。根据 Coinbase 委托 The Block 进行的研究,全球财富 …

在阿里云服务器Linux系统上从头到尾实现Webapp的部署(安装卸载JDK、安装Tomcat、安装配置MySQL)

输入yum list | grep jdk 选择 devel是软件包中的典型命名格式 devel表示这个包是开发工具相关的 里面包含内容是最完整的 x86表示cpu架构是x86_64 还有openjdk表示开源版本 输入yum install java-1.8.0-openjdk-devel.x86_64 开始下载 遇到问你 is this ok? 输入y表示ok 输…

Anthropic 的 Claude 3.5 Sonnet 在企业人工智能竞赛中胜过 OpenAI 和谷歌

全球领先的人工智能研究公司 Anthropic 宣布推出 Claude 3.5 Sonnet,这是一款集无与伦比的性能和成本效益于一身的开创性人工智能模型。克劳德模型系列的最新迭代产品将彻底改变企业人工智能的格局,以低于竞争对手的成本为企业提供最先进的功能。 Anthr…

Springboot拓展之整合邮件 JavaMail的使用与实操

邮件 电子邮件仍然是我们企业间交往的一种非常常见的方式 发送简单邮件 第一步首先导入坐标 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-mail</artifactId><version>2.6.13</version&…

自学新标日第十六课(完结)

第十六课 单词 单词假名声调词义操作そうさ1操作&#xff0c;操纵機械きかい2&#xff0c;1机械&#xff0c;机器旅行会社りょこうがいしゃ4旅行社営業部えいぎょうぶ3营业部アイティー産業アイティーさんぎょう5it产业&#xff0c;信息技术产业製品せいひん0产品建築家けんち…

【Linux必备工具】自动化构建工具makefile的使用详解

目录 引言 Makefile 简介 依赖关系与依赖方法 make运行规则 依赖关系示例 依赖方法 Makefile 工作原理 示例代码 清理项目与伪目标 清理示例 .PHONY总是被执行 文章手稿&#xff1a; 文章手稿见文末~ 引言 项目构建时遇到的各种挑战如文件编译顺序、库链接、依赖…

深入理解Java并发锁

在Java中&#xff0c;并发锁是用来控制多个线程对共享资源的访问&#xff0c;确保数据的一致性和完整性。Java提供了多种并发锁机制&#xff0c;包括内置锁&#xff08;synchronized&#xff09;、显示锁&#xff08;如ReentrantLock&#xff09;、原子变量、并发容器以及一些高…

【系统设计】如何权衡范式与反范式设计

一、什么是范式设计与反范式设计 1.1、范式设计&#xff08;Normalization&#xff09; 定义&#xff1a; 范式设计是数据库设计中最基础的设计原则之一&#xff0c;它主要通过规范化数据模型&#xff0c;减少数据冗余和数据不一致的问题。 常用的范式&#xff1a; 第一范式…

Nginx 负载均衡实现上游服务健康检查

Nginx 负载均衡实现上游服务健康检查 Author&#xff1a;Arsen Date&#xff1a;2024/06/20 目录 Nginx 负载均衡实现上游服务健康检查 前言一、Nginx 部署并新增模块二、健康检查配置2.1 准备 nodeJS 应用程序2.2 Nginx 配置负载均衡健康检查 小结 前言 如果你使用云负载均衡…

js中的window和Window

示例&#xff1a; window.name name; console.log(window.name) // name console.log(Window.name) // Window由此可见Window和window是有区别的。 console.log(Object.prototype.toString.call(Window)); // [object Function] console.log(Object.prototype.toString.c…

论文:R语言数据分析之机器学习论文

欢迎大家关注全网生信学习者系列&#xff1a; WX公zhong号&#xff1a;生信学习者Xiao hong书&#xff1a;生信学习者知hu&#xff1a;生信学习者CDSN&#xff1a;生信学习者2 一、研究背景 全球范围内&#xff0c;乳腺癌是导致癌症发病率和死亡率的主要疾病之一。根据2018年…

微软 Florence-2:多功能视觉模型

微软开发的 Florence-2 系列模型&#xff0c;使用提示&#xff08;prompt-based approach&#xff09;来处理不同的视觉任务。 通过改变提示&#xff0c;模型可以执行不同的任务&#xff0c;例如&#xff1a; 描述&#xff08;Caption&#xff09;详细描述&#xff08;Detail…

代码随想录算法训练营第二十八天

题目&#xff1a;134. 加油站 暴力方法 暴力的方法很明显就是O(n^2)的&#xff0c;遍历每一个加油站为起点的情况&#xff0c;模拟一圈。 如果跑了一圈&#xff0c;中途没有断油&#xff0c;而且最后油量大于等于0&#xff0c;说明这个起点是ok的。 暴力的方法思路比较简单…

NGINX_十六 nginx 错误页面配置

十六 nginx 错误页面配置 nginx错误页面包括404 403 500 502 503 504等页面&#xff0c;只需要在server中增加以下配置即可&#xff1a; #error_page 404 403 500 502 503 504 /404.html;location /404.html {root /usr/local/nginx/html;}注意&#xff1a; /usr/local…

PostgreSQL性能优化之分区表 #PG培训

在处理大规模数据时&#xff0c;PostgreSQL的性能优化是一个非常重要的话题&#xff0c;其中分区表&#xff08;Partitioned Tables&#xff09;是提高查询和数据管理效率的重要手段。本文将详细介绍PostgreSQL分区表的概念、优势、创建与管理方法以及一些常见的优化策略。 #P…