【论文速读】| 通过大语言模型从协议实现中推断状态机

news2024/10/6 18:29:26

图片

本次分享论文:Inferring State Machine from the Protocol Implementation via Large Language Model

基本信息

  • 原文作者:Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao

  • 作者单位:南京大学,奇安信集团,东南大学网络科学与工程学院

  • 关键词:大语言模型, 协议逆向工程, 状态机, 代码分析

  • 原文链接:https://arxiv.org/html/2405.00393v1

  • 开源代码:暂无

论文要点

论文简介:本文提出了一种利用大语言模型(LLM)从网络协议实现中推断状态机的方法。此方法通过文本嵌入技术,使LLM能够深入分析协议实现代码的细节,并通过系统的提示工程识别和推断潜在的状态机。实验结果表明,该方法在六种不同的协议实现中的平均准确率超过90%,且在与协议模糊测试工具AFLNet集成时,能显著提高代码覆盖率。

研究目的:针对动态分析可能因测试覆盖不全而遗漏关键状态转换,以及静态分析在处理复杂代码结构时的挑战,本文提出了一种基于大语言模型(LLM)的状态机推断方法。该方法旨在通过文本嵌入技术和提示工程技术,利用大语言模型的深度理解和代码生成能力,从协议实现代码中准确推断出状态机,以提高协议安全性分析的效率和准确性。

研究贡献:

1. 首次将大语言模型应用于从协议实现中推断状态机的问题,展示了LLM在处理复杂协议实现中的潜力;

2. 开发了一种名为PROTOCOLGPT的工具,自动化推断状态机;

3. 通过一系列实验验证了LLM在提取状态机方面的有效性,使用PROTOCOLGPT揭示了不同实现间的状态机差异,并提高了协议模糊测试工具的效果。

引言

本文首先介绍了状态机在网络协议分析中的重要性,并探讨了传统分析方法的局限性。接着,提出采用大语言模型(LLM)来克服这些限制,通过文本嵌入技术深入分析协议实现代码,并系统地通过提示工程技术推断潜在的状态机。该方法的优势在于能够处理复杂的代码结构,并且通过实验验证,显示出其在协议模糊测试中超过90%的准确率和显著提升的代码覆盖率。

研究背景

在网络协议分析领域,准确提取状态机对于验证协议安全性和理解协议功能是至关重要的。传统的状态机推断方法主要依赖动态分析和静态分析:动态分析受限于测试覆盖范围,而静态分析则难以应对复杂的代码结构。近年来,自然语言处理技术已开始应用于从协议规范文档中提取状态机,但RFC文档的模糊性常常导致不同实现之间的差异,从而增加了协议安全分析的难度。因此,开发一种新的状态机推断方法以应对这些挑战变得尤为重要。

研究动机

随着网络协议的复杂性日益增加,传统状态机推断方法面临众多挑战。尤其是由于RFC文档固有的模糊性,不同开发者可能会采用不同的实现方式应对同一协议规范,导致实现间存在显著差异。这些差异不仅妨碍了状态机的准确推断,还可能成为网络安全的潜在风险点。此外,尽管现有的自然语言处理技术能够从文档中提取信息,但在处理源代码时往往显得不足。因此,本研究旨在利用大语言模型(LLM)的强大代码分析能力,改进状态机推断方法,以提高协议实现分析的准确性和安全性。

图片

PROTOCOLGPT

PROTOCOLGPT是一种创新的工具,它利用大语言模型(LLM)从协议实现代码中推断状态机。通过精细的提示工程和文本嵌入技术,PROTOCOLGPT能够指导LLM深入分析复杂的代码结构,并准确推断出状态机。这款工具不仅提高了状态机推断的准确性,而且通过自动化的代码分析过程显著提升了分析效率。此外,PROTOCOLGPT还集成了代码预处理功能,优化了代码段的分析过程,确保从庞大且复杂的协议实现中高效、准确地提取状态机信息。

图片

实验评估

为验证PROTOCOLGPT的效果,本研究对六种不同的协议实现进行了状态机推断实验。通过比较PROTOCOLGPT、传统方法和未使用代码辅助的LLM模型,实验结果显示PROTOCOLGPT在状态机推断的准确率和效率上均有显著提升,平均准确率超过90%。此外,PROTOCOLGPT推断出的状态机被应用于协议模糊测试工具AFLNet,成功提高了代码覆盖率,进一步证明了其在实际应用中的有效性和实用性。这些实验不仅展示了PROTOCOLGPT的技术优势,也突显了大语言模型在网络协议安全分析中的潜力。

图片

论文结论

本研究成功开发了PROTOCOLGPT工具,该工具融合了大语言模型(LLM)的先进能力,从而有效地从协议实现代码中推断状态机。实验结果证明,PROTOCOLGPT能够准确地从复杂的协议代码中提取状态机,其准确性和效率均优于传统方法。

此外,PROTOCOLGPT在提升协议模糊测试工具AFLNet的代码覆盖率方面也取得了显著效果。这表明,利用LLM进行状态机推断不仅能提升网络协议分析的质量,还能增强网络安全防护的能力。本研究为未来网络协议分析与安全领域提供了新的思路和工具。

原作者:论文解读智能体

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1814142.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

12V转5V3A固定输出电源转换芯片

AH8642A是一款高效的12V转5V固定输出电源转换芯片,适用于车载充电器、适配器以及电池充电器等应用场景。该芯片具有SOP-8封装,使得其具有易于安装和组装的特性,非常适合于生产厂家和消费者使用。 其主要特点包括: 1. 固定输出电压…

【Win】打造个性化的Windows锁屏:从移除小部件到隐藏锁屏

移除锁屏小部件 如果您是Windows 11用户并且安装了最新版本的Windows 11,您可能已经注意到锁屏上的小部件。如果您不希望Windows 11在锁屏上显示小部件,您可以禁用此功能。本文展示了如何在Windows 11中移除锁屏小部件。 要移除Windows 11的锁屏小部件&…

通过自定义线程池初步理解JAVA线程池

减少线程上下文切换 生产者提供的任务对象交给线程池,线程池没有线程的话就创建线程执行它。有线程但是数量不足就放入(任务)阻塞队列。 自定义线程池 组件: 线程池:存储可重用的线程(相当于消费者&#x…

快速上手Selenium:环境搭建详解

一、下载安装python 安装Python是进入编程世界的第一步,下面将详细指导您如何在不同操作系统上安装Python,并确保安装成功后的环境配置。具体分析如下: 下载Python 选择版本:打开Python官网的下载页面,根据需求选择适…

Java 反射的基本概念及其在框架中的应用

Java反射(Reflection)是Java语言中的一种特性,它允许程序在运行时检查和操作类、接口、字段和方法。反射提供了一种机制,使得Java程序可以动态地加载类、创建对象、调用方法、访问和修改字段。反射是Java动态性的重要体现&#xf…

python __init__.py 文件案例练习

通过一些案例练习来更好地理解 __init__.py 的用法。我们将创建一个简单的 Python 包,并在 __init__.py 中实现不同的功能。 案例一:基本包结构 创建包目录结构: mypackage/__init__.pymodule1.pymodule2.py实现 module1.py 和 module2.py: # mypackage/module1.py def fu…

微服务开发与实战Day05 - 服务保护和分布式事务

一、服务保护和分布式事务 二、雪崩问题 微服务调用链路中某个服务故障,引起整个链路中的所有微服务都不可用,这就是雪崩。 1. 雪崩问题产生的原因是什么? 微服务相互调用,服务提供者出现故障或阻塞;服务调用者没有做…

OpenGauss数据库-9.模式管理

第1关:创建模式 gsql -d postgres -U gaussdb -W passwd123123; CREATE DATABASE test_db; \c test_db passwd123123 CREATE SCHEMA new_schema AUTHORIZATION gaussdb; CREATE TABLE new_schema.mytable (my_id int, my_info varchar(36)); 第2关:管理…

asyncio协程提高执行效率

from fastapi import FastAPI import asyncioapp FastAPI()async def task1():# 模拟执行任务1print("开始执行任务1")await asyncio.sleep(1)print("结束执行任务1")return "Result from Task 1"async def task2():# 模拟执行任务2print("…

Linux:进程优先级

文章目录 基本概念查看进程优先级PRI & NI 更改优先级Linux中进程优先级的实现原理上下文 基本概念 CPU资源分配的先后顺序,就是指进程的优先权(priority)。 优先权高的进程有优先执行权利。配置进程优先权对多任务环境的Linux很有用&a…

【ARM Cache 与 MMU 系列文章 7.4 -- ARMv8 MMU 配置 寄存器使用介绍】

请阅读【ARM Cache 及 MMU/MPU 系列文章专栏导读】 及【嵌入式开发学习必备专栏】 文章目录 MMU 转换控制寄存器 TCR_ELxTCR_ELx 概览TCR_ELx 寄存器字段详解TCR 使用示例Normal MemoryCacheableShareability MMU 内存属性寄存器 MAIR_ELxMAIR_ELx 寄存器结构内存属性字段Devic…

AIGC绘画设计提示词篇:MJ绘画提示词midjourney

开通账号半个多月了,把这小半个月用到的比较好的提示词分享给大家。先说两个功能点 一、Vary(Subtle) & Vary(Strong)功能: Vary(Subtle)是对图片进行微小的调整,点击“Vary(Subtle)”后新生成的图片与原图的变化差异极小,仅在细节处做了细微调整。 点击“Var…

佐西卡在美国InfoComm 2024展会上亮相投影镜头系列

6月12日至14日,2024美国视听显示与系统集成展览会将在拉斯维加斯会议中心盛大开幕。这场北美最具影响力的视听技术盛会,将汇集全球顶尖的视听解决方案,展现专业视听电子系统集成、灯光音响等领域的最新技术动态。 在这场科技盛宴中&#xff0…

UE5 Sequencer 使用指导 - 学习笔记

https://www.bilibili.com/video/BV1jG411L7r7/?spm_id_from333.337.search-card.all.click&vd_source707ec8983cc32e6e065d5496a7f79ee6 Sequencer 01 1.1 调整视口 调整窗口数量 调整视口类型为Cinematic视口 视口显示网格,或者条件参考线 1.2 关卡动画与…

Ubuntu22.04之解决:emacs无法输入中文问题(二百四十)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

全域推广是什么意思?业务范围有哪些?

随着全域时代的到来,与全域相关的各种概念不断涌现,引发了一轮又一轮的热议。在此背景下,全域推广一经出现便一跃成为了互联网的有一大热词,以全域推广是什么意思为代表的相关问题也成为了多个创业者社群中的热点话题。 相关资料显…

Windows10上安装LabVIEW社区版

LabVIEW全称Laboratory Virtual Instrument Engineering Workbench(实验室虚拟仪器工作台)。LabVIEW是美国国家仪器有限公司(National Instruments, NI)最核心的软件产品。LabVIEW是图形化编程语言,与C等文本编程语言相比,它在编程过程中有更详细的提示信…

电影票小程序API接口的实现方法

电影票小程序API接口的实现方法涉及后端服务的开发和设计。以下是一些关于如何实现电影票小程序API接口的基本步骤和考虑因素: 1. 需求分析 确定需要哪些API接口来支持小程序的功能,如查询电影、影院、座位信息,购票,查看订单等…

彩虹图纸管理软件的图纸电子化管理解决方案?

彩虹图纸管理软件的图纸电子化管理解决方案为企业提供了一套全面、高效的图纸管理方案。以下是该解决方案的详细概述: 1、图纸扫描与数字化: 彩虹图纸管理软件支持将纸质图纸进行扫描,生成高质量的电子文件,如DWG、PDF等格式。 …

逻辑题 :谁是凶手?

设 : A 甲是凶手 这个是题中1的 如果甲不是凶手 我们假设A条件是甲是凶手,取反就可是甲不是凶手,B 乙是凶手 这个是题中1的 如果乙或者是凶手 我们假设B条件乙是凶手C 乙是知情人 这个是题中1的 或者是知情人 我们假设C条件乙是知情人D …