【论文速读】| CHEMFUZZ: 大语言模型辅助模糊测试用于量子化学软件缺陷检测

news2026/2/14 14:53:35

本次分享论文为：CHEMFUZZ: Large Language Models-assisted Fuzzing for Quantum Chemistry Software Bug Detection

基本信息

原文作者：Feng Qiu, Pu Ji, Baojian Hua, Yang Wang

作者单位：中国科学技术大学软件工程学院，美国约翰霍普金斯大学计算机科学系

关键词：量子化学软件，模糊测试，大语言模型，安全测试

原文链接：

https://csslab-ustc.github.io/publications/2023/chemfuzz.pdf

开源代码：暂无

论文要点

论文简介：本论文介绍了一个称为CHEMFUZZ的新框架。该框架借助大语言模型（LLMs）进行量子化学软件的模糊测试，目的是发现软件潜在的漏洞。CHEMFUZZ通过使用LLMs生成既语法正确又语义有效的输入文件，并对这些文件进行修改，能够识别出量子化学软件中的各类漏洞，从而增强了软件的安全性与可靠性。研究中对三种流行的大语言模型——GPT-3.5、Claude-2和BART——进行了测试，结果显示CHEMFUZZ成功识别了40个唯一的漏洞，并实现了17.4%的代码覆盖率。

研究目的：研究者开发了一种名为CHEMFUZZ的自动化模糊测试框架。该框架通过利用大语言模型，旨在提升量子化学软件测试的有效性与效率，从而填补了当前研究在该领域的空白。

研究贡献：

1.首次将LLMs应用于量子化学软件的模糊测试，提出了一种新的测试方法。

2.实现了CHEMFUZZ原型，验证了方法的可行性。

3.通过大量实验，评估了CHEMFUZZ的有效性和性能，成功检测出多个实际漏洞。

引言

在人工智能赋能下的科学研究新纪元中，量子化学软件已成为科学研究与化学工业领域的关键工具。但是，软件固有的漏洞问题对其可靠性和安全性构成了严重威胁，迫切需要更高效的漏洞检测方法。面对量子化学软件对于复杂输入输出和专业化学知识的高要求，传统测试方法显得力不从心。本研究提出了一个创新性解决方案——CHEMFUZZ。这一框架通过大语言模型（LLMs）的辅助，进行模糊测试，能够智能地生成和修改测试用例以高效地发现软件漏洞。实验结果表明，CHEMFUZZ不仅大幅提升了漏洞检测的效率和覆盖率，而且为量子化学软件的安全性测试探索了新途径。

挑战和动力

量子化学软件在科研和工业领域扮演着核心角色。然而，其庞大的代码库和复杂性导致漏洞成为常态。随着这些软件越来越多地运行在云服务和超级计算机上，任何漏洞都可能引发严重后果，比如程序故障或数据丢失。面临这样的挑战，传统软件测试方法因缺少专业的化学知识和高效的测试用例生成机制而不尽人意。为此，研究者提出了CHEMFUZZ框架，这一框架集成了先进的大语言模型技术，专门设计来智能生成和修改测试用例。这样不仅能显著提高量子化学软件测试的效率和准确性，还能保障软件的可靠性和安全性，支持科学研究和化工产业的进步。

研究设计

为了解决量子化学软件测试的复杂性，本文介绍了CHEMFUZZ框架，这是一个采用了创新模糊测试策略的设计。其核心在于运用大语言模型（LLMs）的能力辅助测试。CHEMFUZZ分为两个主要模块：变异模块和分析模块。变异模块负责将种子输入文件通过智能变异，以结构和数据为基础生成新的测试用例；分析模块则聚焦于收集代码覆盖率信息，并利用LLMs对测试执行结果中的异常进行分析。这个框架将测试用例的生成和结果的分析自动化，显著提升了测试的效率和精确度。通过精心设计的算法和明确的实施机制，CHEMFUZZ致力于为量子化学软件的安全性提供更高级别的保护，并推进相关的软件测试技术发展。

研究评估

本文通过对CHEMFUZZ框架进行了多轮实验的全面评估。实验结果显示，CHEMFUZZ在现实世界的量子化学软件中极其有效，成功识别了40个之前未发现的漏洞，并达到了17.4%的代码覆盖率。此外，本文还比较了GPT-3.5、Claude-2和Bart三种大语言模型在测试中的性能，其中Claude-2在生成测试案例的质量和效率上表现最佳。这些实验不仅证明了CHEMFUZZ在提升量子化学软件安全性方面的有效性，还展示了大语言模型在软件测试领域的巨大潜力和实用价值。

研究论述

CHEMFUZZ的提出和实验验证，标志着量子化学软件测试领域的一次重大进步。本研究通过结合先进的大语言模型（LLMs），不仅显著提升了测试用例的生成效率和漏洞检测的准确性，还为软件测试领域引入了新的视角和方法。实验结果证明了CHEMFUZZ在实际应用中的有效性，成功检测出多个重要漏洞，展示了其在确保量子化学软件安全性方面的巨大潜力。此外，本研究还探索了不同大语言模型在测试过程中的表现，为未来的研究提供了宝贵的经验和启示。

论文结论

CHEMFUZZ作为一种创新的量子化学软件模糊测试框架，成功地将大语言模型（LLMs）的强大能力引入到软件漏洞检测领域。通过详细的实验验证，CHEMFUZZ不仅在提高测试效率和扩大代码覆盖率方面展现出显著成效，还成功检测出多个关键漏洞，为量子化学软件的安全性和可靠性提供了更加坚实的保障。本研究不仅为量子化学软件测试技术的发展开辟了新的道路，同时也为利用LLMs进行软件测试提供了新的视角和方法论，具有重要的理论意义和实践价值。

原作者：论文解读智能体

润色：Fancy

校对：小椰风