编码数据集生成框架 UnitGen 0.4.0:代码文档生成、测试代码生成

news2024/9/21 12:36:56

UnitGen 是我们从 UnitEval 拆分出来的代码数据集生成项目,旨在为基于开源模型供的私有化部署提供更好的编码数据集。

在结合开源模型 + AutoDev 插件之后,你可以使用 UnitGen 结合企业内部现有的代码生成微调数据集,以让模型生成的代码更适合组织内部的需要,提升开发人员效率。

GitHub:https://github.com/unit-mesh/unit-gen

使用文档:https://gen.unitmesh.cc

UnitGen 数据集生成框架

如在先前的文章所介绍,为了保持 UnitMesh 开源 AI 辅助编码方案的完整性,即 UnitGen + AutoDev + UnitEval 工具的一体化,我们所秉持的设计原则是:

  • 统一提示词(Prompt)。统一工具-微调-评估底层的提示词。

  • 代码质量管道(Pipeline)。诸如于代码复杂性、代码坏味道、测试坏味道、API 设计味道等。

  • 可扩展的质量阈。自定义规则、自定义阈值、自定义质量类型等。

基于上述的思想,我们所实现的 UnitGen 架构所如所示:

ce1bf0978be2915c2d6a577b7237a33c.png

在实现上主要分为两部分:

  • 基于 LanguageWorker 的上下文策略实现。即由于不同语言的语法差异,如文档位置、数据 + 行为实现方式,我们需要根据需要做一些差异化的实现。

  • 基于 ArchGuard 的质量检查。我们会先进行一些基本的长度、是否minifid 检查(JavaScript)等。ArchGuard 只是作为阈值的一部分,以支持:代码、测试代码、MVC 代码的质量检查。

在底层,我们使用了自己开源的 Chapi 来实现对于语言的 AST(抽象语法树) 转换和处理分析,以更好处理语言与数据结构的问题。Chapi 是一个开源的通用层次抽象解析器与信息转换器,它可以将不同编程语言的源代码转换为统一的层次抽象模型。

与此同时,由于架构治理平台 ArchGuard 本身也是基于 Chapi 作为其分析引擎的核心语法处理,所以两者可以实现很好的兼容 + 互补。诸如于在完善 UnitGen 功能的同时,ArchGuard 的质量功能也在持续完善。

UnitGen 文档数据集生成

在文档数据生成上,与先前的补全数据集生成,文档的生成逻辑非常简单 —— 找到对应的注释块(类和方法级),然后生成即可。甚至于,我们可以直接使用代码来解释:

container.DataStructures.forEach { dataStruct ->
      // build class comment
      val methodCommentIns =
          dataStruct.Functions
            .filter { it.Name != "PrimaryConstructor" }
              .map { function ->
                  // build method comment
              }
      // return comments
    }

在 Chapi 里代码文件是一个 Container,Container 内包含一系列的 DataStructures,每个 DataStructure 则包含了一系列的 Functions。因此,在实现上只需要先构建出所有的注释块,做一些基本的质量检查,再与对应的代码块结合。

UnitGen 测试数据集生成

由于 AutoDev 支持的是整个测试文件的生成,因此在生成测试时要考虑到测试框架和技术框对于项目的影响,所以还需要读取项目的依赖信息。

除此,UnitGen 在测试数据生成上,同样分为类级和方法级,但是方法级的生成比类级稍微复杂一些 —— 需要分析出被测函数。

获取框架与测试框架信息

框架等信息的分析,其实就是 SCA(Software Composition Analysis)软件成分分析。在实现上,我们需要分析出项目的依赖文件、依赖信息,并尝试给出主要的框架。诸如于:

  • 从 package.json 知道项目使用的是 React 框架,并使用了 Jest 作为测试框架

  • 从 build.gradle 中获取项目使用是 Spring Boot 框架,并使用了 spring-boot-starter-test 作为测试框架。

所以,我们在 UnitGen 中创建了 ProjectContext 和 TestStack 来管理它们。而在实现上,由于我们在开源的架构治理平台 ArchGuard 中编写了依赖分析模块 analyser_sca ,随后根据不同的语言编写主流的框架和映射。

函数级测试数据集生成

对于文件级的测试生成来说,实现起来非常简单 —— 通过包名和类名来映射,就能通过测试文件找到被测试文件。但是,对于微调来说,会导致样本过少。与此同时,由于我们通常更想要的实现某个方法的测试,所以需要构建和分析 CG(Call graph,函数调用图),以正确匹配测试方法和被测试方法 —— 当时这并非 100% 正确的,需要测试方法在被测试方法最后调用。

而正好我们在 Chapi 中实现了对应的 CG 静态分析,所以可以直接遍历 Function 的 FunctionCalls 就能实现上述的功能。

dataStruct.Functions.mapIndexed { _, function ->
    function. c.map {
        val canonicalName = it.Package + "." + it.NodeName + ":" + it.FunctionName
        if (it.NodeName != underTestFile.NodeName) return@map
        val originalContent = underTestFunctionMap[canonicalName] ?: return@map
        if (originalContent.isBlank() || function.Content.isBlank()) return@map
        // 生成测试指令
    }
}

而考虑到不同的开发人员编写测试的习惯不一样,所以还需要检查一下测试代码的命名规则:

val namingStyle = dataStruct.checkNamingStyle()

人生苦短,我有:https://github.com/phodal/chapi 。

Chapi 支持主流语言(我喜欢使用的)的 FunctionCall,所以在这些语言的 FunctionCall 功能相对比较完整:

96a5956c8b665c58da8b21f1c63485c6.png

关于 Chapi 的更多介绍见:https://chapi.phodal.com/ 。

其它

在外部测试时,我们使用了 ThoughtWorks 开源项目作为核心,并结合一些框架的官方 examples,诸如 Spring Data Examples, ArchUnit Examples,以更好地辅助开发人员编写对应的测试。

同时,在生成第二个版本的 AutoDev Coder 数据集时,我们人工 review 了一部分代码,结合 OpenAI 重构了注释和一些测试的实现,以提升数据级的质量 —— 以实现真正的人工-智能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1365968.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【大数据进阶第三阶段之Hive学习笔记】Hive安装

目录 1、环境准备 2、下载安装 3、配置环境变量 4、配置文件 4.1、配置hive-env.sh ​编辑4.2、配置hive-site.xml 5、上传配置jar 6、启动 1、环境准备 安装hadoop 以及 zookeeper、mysql 【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建-CSDN博客 《z…

AntDB内存管理之内存上下文之如何使用内存上下文

5.如何使用内存上下文 使用内存上下文之前,我们需要先对其进行创建。AntDB启动时已经创建并初始化好了部分内存上下文,例如:TopMemoryContext。这个TopMemoryContext是所有内存上下文的父节点或者祖先节点。一般我们创建的内存上下文都在Top…

【docker笔记】Docker容器数据卷

Docker容器数据卷 卷就是目录或者文件,存在于一个或多个容器中,由docker挂载到容器,但不属于联合文件系统,因此能够绕过Union File System提供一些用于持续存储或共享数据的特性 卷的设计目的就是数据的持久化,完全独…

西南地区直播产业市场规模分析,透视成都直播基地产业全景

直播电商已进入全民化发展,作为一种新型的电子商务形式,成都直播产业园利用互联网渠道进行营销,为用户提供更具高度互动性、专业性、丰富、直观、实时的全面购物体验。本年度,西南地区直播产业市场规模宏大,以成都为代…

mysql服务多实例运行

1、官网下载mysql安装包 https://downloads.mysql.com/archives/community/ 2、解压安装包 tar -zxvf mysql-8.1.0-linux-glibc2.28-aarch64.tar.xz -C /usr/localmv /usr/local/mysql-8.1.0-linux-glibc2.28-aarch64 /usr/local/mysql 3、创建mysql用户组 groupadd…

【面试】 前端竞争压力大?揭秘让你们学后端的真实动机!

前端开发属于程序员吗? 网友是这样回答的: 看完前端同学的评论,我悟了,你们让人都去学后端卷,然后减小前端竞争压力是吧? 哈哈哈,你们这帮老6…… 于是我去拿出了我收藏的 某前端招聘JD来盘一盘 那些…

APP加固技术及其应用

文章目录 引言 APP加固的概念 APP加固的方案 APP加固在实际开发中的应用 总结 引言 在移动应用开发过程中,APP加固技术起到了非常重要的作用。APP加固是将apk文件进行混淆加密,以防止别人反编译获取我们的源码和资源文件。目前市场上主流的APP加固…

【ros笔记】urdf文件

urdf文件属于xml文件&#xff0c;他的标签有&#xff1a; <robot name"robot_name"><!-- 看的见摸的着刚体用link --><link name"base_link"><!-- 可视化部分 --><visual><!-- 几何形状 --><geometry><!-- b…

VOSviewer分析知网文献以及图片导出

目录 1.结果展示&#xff1a;2.操作步骤&#xff1a;2.1创建图片&#xff1a;2.2调整图片&#xff1a;2.3保存图片&#xff1a; 小结&#xff1a; 1.结果展示&#xff1a; 2.操作步骤&#xff1a; 2.1创建图片&#xff1a; 在知网上搜索关键词&#xff0c;然后将所有文献以相…

SpringBoot怎么写一个自定义的starter,Gradle依赖引入starter的Jar包

1.新建一个Spring的项目myasset-spring-boot-starter 项目结构如下: 注意:不需要Application启动类 和 application.yml/application.properties文件 2. resources下添加spring.factories文件 # Auto Configure org.springframework.boot.autoconfigure.EnableAutoConfigu…

Prometheus实战篇:Prometheus监控rabbitmq

Prometheus实战篇:Prometheus监控rabbitmq 准备环境 docker-compose安装rabbitmq 这里注意rabbitmq需要暴露2个端口 docker-compose.yaml version: 3 services:rabbitmq:image: rabbitmq:3.7.15-managementcontainer_name: rabbitmqrestart: alwaysvolumes:- /data/rabbitmq…

计算机网络(超级详细笔记)

使用教材计算机网络&#xff08;第8版&#xff09;&#xff08;谢希仁&#xff09; 第一章&#xff1a;概述 第二章&#xff1a;物理层 第三章&#xff1a;数据链路层 第四章&#xff1a;网络层 第五章&#xff1a;运输层 第六章&#xff1a;应用层 目…

【MIdjourney】图像角度关键词

本篇仅是我个人在使用过程中的一些经验之谈&#xff0c;不代表一定是对的&#xff0c;如有任何问题欢迎在评论区指正&#xff0c;如有补充也欢迎在评论区留言。 1.侧面视角(from side) 侧面视角观察或拍摄的主体通常以其侧面的特征为主要焦点&#xff0c;以便更好地展示其轮廓…

LVGL,tabview用实体按键切换tab的事件回调实现

文章目录 背景回调中可以实现的功能在选定的tab容器中创建其他控件 背景 接着上一篇&#xff08;LVGL&#xff0c;tabview用实体按键切换tab如何实现&#xff09;的问题&#xff0c;当tabview的tab可以绑定实体按键后&#xff0c;每次切换的触发事件回调中能做些什么呢&#x…

mysql在linux下的安装详细步骤

文章目录 前言一、从官网下载mysql8二、安装总结 前言 系统环境Centos7. 一、从官网下载mysql8 官网地址&#xff1a;https://dev.mysql.com/downloads/mysql/ 如果操作系统是centos可以选择Linux-Generic 二、安装 将下载的mysql tar包解压 tar -xvf mysql mysql-8.x.x-l…

深入了解Pytest中的Mocking:简化测试,避免依赖问题!

在软件开发中&#xff0c;测试是确保代码质量的关键步骤之一。而在测试中&#xff0c;经常需要模拟&#xff08;Mock&#xff09;一些对象或函数&#xff0c;以确保测试的独立性和可靠性。在Pytest中&#xff0c;Mocking是一个强大的工具&#xff0c;能够简化测试过程&#xff…

基于机器视觉的车牌检测-边缘检测因子的选择

车牌检测概述 车牌识别在检测报警、汽车出入登记、交通违法违章以及移动电子警察方面应用广泛。车牌识别过程为&#xff1a;首先通过摄像头获取包含车牌的彩色图像&#xff1b;然后进行车牌边缘检测&#xff0c;先粗略定位到车牌位置&#xff0c;再精细定位&#xff1b;最后根…

Qt/QML编程学习之心得:Linux下Thread线程创建(26)

GUI设计中经常为了不将界面卡死,会用到线程Thread,而作为GUI设计工具,Qt也提供了一个这样的类,即QThread。 QThread对象管理程序中的一个控制线程。线程QThread开始在run()中执行。默认情况下,run()通过调用exec()启动事件循环,并在线程内运行Qt事件循环。 也可以通过…

QGIS如何分类显示数据

问题 将经纬度点根据不同类别分类显示 步骤&#xff1a;右键 --》属性 效果 所有分类图层显示与隐藏

ANSYS Zemax OpticStudio 各版本安装指南

ANSYS Zemax OpticStudio下载链接 https://pan.baidu.com/s/1eIJjF93-ZC2CZWn3DGXkkA?pwd0531 1.解压安装包&#xff1a;①鼠标右击【Zemax2024(64bit)】压缩包②选择电脑上安装的解压软件&#xff08;如&#xff1a;360压缩&#xff09;③点击【解压到 Zemax2024(64bit)】。…