风靡万千软件开发者:揭秘华为研发代码大模型是如何实现的?

news2024/9/24 19:18:43

作者:陈泰红

秉持“自己的降落伞,自己先跳”的原则,由公司装备部门牵头,携手华为云PaaS作为基础能力提供方,与公司各产品线共同研发面向产业的代码大模型。在研发过程中,我们已取得初步成果,为了巩固各产品线的代码生成探索经验,我们将产品线研发成果迅速投入业务应用。在此基础上,我们总结了前期的方法和经验,期待更多产业的加入与交流,共同推动产业代码大模型的演进与推广落地。

本文深入探讨了当前研发大模型在实际产品中代码生成能力所面临的挑战,阐述了探索的总体思路、数据标准与语料层次、演进策略以及模型训练方案设计。同时,还介绍了RAG方案设计以及某产品线Dopra在真实场景中的应用,并总结了一套可快速复制的方法论。最后,对未来发展趋势进行了讨论:研发大模型是否有可能取代程序员?

1 产业研发大模型面临的挑战

华为拥有超过10万名代码开发者,每天新增代码行数达千万级别。在这种情况下,提高开发过程的效率变得至关重要。研发过程涵盖了需求理解、系统分析与设计、软件开发(包括手工编写代码、测试用例、代码检视)、系统集成与验证以及研发维护等环节。在整个研发过程中,编写代码的部分大约占据20%的比重。在人工智能大模型的时代,为了提升研发效率,利用大模型辅助生成代码的需求已经迫在眉睫。

在与产品线领域代码专家进行交流时,我们发现,由于产业数据未纳入训练过程,开源代码大模型在研发阶段基本上无法发挥作用。在产业领域,我们面临以下挑战:

首先,信息通信技术(ICT)专业领域知识繁杂且多变,开源模型未系统学习过程领域知识和系统设计等方面,因此难以处理复杂任务。

其次,华为代码仓库中存在数十万自定义的数据类型、函数API和变量引用,这些代码的语义复杂性较高。由于公司部分产业导向代码自注释,结构类型和成员、函数、变量缺少足够的人工注释。

此外,代码具有单一性,不同产品之间的代码关联性较小,导致代码语料数据泛化性不足。同时,文本与代码关联的语料数据在质量和数量方面都存在不足。华为嵌入式系统主要基于C/C++开发,C/C++代码具有固有特征,如头文件机制使类型和函数逻辑实现分离,状态空间更为庞大。

最后,代码依赖链路较长,涉及Void *、指针、结构体、宏定义、头文件等多种元素。项目级的跨文件和多层嵌套导致上下文依赖链路较长,从而降低了代码生成的准确性。

根据实地考察的业务需求以及公司研发战略目标,我们将重点关注具有业务价值的场景。目前,研发大模型项目组正致力于攻克代码辅助生成(C/C++/Java/Python)的难题,以构建软件领域的代码大模型,从而推动软件开发领域的新范式。

2 研发大模型构建探索总体思路

为了提高研发迭代的反馈效率,华为云PaaS大模型团队制定了5项数据标注与清洗规范、以及5个脚本工程项目。

图1 研发大模型探索的总体思路

在整个流程中,从原始训练语料的准备与清洗、SFT语料的提取,到训练、评估和部署的全自动化操作,华为云PaaS团队已经制定了5个数据标注和清洗规范。在训练流水线过程中,涉及到的5个脚本工具(包括清洗工具、SFT提取工具、训练脚本工程、部署脚本工程和IDE插件)也已经得到了产品线业务专家的认可和落实。这些措施显著提高了大模型研发的效率。

3 那些数据应该参与研发大模型的训练?

数据是大模型研发的基石,其质量直接影响到模型的最高性能。若大模型未经过专业领域数据的训练,就如同“文科生学理科”。针对产业特有的数据特征和挑战,我们首先对产业数据的训练配方表进行了梳理。明确了训练语料的范围、目标、场景、数据标准、处理规则、处理工具、试点产业以及质量评价等相关信息。

图2:研发大模型语料层次表

L0 开源阶段:对 GitHub、Stack Overflow 等高质量数据进行清洗。

L1 RawCode 阶段:清洗华为语料库中的 30 亿 tokens,涉及公司 10 余个产品线,以增强华为业务代码的基础能力。

L2 领域数据-SFT 阶段:包括代码地图、项目级的跨文件信息以及工程规范。通过 SFT 指令微调,利用跨文件上下文信息和领域专业知识,解决生成代码中的幻觉问题。

RAG(Retrieval Augmented Generation)阶段:在 IDE 项目文件中检索跨文件信息;在向量数据库中检索 API 接口说明、工程规范信息。根据 prompt 模板,将用户的需求描述与上述检索信息拼接成完整的 prompt,输入给大模型。

由于 L1/L2 模型训练需要一定周期,业务实践中项目组先使用 RAG 语料验证效果,逐步探索 L2 SFT/L1 Raw Code 匹配任务,以提升模型的理解能力和研发效率。

单一的 Prompt 工程/RAG 在一定程度上可以让模型接触到专业领域知识,增强专业表达。然而,更为关键的是让专业领域知识参与到模型训练过程中。

4 研发大模型整体演进策略与方案设计

为了提高大模型研发的效率,我们将整个研发过程分为两个阶段进行迭代和优化:

1、数据准备阶段。首先,我们对各产品线的代码仓库进行评估,挑选出高质量的代码仓库。接着,根据华为云PaaS研发项目组制定的五项数据标注和清洗规范对代码进行清洗。在《训练&推理语料层次表》的基础上,构建代码地图,并通过人工抽查与脚本校验自动化执行。最后,对训练数据进行格式统一,生成训练集、客观评测集和主观评测集。

2、在训练和评估阶段,我们针对第一阶段所准备的训练数据,在ModelArts平台上启动训练任务。通过每隔x个epoch生成的检查点(checkpoint)来进行训练迭代。在此基础上,我们进行批量模型评估,并将模型部署在Alpha环境中,以便用户进行评估和使用。

在Alpha环境中,IDE插件的上下文提取和RAG检索两个过程被巧妙地隐藏起来。IDE需要在项目层面跨文件进行上下文分析,从而提取当前编辑区域用户关注的跨文件上下文信息,并在prompt工程中进行组装。同时,RAG会根据用户的输入和意图,检索业务知识向量库。在prompt工程中,上下文信息和业务知识将按照重要性进行排序,然后送入代码大模型进行推理。生成的代码经过后处理后,最终呈现在IDE用户界面上。

在研发过程中,数据准备以及模型的训练和评估并非一蹴而就,而是需要经过多次迭代和验证。训练和评估过程中出现的现象和问题可以为数据迭代过程提供反馈。两个阶段紧密衔接,共同推进以实现最终的优化目标。

图3:研发大模型整体演进策略与方案设计

5 RAG:研发大模型的最后“一公里”

模型训练在一定程度上缓解了领域知识匮乏的问题(例如,避免使用不存在的数据对象和API,从而减少编译错误和运行错误)。然而,由于模型更新迭代周期较长且领域范围广泛,在实际产业应用中,仍需结合领域相关的《xx使用手册》、《xx白皮书》和《xx使用指南》等资料,以进一步减轻代码生成中的幻觉问题,提高知识的可追溯性和解释性。

RAG的设计方案和实现形式多样,我们的RAG方案主要关注自动化信息抽取和项目级上下文感知能力。

业务知识广泛分布于HTML、PDF、DOC、Word等多种形式,且范围广泛且接口不统一。为解决这一问题,项目组结合知识图谱和大模型技术,实现结构化、半结构化和非结构化信息的抽取,无需人工干预,即可生成低成本且高质量的知识。

自动化信息抽取同时解决了知识增量刷新机制的问题:通过工程化方法,克服了LLM知识更新的难题。将业务领域知识、华为编程框架、工程规范等模型所不具备的能力与模型相协同。在项目级上下文感知方面,基于项目静态结构、仓库演化历史以及开发者实时行为,精确检索与代码生成任务最相关的项目上下文。

以某产品线Dopra开发场景为例,我们整理了开发手册、线下文档、社区平台以及开发者经验等数据,汇总成Dopra开发的领域知识,并将这些知识向量化,存储到向量数据库中。当用户输入需求任务后,通过RAG能力,我们可以获取与该任务相关的开发经验信息。将这些信息通过“领域经验”提示模板输入给大模型,从而显著提高大模型输出代码的正确性。

图5 RAG方案中使用的Prompt版本示例

6 研发大模型:是否会取代程序员?

许多程序员都关心一个问题:研发大模型是否会最终取代程序员?经过调查,我们发现了一些有趣的观点。

1. 程序员的需求各异。在对产品线专家进行调研时,我们发现他们对业务非常熟悉,主要关注行级续写或代码块续写,目的是减少敲击键盘的时间。他们期望模型能顺应开发思路给出提示,辅助编码,而非完全替代开发。

2. AI编程具有很高的特殊性。精确敏感性:一个字符的错误可能导致代码不可用,需要人工干预。远程敏感性:全局变量、父类信息、项目级跨文件信息等大量远程(非IDE插件打开的当前文件信息)对语义影响很大。库敏感性:调用API库的语句对函数的语义影响非常大。

3. AI目前的定位是助手,即开发人员的智能助手。AI助手并不会替代程序员的思考;它们擅长处理重复性高、机械性的任务,帮助程序员聚焦高价值点,提升专业方向的能力。然而,程序员仍需要掌握辅助驾驶的方向盘。

大模型的使用对程序员提出了更高的要求。简单重复的工作可以交给大模型,但更高维度的工作,如代码调试、通信链路联调、项目级别的功能实现等,可能需要经验丰富的架构师和资深程序员来把控。

总而言之,研发大模型将有效提升研发效率,使程序员能够更加专注于深入思考,从而减少重复性和高频率的工作负担。

文章来自 PaaS技术创新Lab,PaaS技术创新Lab隶属于华为云,致力于综合利用软件分析、数据挖掘、机器学习等技术,为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力,不断构筑研发利器,持续交付高价值商业特性!加入我们,一起开创研发新“境界”!

详情欢迎联系 mayuchi1@huawei.com;bianpan@huawei.com

PaaS技术创新Lab主页链接:PaaS技术创新Lab-华为云

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1285159.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode:1038. 从二叉搜索树到更大和树(反向中序遍历 C++、Java)

目录 1038. 从二叉搜索树到更大和树 题目描述: 实现代码与解析: dfs 原理思路: 1038. 从二叉搜索树到更大和树 题目描述: 给定一个二叉搜索树 root (BST),请将它的每个节点的值替换成树中大于或者等于该节点值的所…

_____面试题_____(持续更新)

连表的链接方式 # 左连接 left join on # 右连接 right join on # 内连接 inner join on # 全连接 full join on # 笛卡尔积 join ------------------------------------------------ 上面讲的都是连表方式,连表的目的是查询,连表的依据是表和表…

探索人工智能领域——每日20个名词详解【day8】

目录 前言 正文 总结 🌈嗨!我是Filotimo__🌈。很高兴与大家相识,希望我的博客能对你有所帮助。 💡本文由Filotimo__✍️原创,首发于CSDN📚。 📣如需转载,请事先与我联系以…

STM32存储左右互搏 SPI总线读写FRAM MB85RS16

STM32存储左右互搏 I2C总线读写FRAM MB85RS16 在中低容量存储领域,除了FLASH的使用,,还有铁电存储器FRAM的使用,相对于FLASH,FRAM写操作时不需要预擦除,所以执行写操作时可以达到更高的速度,其…

【自习室预约系统源码】基于springboot框架的自习室管理和预约系统设计

🍅 简介:500精品计算机源码学习 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 文末获取源码 目录 一、以下学习内容欢迎领取: 二、文档资料截图: 三想了解更多,请收藏、评论、留言:…

Android Studio的笔记--String和byte[]

String和byte[]的相互转换,字节数组转换 String转换byte[]文本16进制字节数组 byte[]转换String文本16进制 其它 String转换byte[] 文本 将字符串(String)转换为字节(byte)的方法。默认使用的是UTF-8编码 StandardCh…

SQL数据库知识点总结归纳

前后顺序可以任意颠倒,不影响库中的数据关系 关系数据库的逻辑性强而物理性弱,因此关系数据库中的各条记录前后顺序可以任意颠倒,不影响库中的数据关系 一名员工可以使用多台计算机(1:m),而一台计算机只能被一名员工使用(1:1),所以员工和计算机两个实体之间是一对多…

学习前端都需要学什么?

前端开发是一门需要掌握多种技术和工具的综合性学科。作为一名合格的前端开发者,需要具备以下几方面的知识和技能: HTML:HTML 是构建网页的基础,是前端开发的第一步。需要掌握各种 HTML 标签的使用和语义化的编写方式&#xff0c…

公有云迁移研究——AWS Translate

大纲 1 什么是Translate2 Aws Translate是怎么运作的3 Aws Translate和Google Translate的区别4 迁移任务4.1 迁移原因 5 Aws Translate的Go demo6 迁移中遇到的问题6.1 账号和权限问题:6.2 小语种 1 什么是Translate Translate是一种文本翻译服务,它使…

04、pytest运行多个测试用例

官方用例 目录结构 course_04 | |----subdir | | | |----sample03_test.py | | | |----test_sample04.py | |----sample02_test.py | |----test_sample01.py# content of test_sample01.pydef test_simple01():print("test simple01")assert 0# content of tes…

配置集群免密登录

文章目录 前言配置集群免密登录1. 设置主机名与 IP 地址的映射关系2. 生成 SSH 密钥对3. 将公钥复制到集群节点4. 测试免密登录5. 配置节点之间互相免密登录 总结 前言 本文介绍了如何配置集群之间免密登录,以便在搭建集群环境时方便地进行节点之间的通信。通过设置…

Blender学习:荧光树桩

文章目录 雕刻基础盆栽渲染 教程地址:八个案例教程带你从0到1入门blender【已完结】 雕刻基础 1 新建圆柱->进入编辑模式->CtrlR新增5条横向的分割线。然后进入面模式,选中相邻的9个小面,按E挤出,S缩小,G上移。…

linux远程桌面管理工具(xrdp)、向日葵

Windows远程桌面 linux远程桌面 使用向日葵远程桌面(手机端同理) Windows远程桌面 微软自带Remote Desktop Connection Manager (RDCMan)远程控制管理软件介绍 远程桌面连接管理器 v2.93 linux远程桌面 Windows远程桌面Ubunt…

【部署】Deploying Trino on linux

文章目录 一. Requirements1. Linux operating system2. Java 环境3. Python 二. Installing Trino三. Configuring Trino1. 节点配置2. JVM 配置3. Config properties4. Log levels5. Catalog properties 四. Running Trino 一. Requirements 1. Linux operating system 64位…

Qt 软件调试——windbg初篇(一)

在上一篇《Qt 软件调试(二)使用dump捕获崩溃信息》中我们结尾处提示大家先准备好windbg,windbg是非常强大的调试工具,对于我们进行代码调试和分析异常有着非常重要的意义。 在Qt软件调试这个系列的首篇,我们介绍了《Qt…

【springboot】整合redis

1.前提条件:docker安装好了redis确定redis可以访问 可选软件: 2.测试代码 (1)redis依赖 org.springframework.boot spring-boot-starter-data-redis (2)配置redis (3) 注入 Resource StringRedisTemplate stringRedisTemplate; 对键进行操作 –o…

竞赛选题YOLOv7 目标检测网络解读

文章目录 0 前言1 yolov7的整体结构2 关键点 - backbone关键点 - head3 训练4 使用效果5 最后 0 前言 世界变化太快,YOLOv6还没用熟YOLOv7就来了,如果有同学的毕设项目想用上最新的技术,不妨看看学长的这篇文章,学长带大家简单的…

Nacos前世今生、安装配置、服务注册源码、整合Springboot实战

一、前言 随着微服务架构的兴起,服务的规模不断增长,对于服务的发现、配置和管理变得越来越复杂。 在这个背景下,Nacos应运而生,以其强大的功能和灵活性成为云原生领域的瑞士军刀之一。 Nacos是一个由阿里巴巴开源的项目&#…

Inference with C# BERT NLP Deep Learning and ONNX Runtime

目录 效果 测试一 测试二 测试三 模型信息 项目 代码 下载 Inference with C# BERT NLP Deep Learning and ONNX Runtime 效果 测试一 Context :Bob is walking through the woods collecting blueberries and strawberries to make a pie. Question …

代码随想录刷题题Day5

刷题的第五天,希望自己能够不断坚持下去,迎来蜕变。😀😀😀 刷题语言:C / Python Day5 任务 ● 哈希表理论基础 ● 242.有效的字母异位词 ● 349. 两个数组的交集 ● 202. 快乐数 ● 1. 两数之和 1 哈希表理…