姚班带队OpenCSG,超越Devin,创造大模型编程领域新纪录

news2024/12/23 12:41:19

摘要

来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成绩刷新了普林斯顿SWEBench(大模型真实独立编程评测)排行榜,取得了全球第二名的成绩,同时创造了非GPT-4o基模的最高纪录(SOTA)。

SWEBench评测高度贴近真实编程场景,难度极高。不仅要求模型能理解需求、协调多个函数/类,乃至文件的变更,还要求模型能够与执行环境交互,处理超长上下文信息,并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。OpenCSG的这一成绩,标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。

01  Devin - 大模型编程的创新

2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。虽然伴随着一系列争议,但Devin本身强大的创新能力和巨大潜力,带给众多AI爱好者和从业者新的期待。Devin不仅能够轻松解决编码任务,还能自主完成软件开发的整个周期——从项目规划到部署,涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等等。

02  大模型编程的真实挑战

为什么Devin敢于挑战GPT4等基础模型的编程能力呢?核心在于软件工程师的工作并不只是编写代码,更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节,这里面的每个环节都会影响大模型编程的可用性和效果。

针对于这类真实场景,普林斯顿大学提出了SWEBench(https://arxiv.org/abs/2310.06770),这是一种量化评估端到端代码生成能力的工具。GPT-4在SWEBench上的评分仅有1.74%,即使加上RAG技术,其评分也不到3%。这表明单纯依靠基础模型来直接解决现实世界中的编程问题是不可能做到的。

而Devin的技术创新是基于Agent构建工作流程,将SWEBench的解决率提升到了一个新高度。3月份,Devin以独立解决13.86%的问题解决率高居榜首,这直接将“大模型编程”从几乎不可用的状态提升到了“看到了曙光”。硅谷大厂和大模型创业公司纷纷闯入LLM for SE这个领域,这项记录被连续改写。

截止2024年4月底,最好的记录是由Amazon AI团队推出的 Amazon Q Developer Agent 创造的20.33%。较为遗憾的是,相较于基础模型榜单上中国公司的“百花齐放”,这项高难度的挑战鲜少有中国公司参与,直到这一次OpenCSG改写了这一记录。

03  中国创业公司的突破

近日SWEBench最新评测结果更新,OpenCSG跃居榜单第二名。该公司推出的OpenCSG StarShip CodeGen Agent在Lite评测中取得了23.67%的通过率,这一成绩不仅超过了Devin和Amazon的成绩,同时也创造了非GPT4-o基模的历史最高纪录(SOTA)。

OpenCSG成立仅一年,是一个有着深厚开源及大模型复合经验的团队:CEO陈冉是开源软件领域的知名企业家,曾成功打造过多家开源领域的商业公司;CTO王伟来自清华05级姚班,在人工智能领域有多年研发经验;公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。这样一支团队是如何打造出新的记录的呢?

04  新纪录,模型+Agent齐发力

当前许多企业正在积极探索和实践基础模型、垂直领域模型及RAG等技术,而OpenCSG则选择了专注的方向:致力于编程Agent的创新开发和大型模型算法的深度优化。

  • Agent层面:不同于LLM+RAG或者通用Agent框架,OpenCSG StarShip CodeGen Agent针对软件研发领域高度定制优化Agent而设计:将研发各个阶段(需求理解、代码检索、编程计划、编写代码、循环验证等)通过LLM Agent实现,并结合软件工程方法,例如AST语法分析、依赖检索等进行深度优化的方式,在各个环节精益求精,最终整合实现了更高精度的代码生成。

  • 算法层面:针对代码版本变更引起的API冲突等典型问题,OpenCSG提出了自适应教师模式,通过教师模型分析代码版本变更记录,生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进,显著优于当前的RAG模式,尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。

正是这种算法+工程双管齐下、精益求精的模式,让OpenCSG CodeGen Agent能在一众模型中脱颖而出。

05  StarShip的星辰大海

如果说CodeGen Agent的真实评测是牛刀小试,那么StarShip则是承载着OpenCSG的宏伟蓝图。

对于StarShip的产品定位,OpenCSG CEO陈冉表示:“StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体(Agent)组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员,目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具,我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工,全面覆盖需求、设计、编码、测试和运维各个环节。” 

CTO王伟表示这条路径充满挑战但非常有趣:“从第一性原理来看,大模型对于生产力的提升已经不是'是'或者'否'的问题,而是何时、何地、何种形态的问题,StarShip正是我们尝试给出的一个回答。”

06  高产团队,聚沙成塔

除StarShip之外,OpenCSG团队还相当高产:CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等,这些产品凭借其精准的地位,在业内颇受好评。此外,这些产品的快速推出与迭代,既满足了当前的市场需求,同时也为了一个更远大的目标:让大模型赋能每一个企业每一个人。

OpenCSG CEO陈冉表示:“让大模型赋能每个企业、每个人,就需要让大模型变成水和电一样。如果说大模型是电能,那么CSGHub是电力网络,StarShip则是各种各样的家电电器,最终赋能到千家万户。”

07  拥抱开源,超越开源

OpenCSG的理念是开源开放,作为一家坚持以开源为核心的公司,不仅实现了模型开源、代码开源,甚至还实现了平台开源。

“我们是一家年轻的公司,受益于开源,才能在较短的时间做出一些成果,同时也会全面回馈开源社区,这是开源社区的基本原则。除此之外,我非常认同Sam Altman的说法,开源只是一种模式,比模式更重要的是产品价值。”CTO王伟总结道。

“Benchmark本身只是一个数字,随着GPT4-o的推出,SWEBench的测试成绩预计将会很快超过30%,乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值:随着模型能力和工程技术的提升,数字员工将会从量变引发质变,从能用到好用,在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化,从公司到个人,我们都要为此做好准备。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1718796.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

案例|开发一个美业小程序,都有什么功能

随着移动互联网的迅猛发展,美业连锁机构纷纷寻求数字化转型,以小程序为载体,提升服务效率,增强客户体验。 线下店现在面临的困境: 客户到店排队时间过长,体验感受差 新客引流难,老用户回头客…

2024ciscn初赛——easycms

什么是CMS? CMS是“Content Management System”的缩写,意为“内容管理系统”。网站的开发者为了方便,制作了不同种类的CMS,可以加快网站开发的速度和减少开发的成本。 常见的CMS: php类cms系统:dedecms、…

【计算Nei遗传距离】

报错 Warning message: In adegenet::df2genind(t(x), sep sep, ...) : Markers with no scored alleles have been removed 原因: 直接用plink转换为VCF,丢失了等位基因分型(REF ALT) (plink编码的规则&…

【Pytorch 】Dataset 和Dataloader制作数据集

文章目录 Dataset 和 Dataloader定义Dataset定义Dataloader综合案例1 导入两个列表到Dataset综合案例2 导入 excel 到Dataset综合案例3 导入图片到Dataset导入官方数据集Dataset 和 Dataloader Dataset指定了数据集包含了什么,可以是自定义数据集,也可以是以及官方数据集Data…

R语言绘图 --- 饼状图(Biorplot 开发日志 --- 2)

「写在前面」 在科研数据分析中我们会重复地绘制一些图形,如果代码管理不当经常就会忘记之前绘图的代码。于是我计划开发一个 R 包(Biorplot),用来管理自己 R 语言绘图的代码。本系列文章用于记录 Biorplot 包开发日志。 相关链接…

基于深度学习的模糊认知图方法

1 文章信息 文章题目为“Deep Fuzzy Cognitive Maps for Interpretable Multivariate Time Series Prediction”,该文于2019年发表于“IEEE TRANSACTIONS ON FUZZY SYSTEMS”。文章提出了深度模糊认知图(FCM)用于多变量时间序列预测&#xff…

视频汇聚EasyCVR视频监控云平台对接GA/T 1400视图库对象和对象集合XMLSchema描述

GA/T 1400协议主要应用于公安系统的视频图像信息应用系统,如警务综合平台、治安防控系统、交通管理系统等。在城市的治安监控、交通管理、案件侦查等方面,GA/T 1400协议都发挥着重要作用。 以视频汇聚EasyCVR视频监控资源管理平台为例,该平台…

30-ESP32-S3-WIFI篇-01 FreeRTOS

ESP32-S3-WIFI-FreeRTOS 任务 介绍 FreeRTOS FreeRTOS是一个开源的实时操作系统(RTOS)内核,以模块化的方式与ESP-IDF集成。这意味着所有的ESP-IDF应用程序和各种ESP-IDF组件都建立在FreeRTOS框架之上。FreeRTOS内核已经被移植到ESP芯片的所…

C/C++|智能指针的shared_from_this和enable_shared_from_this

参考博客(或者叫摘抄的博客,本博客只做为个人学习使用): 施磊老师牛逼 深入掌握C智能指针 C智能指针的enable_shared_from_this和shared_from_this机制 文章目录 再探 shared_ptr错误一修改错误一错误二修改错误二 enable_shared_from_this和shared_from…

web项目规范配置(husky、eslint、lint-staged、commit)

背景: 团队开发为了保证提交代码格式统一,通常在进行代码提交的时候对暂存区代码进行校验,如没有通过eslint(本例使用eslint)校验,则不能提交到远端。 安装依赖 husky 、eslint 、prettier 、lint-staged npm install husky e…

光环云携手火山引擎共推全栈AI服务,赋能千行百业智能化转型,助力新质生产力发展

5月15日,2024春季火山引擎FORCE原动力大会在北京举办。作为智算云网综合服务提供商,光环云受邀出席大会,与火山引擎共同探索大模型时代下行业发展的新趋势。 会上,光环云数据有限公司正式与火山引擎签署生态伙伴合作协议&#xf…

算法与数据结构:红黑树

ACM大牛带你玩转算法与数据结构-课程资料 本笔记属于船说系列课程之一,课程链接: 哔哩哔哩_bilibilihttps://www.bilibili.com/cheese/play/ep66799?csourceprivate_space_class_null&spm_id_from333.999.0.0 你也可以选择购买『船说系列课程-年度会…

计算机图形学入门04:视图变换

1.MVP变换 将虚拟场景中的模型投影到屏幕上,也就是二维平面上,需要分三个变换。 1.首先需要知道模型的位置,也就是前面提到的基本变换,像缩放、平移,旋转,也称为模型(Model)变换。 2.然后需要知道从…

精选免费在线工具与资源推荐20240531

精选免费在线工具与资源推荐 引言 在互联网高速发展的今天,我们身处一个信息爆炸的时代。为了更好地应对工作和学习中的挑战,我们时常需要借助各种工具和资源来提高效率。幸运的是,网络上存在着大量免费且高效的在线工具和资源,…

告别低效提问:掌握BARD技巧,让AI成为你的智能助手!

今天只聊一个主题:提示词 Prompt。 说到提示词,大家可能都看过GPT的高级示例,那些几百字的提示词,写起来确实不容易。 那么,如何写出同样效果的提示词呢? 有没有什么公式或者系统学习的方法?…

HackTheBox-Machines--Nibbles

Nibbles 测试过程 1 信息收集 NMAP 80 端口 网站出了打印出“Hello world!”外,无其他可利用信息,但是查看网页源代码时,发现存在一个 /nibbleblog 文件夹 检查了 http://10.129.140.63/nibbleblog/ ,发现了 /index.p…

windows系统配置dns加快访问github 实用教程一(图文保姆级教程)

第一步、打开网页 https://tool.lu/ip IP地址查询 - 在线工具 输入www.github.com 或者github.com 点击网页查询按钮, 获取对应github网站对应的ip 完整操作步骤如上图所示,可以很清晰的看到github网站的ip显示地区是美国也就是说该网站服务器是在国外, 这也就是为什么我们在…

JUC总结2

synchronized锁 synchronized底层原理 当使用synchronized时,不需要自己编写代码进行上锁和上锁的操作,因为JVM帮我们把相关操作完成了。 JVM采用了monitorenter和monitorexit指令进行同步的,前者指向同步代码开始的位置,后者指…

java——网络原理初识

T04BF 👋专栏: 算法|JAVA|MySQL|C语言 🫵 小比特 大梦想 目录 1.网络通信概念初识1.1 IP地址1.2端口号1.3协议1.3.1协议分层协议分层带来的好处主要有两个方面 1.3.2 TCP/IP五层 (或四层模型)1.3.3 协议的层和层之间是怎么配合工作的 1.网络通信概念初识…

探索气象数据的多维度三维可视化:PM2.5、风速与高度分析

探索气象数据的多维度可视化:PM2.5、风速与高度分析 摘要 在现代气象学中,数据可视化是理解复杂气象模式和趋势的关键工具。本文将介绍一种先进的数据可视化技术,它能够将PM2.5浓度、风速和高度等多维度数据以直观和动态的方式展现出来。 …