全球首个AI程序员诞生,码农饭碗一夜被砸!10块IOI金牌华人团队震撼打造,996写代码训练模型

news2024/11/13 9:07:42

全球首位AI软件工程师Devin诞生了,它掌握全栈技能,云端部署、底层代码、改bug、训练和微调AI模型都不在话下。最可怕的是,它完全不怕996,老黄的预言是彻底成真了!

就在刚刚,世界上第一位AI程序员Devin诞生。

一家叫Cognition的10人初创公司,才成立不到2个月,就给了全世界亿点点震撼。

刚一放出,Devin就刷爆了全网。

它掌握了全栈技能,能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型!

在SWE-bench上,它的表现远远超过Claude 2、Llama、GPT-4等选手,取得了13.86%的惊人成绩!

也就是说,它已经能通过AI公司的面试了。

就在前不久,英伟达CEO黄仁勋表示,自己相信就在不久的将来,人类再也不需要学习如何编码了,孩子们应该停止编程课。

谁能想到,才短短数月,他的预言就成真了!

更令人震惊的是,Devin背后拥有一支强大的金牌程序员团队(规模不大,人才济济)。

据介绍,仅创始团队已经狂揽了10个IOI金牌!

首席执行官Scott Wu和弟弟Neal Wu获奖情况

Cognition AI的首席执行官Scott Wu称,自己从9岁开始学习编程,便爱上了将想法变成现实的能力。现在,这个梦想居然真的实现了。

网友惊呼:码农不存在了!?

网友惊呼:码农不存在了!?

Devin会抢走我的饭碗吗?

德扑AI之父,OpenAI的研究科学家Noam Brown表示,「2024年将是人工智能令人兴奋的一年」。

计算机科学家,AI创业公司CEOSilas Alberti评价到:

它是一个能够独立完成任务的自主系统,在快速原型设计、修复bugs和复杂数据的可视化上表现卓越。

大部分其他助手在进行四五步操作后就会偏离任务轨道,但Devin能够在整个任务过程中准确地保持它的目标和方向不变。

投资了Cognition AI的硅谷大佬Peter Thiel更是认为,Cognition AI与Founders Fund之前投资过的DeepMind,现在的AI巨型独角兽OpenAI,Scale AI等公司处于同一水平。

AI初创公司Unify创始人称,Devin不仅抢走了我的工作,还抢走了我的名字,简直是雪上加霜。

美国著名开发者Brian Roemmele表示,自主编码智能体Devin已现AGI雏形!它能在几分钟内自主编写整个应用程序。这是真正无代码未来的开始。

Spotify工程师表示:「目前尚不清楚智能体会在几年内取代软件开发人员,但免费午餐已经不复存在。」

「从为期8周的训练营毕业,然后找到一份价值 20 万美元的工作,这样的日子已经一去不复返了。做好磨练和深入学习的准备。熟练地引导人工智能取得好的结果可能才是未来程序员能体现出来的价值。」

世界首位AI软件工程师Devin

AI软件工程师Devin的影响力,简直堪比2023年全网炸锅的智能体——AutoGPT。

Devin究竟有多强大?

Devin可以规划和执行需要数千项决策的复杂工程任务。

并且,它可以在每一步回忆相关的上下文,随着时间的推移学习,并纠正错误。

研究人员还为Devin提供了常见的开发工具,包括shell、代码编辑器、以及浏览器——皆是人类完成任务最需要的工具。

此外,Devin还具备主动与用户协作的能力。

比如,实时报告进度,接受反馈,并根据需要与你一起完成设计选择。

目前,Cognition AI还推出了一个Devin定制的Chrome插件——Tab Switcher。

而Cognition的开发者们纷纷分享出了自己使用Devin的示例,简直不要太惊艳!

学习如何使用陌生的技术

当你发给Devin一篇博文后,它会在几分钟内完成自主学习,从阅读文章,运行代码。

可以看到,Devin在Modal上运行了ControlNet,在写代码过程中,还会自我debug。

最后,人类程序员Sara想要带有自己名字的桌面壁纸,就立刻生成了。

构建和部署端到端的应用程序

当你想要玩一个「生命游戏」(the Game of Life),交给Devin做就好了。

Devin首先会用工具Shell,创建一个新的react应用程序,然后开始通过编辑器编写代码。

代码完成后,它还会将应用自动部署到Netlify,一个初步的「生命游戏」就做好了。

这个过程中,Devin还可以逐一根据用户请求,完成功能的添加。

比如在初始屏幕上加上像素化的「Devin」一词,然后希望这个字体再大一些,帧速率更快。

与此同时,人类程序员要求Devin修复一个bug——屏幕在3秒后冻结的错误。

下一步,让Devin在10秒后提高帧速率,让网站能适应不同的窗口大小。

同时,一个游戏还得需要交互性,即在某处点击鼠标时,应该生成一个新块。

接下来,就是见证奇迹的时刻了!

自行查找代码库错误,自行修复

这个名叫Andrew的开发者表示,自己维护了一个大型开源存储库,其中包含许多不同的算法,用于竞争性编程。

不久前有朋友告诉他:其中一个实现中有bug。Andrew插入了一个快速修复,但并没有测试它,因为没能抽出时间来编写测试用例。

既然如此,就给Devin来试试看!

小哥给了Devin存储库,让它来检查和处理这个存储库。然后,Devin就找到了正确的存储库,检查了所有文件。

接下来,在小哥的要求下,Devin还很轻易地就把测试写了出来——只是看了一下测试应该是什么样,接口是什么样,就完成了这项任务。

挑战还没完,接下来,小哥要求Devin将对所有输入进行测试,而不仅仅是测试这个输入,也就是自己常用的「暴力测试」。

于是,Devin重写了测试函数,使用了四个嵌套的循环,这一次,它发现了一个bug。

接着,Devin开始调试。它在这里添加了一个print语句,来调试输入和输出,然后重新测试,发现了错误:代码不应该返回负值。

于是Devin查看了正在测试的代码,然后添加进了这行代码,确保返回值是非负的。

现在Andrew可以确信,自己的代码是完全正确的了!

训练和微调AI模型

Devin能力也在一步一步进阶。

最让人兴奋的是,它可以自己训练、微调模型,AI训AI成真了!

首先,给智能体Devin提供一个GitHub库的链接(比如QLoRA——一种量化大模型的微调方法)。

Devin所做的就是,微调7B Llama模型。

接下来,就是献技的时刻,Devin克隆了GitHub库,了解如何使用readme运行,设置好所需pip的要求,查看所有的脚本语言,并开始运行。

训练过程中,Devin还遇到了Cuda问题(这是在开源库中可以预料到的)。

不过这可难不倒Devin。它会自主查看英伟达环境,并找出如何重新安装软件包让其成功运行。

接下来,模型训练开始进行了。

可以看到损失率正在下降,程序员给出Devin正向反馈:「做的不错」!

大约1小时后,Devin已经顺利完成几百步训练,仍在进行中...

解决开源代码库中的错误和功能请求

只要给出一个指向GitHub问题的链接,Devin就会执行所需的所有设置和上下文收集了!

这位叫Tony的工程师,想一次运行一堆命令,并且希望在一个屏幕上跟踪它们的状态,于是他找到了一个名为impro的开源工具,希望执行这个操作。

看起来虽然impro完成了任务,但状态太模糊了。根本看不出来究竟哪些命令失败了。

Tony想改进这里的用户体验,但是自己根本不熟悉代码,于是他想到去求助Devin。

他发现网上有人面临同样的问题,所以他把这个问题的链接给了Devin,让它修复这个问题。

在右边,他很清晰地看到,Devin从一个工具跳转到了另一个工具。

它首先使用了Shell Deon CLS存储库,然后阅读了自述文件和编辑器,了解了子代码,然后,它返回Shell,安装了所需要的依赖项。另外,Devin还打开了一个Web浏览器。

然后,Devin就开始编码了!

在这个过程中,它甚至打开了一些R文档来调试编译器错误。最后,完成了任务,出了一份自己做了哪些改进的总结报告。

所以,Devin的更改有效吗?Tony发现,它成功了!第三个命令是成功的,他甚至可以看到状态码。

以下是完整视频:

为成熟的生产存储库做贡献,修复系统错误

下面这个示例,是SWE-BENCH基准测试的一部分。Devin解决了Python代数系统中的一个错误。它会自行设置代码环境、复制错误、自行编码、测试修复程序!

这位叫Neil的开发者,分享了Devin帮自己改bug的示例。

他一直在用这个名为Senpai的存储库,它是一个用Python编写的代数系统。

但Neil发现,取分数的对数时,我们会得到一个无穷大的Zoo,这是绝对不可能的。

于是,他试着让Devin来解决这个问题。

Devin在存储库中复现了Zoo的问题后,随后,它找出了代码中正确的那部分,添加了print语句,以便找出问题原因。

可以看到,原因就在于,整数除法会得到0,就导致之前取了0的对数。因此,Devin用true除法替代了整数除法。

随后,它开始测试,确保没有其他问题。

就这样,Devin帮Neil节省了大量的时间。

胜任自由职业平台Upwork的工作

Cognition的开发者You还试着在全球最大的综合类自由职业平台Upwork上,为Devin提供真正的工作。

没想到,它竟可以完全胜任,看来智能体也能出来做副业了......

在Upwork上,他首先挑选了一个「用计算机视觉模型做推理」的工作。

先来看看这个任务的要求:

- 我希望利用该资源库中的模型进行推断。(https://github.com/mahdi65/roadDamageDetection2020)

- 你的交付成果将是关于如何在AWS的EC2实例中进行操作的详细说明。

- 请提供你完成这项工作的评估报告。我不会回复没有评估的报告。

看起来很简单一个任务,但开发者You表示,自己也不知道如何开始做。

但是交给Devin,这件事就变得容易得多了。

Devin收到请求后,先开始设置了存储库。然后运行中发现了版本控制问题,Devin自主处理并更新了代码。

然后,Devin继续加载并导入软件包。它还从互联网上下载了图像,并运行模型。

接下来,Devin再次遇到了问题——关于打印调试,它自主修复了代码。

最后,Devin对数据结果进行抽样,并编写出一份报告。

它会一些标有损坏道路样本的图像,以及详细的text文档。

13.86%正确率,Devin碾压GPT-4/Cluade 3

SWE-bench是一个要求AI智能体解决开源项目(例如Django和scikit-learn)中实际GitHub问题的测试。

在评估中,Devin能够完整地正确处理13.86%的问题,这一成绩大幅领先于之前技术水平的1.96%。

即便是在提供了具体需要修改的文件情况下,先前最优秀的模型也仅能处理4.80%的问题。

华人金牌程序员团队

Cognition AI这家正在改变世界的公司,才正式成立不到2个月,仅有10名员工,分散在纽约、硅谷,以及世界各地的Airbnb民宿中。

就这样一个连正式办公场地都没有的团队,却已经从硅谷大佬Peter Thiel领投的Funders Fund和其他知名的投资机构那里获得了2100万美元的投资,其中还包括前推特高管Elad Gil。

在如此炸裂的产品的背后,团队成员背景更是夺目耀眼。

Cognition AI的核心创始团队包括3人:CEO Scott Wu,CTO Steven Hao,CPO Walden Yan。

联合创始人兼首席技术官Steven Hao,在AI系统方面有着丰富经验,

他于2018年本科毕业于MIT计算机和数学专业。

2018年加入由Alexandr Wang创办的Scale AI,是一名资深的AI系统工程师。

联合创始人兼首席产品官Walden Yan,在加入Cognition AI之前他还是哈佛大学的一名在校大学生。

作为计算机和经济专业本科大四在读的学生,理论上应该今年本科毕业。

但实际情况却处在「保密状态」,因为他还没有告诉父母自己辍学的事情。(手动狗头)

他在个人网站上,列出了3个自己认为最为重要的成就:

- 是MIT PRIMES Research团队的成员

- 得过IOI金牌

- 创立DeepReason并开发了一款智能区块链审计工具

联合创始人兼首席执行官Scott Wu,是一名连续创业者。

在成立Cognition之前,他曾经创立了一个用AI驱动的社交网络平台Lunchclub,并且也曾就读于哈佛大学。

他的弟弟Neal Wu,也是公司的员工。

在加入Cognition AI之前也在包括谷歌等多家公司工作过,是一名经验丰富的软件工程师和销售。

本科同样毕业于哈佛大学计算机专业。

他们兄弟俩在非常青年时期就参加了很多国际编程比赛和科学奥赛,获奖无数。

不仅如此,团队的其他成员,也都是大佬级的存在。

还有一个nobody。

其中,Andrew He从6年级开始,参加了各种数学竞赛。在2014年和2015年的国际信息学奥林匹克大赛上获得了2枚金牌。

他就读于MIT,并于2019年毕业,获得了数学和计算机科学学士学位。

如此丰富的编程竞赛经历,对于他们开发这个编程AI智能体有着非常大的帮助。

众所周知,编程竞赛的核心就是要迅速准确地解决编程难题,强调快速解决复杂问题的能力,而且对于创新的解决问题的思路有着很高的要求。

在CEO Scott Wu看来,团队独特的背景让他们在这个领域有非常强大的优势。

将AI培养成程序员,实际上是一个复杂的算法挑战,这需要AI系统能够做出复杂的决策,并能预见未来几步,从而选择正确的路径。

这几乎就是我们多年来一直在大脑进行的一场场比赛。现在,我们需要用AI系统来参加这些比赛。

Cognition AI首款产品Devin的最大突破在于大大提升计算机推理和规划能力。

它要求AI系统不仅要预测句子中的下一个词或代码行的下一个片段,还能像人类一样进行思考,获得解决最终问题最为合理的方法和路径。

而行业共识也认为,AI的推理和规划能力将是AI下一步产生最重要突破最有可能的方向。

Devin在接受用户用自然语言提出的任务之后,不仅能够自主开始工作并完成任务,还会向用户报告其计划,并实时展示正在使用的命令和代码。

如果用户发现过程中的问题,可以即时提供反馈。它会在任务进行中立即调整。

而Devin最大的亮点在于,大多数现有的AI系统在处理这类长期任务时往往难以保持一致性和专注,但它能够在完成数百上千任务时始终不偏离目标。

其他计算机科学家或者资深程序员在试用过Devin之后认为,它已经不仅仅是一个编程助手,简直是一个可以独立工作的员工。

CEO Wu并没有详细说明他们的智能体背后使用的AI技术,只是笼统地解释说,团队找到了将大语言模型(例如OpenAI的GPT-4)与强化学习技术相结合的独特方法。

参考资料:

https://www.cognition-labs.com/blog

https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1533392.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI程序员已诞生,如何保住自己饭碗?

一、背景 全球首位AI程序员Devin的诞生无疑引发了业界对职业前景和人工智能影响的热烈讨论。AI程序员的出现确实预示着人工智能技术在编程领域的重大突破,它们能够进行自主学习、修复bug、掌握全栈技能,并且在特定场景下展现出了替代部分人类程序员工作…

Windows创建Linux虚拟环境-WSL

使用工具WSL 官方安装使用文档 安装 WSL | Microsoft Learn 开始通过 WSL 使用 VS Code | Microsoft Learn 具体过程 1. cmd以“管理员身份运行”,执行以下指令,安装完成后,电脑重启,安装完成生效。 wsl --install 2. 查看…

基于yolov5的单目测距实现与总结+相机模型+标定

写这篇文章的目的是为了总结我之前看的标定,相机模型以及单目测距的内容,如果有错误,还请不吝赐教。 参考链接: 相机模型、相机标定及基于yolov5的单目测距实现 深度学习目标检测目标追踪单目测距 单目测距代码部署(目…

jmeter的函数助手使用方法

如某个上传文件接口,一个文件只能同时被一个接口调用,如果被并发同时调用就会报错 创建多个测试文件 比如50并发,创建更多的文件防止并发多时随机数生成重复 生成随机数函数 工具–函数助手-选择random-输入范围(1-696&#…

在阿里云服务器添加ssh,方便远程登录

前言: 添加ssh密钥步骤: chmod 700 .ssh #创建ssh cd .ssh chmod 700 authorized_keys #添加权限密钥 vim authorized_keys #编辑密钥 添加本地电脑ssh密钥 vim /etc/ssh/sshd_config #更改ssh配置文件 配置文件 # no default banner path #Banner no…

[Qt学习笔记]Qt使用MFC编译生成dll库在无编程环境电脑出现无法加载dll的问题

目录 1、 问题介绍2、 问题分析3、 问题总结和思考 1、 问题介绍 在项目实践中,使用Qt调用了一个vs创建的dll库,在本机上编译和release后的exe可以加载对应的dll文件,将exe拷贝到有vs编程环境的电脑上也可以加载对应的dll文件,但…

开篇介绍——蓝桥赛前冲刺(JavaB组)

开篇介绍 蓝桥杯赛事时间安排 专栏内容介绍 在接下来的几天时间内,老汉会不间断的更新该专栏,主要针对蓝桥杯B组赛事高频考点的复习巩固,其中包括老汉认为较优质的算法讲解(文章、视频),以及对应的真题、…

GPU 使用率监测及可视化

1. 使用 nvidia-smi可视化 直接在终端输入nvidia-smi动态查看GPU的使用情况watch -n 0.5 nvidia-smi其中0.5表示每隔0.5秒更新一次,时间可以调整 2. 使用nvitop可视化 2.1 nvitop的使用 (1) 安装 pip install nvitop(2) 查看GPU使用率 nvitop

全覆盖路径规划开源项目Clean-robot-turtlebot3原理及流程概括总结

本系列文章主要介绍全覆盖路径规划开源项目Clean-robot-turtlebot3的相关内容,包含如下四篇文章,分别介绍了开源项目Clean-robot-turtlebot3流程的概括总结、ROS坐标系常用坐标及其变换、Clean-robot-turtlebot3关键函数解析等内容。 1、全覆盖路径规划开…

第八篇【传奇开心果系列】Python自动化办公库技术点案例示例:深度解读使用Python库清洗处理从PDF文件提取的文本

传奇开心果博文系列 系列博文目录Python自动化办公库技术点案例示例系列 博文目录前言一、Python清洗处理文本的常见步骤二、使用Python库去除非文本元素示例代码三、使用Python库去除格式化元素的示例代码四、使用Python库去除空白字符示例代码五、使用Python库合并段落和行示…

制造业工厂为什么需要生产管理MES系统

一、制造业的生产管理需求与痛点 日趋激烈的市场竞争、客户对产品多样化要求越来越高,导致产品的生命周期缩短,企业需要通过智能制造实现降本、增效、提质,以提高企业的快速响应能力和核心竞争力。 二、生产管理的过程的痛点具体表现如下&am…

ai写作润色工具有哪些?工具大盘点!

ai写作润色工具有哪些?在内容创作日益繁荣的今天,无论是今日头条还是百家号自媒体平台,一篇好的文章往往能吸引大量的读者。而一篇好的文章,除了内容有深度、观点独到之外,还需要有吸引人的标题和流畅、生动的文笔。这…

【大数据】三、HDFS 基础原理

HDFS HDFS 是一种典型的分布式文件系统,但其不是唯一的分布式文件系统 HDFS 是一种新型的文件系统,不同于传统的文件系统,新型文件系统解决了传统文件系统存在的负载不均衡与网络瓶颈问题。 但归根结底、这些弊端都是由传统文件系统所存在…

利用matplotlib对list数据画曲线

平时有时候分析数据需要画一张如下较为完整的图,所以写个博文在有需要的时候过来快速粘贴下 import matplotlib.pyplot as plt# 两个示例列表 list_xl [0.219683, 0.217855, 0.214003, 0.211832, 0.211356, 0.210974, 0.210622, 0.210312, 0.210040, 0.209794,0.…

qt5-入门-国际化

参考: Qt 国际化(上)_w3cschool https://www.w3cschool.cn/learnroadqt/fwkx1j4j.html QT5实现语言国际化(中英文界面动态切换,超详细)_qt qevent::languagechange-CSDN博客 https://blog.csdn.net/m0_49047167/article/details/…

Mysql总结(附思维导图)

Mysql Mysql索引 使用 创建主键索引 在对应字段后指定primary_key:id int primary key 创建唯一索引 在对应字段后指定unique_key:name varchar(20) unique 创建普通索引 在创建表的最后,指定某列或某几列:index(name) 创建全…

vue前端解析jwt

vue前端解析jwt 我们可以用在线解析看解析的结果:https://www.lddgo.net/encrypt/jwt-decrypt 但是如果在前端需要解析token,拿到其中的权限信息,可以这样解决。 在线的: 完美解决: 代码: function par…

(MYSQL)数据库中排序与分页操作

排序: 使用ODER BY 语句(在select语句的末尾)进行排序其中: 加ASC 升序; 加DESC 降序; 排序举例: SELECT id,name,salary FROM employees ORDER BY id; 注:此时就是以id升序排列表…

【Flutter学习笔记】9.7 动画过渡组件

参考资料:《Flutter实战第二版》9.7 动画过渡组件 “动画过渡组件”指的是在Widget属性发生变化时会执行过渡动画的组件,其最明显的一个特征就是会在内部管理一个AnimationController。controller定义了过渡动画的时长,而animation对象的定义…

Hutool中的这些工具类,太实用了

前言 今天给大家介绍一个能够帮助大家提升开发效率的开源工具包:hutool。 Hutool是一个小而全的Java工具类库,通过静态方法封装,降低相关API的学习成本,提高工作效率,使Java拥有函数式语言般的优雅,让Java语言也可以“甜甜的”。 Hutool的设计思想是尽量减少重复的定义…