全球首个“AI程序员”Deven能替代程序员吗?过了面试却不一定适合职场

news2025/1/13 5:55:18

制造Devin的公司,是一家叫Cognition的10人初创公司,才成立不到2个月。

一、引言

一家成立不到两个月但拥有十名天才工程师的初创公司Cognition,搞了一个引爆科技圈的大动作。

他们推出了一款名为Devin的人工智能(AI)助手,可以协助人类软件工程师完成诸多开发任务。Devin不同于现有其他AI助手(GitHub Copilot 等 AI 编程助手),它并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。

这是第一个真正意义上完全自主的AI软件工程师,一亮相即掀起轩然大波,因为人们担心:人类程序员是不是真要失业了?

二、Deven能力及特点

测试表现超过同辈

在 SWE-bench 基准测试(评估大模型解决 GitHub 真实问题的能力)中发现,Devin 在人类未协助时达到了 13.86% 的正确率,超过了 Claude 2(4.80%)、Llama、GPT-4(1.74%,此前的测试结果是 0%)。更重要的是,Devin在测试中没有得到任何帮助,而其他所有模型都需要帮助,即人们要准确告知模型需要编辑哪些文件。

在这里插入图片描述

这一进展,标志着AI在自主理解和解决软件开发问题方面取得了显著进步。目前,Devin已经成功通过一家AI公司面试,并且在Upwork上完成了实际工作。资深程序员在试用过Devin之后认为,它已经不仅仅是一个编程助手,简直是一个可以独立工作的员工。它可以从零构建网站、自行部署应用、学习新技术等,人类只需扮演一个下指令和监督的角色。

运作几乎完全自主

Devin的厉害之处,还在于可以规划和执行异常复杂的工程任务,这类任务通常需要数千个决策才能完成。在这之中,无论进行到任何一步,它都可以回调所有相关的上下文信息,保证任务的逻辑性,也便于随时校正。

更让人震撼的是,Devin不仅能帮人们解决代码,还囊括了与之相关的整个工作流。

譬如,当工程师需要设计一个网页游戏时,Devin首先能生成网页,接着还能完成服务端的部署,最后直接发布上线,省去了中间大量人工操作。甚至在发现漏洞之后,Devin还会回溯报错出现的位置及对应的数据,然后分析原因并给出解决方案。

此外,作为一个AI全能助手,Devin还可以帮助人类训练和微调其他AI。对于一些常见的模型,你只需要提及模型的名称,Devin自己就知道要怎样去训练。

那人们需要做什么呢?按设想,最终的Devin会让人类只需要发号施令,其他什么也不用做。

它有哪些能力?

Devin 的主要特性有:

  • 能学习使用陌生的技术。仅仅是读完一篇博客,就可以用 ControlNet 生成带有隐藏信息的图片。

  • 端到端构建和部署应用。Devin 创建了一个模拟“生命游戏”的互动网站,它根据用户的需求逐步增加功能,然后将应用部署到 Netlify 上。

  • 自主查找并修复代码库中的错误。

  • 能训练并微调自己的 AI 模型,而这仅仅只需要一个 GitHub 研究库的链接。

  • 能处理开源仓库中的 Bug 和功能请求。

  • 能为开源项目做真正的贡献,修复 Bug、提交 PR。

Deven竟是由十人小公司开发?

Devin 背后的公司 Cognition AI ,该公司成立不到2个月,核心创始团队为3名华人由:Scott Wu(首席执行官)、Steven Hao(首席技术官)和 Walden Yan(首席产品官)组成,都是很早学编程的年轻新生代。Cognition的创始成员均曾在Scale AI 、Google 、DeepMind、Waymo等公司从事过AI前沿工作。

颇为吸睛的是,初创公司Cognition虽然只有十名员工,但他们手中却握着十块IOI(国际信息学奥林匹克竞赛)金牌。IOI 是国际信息学奥林匹克竞赛,基本是国内清北保送、天才少年的所在。

三、实际体验

Devin到底是一个漂亮的Demo,还是一个已经能替代程序员的智能体,使用体验怎么,拿到测试资格的网友第一时间分享了自己的体验。

在演示中,Devin几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作,效果一点不比普通程序员差。

但是,产品能力的边界在哪里,实际体验和演示时候有差距,还的看上手实测之后的效果。

一位斯坦福的小哥在Devin发布的第一时间就联系了团队,获得了第一手体验的资格。
在这里插入图片描述
他让Devin帮它做了几个难度不一的项目,录制了一个视频,在推上写下了自己的使用感受。

首先是让Devin做一个用API获取股票价格的软件,下一个任务是让Devin做一个可以让普通用户直接与大模型下棋的网站。

最终,小哥初步总结了用Devin开发的第一个网站的使用体验。

先说优点:

  • Devin产品化做得很好,他给人的使用体验是一个完整的产品而不是只是一个简单的对话框。

  • AI是系统最关键的部分,但支撑AI功能的产品化的结构是Devin的亮点。

  • Devin能够完成自动部署,API密钥保护,随时修改和添加需求等等非常好的各种功能。

  • 产品的完成度已经非常高了,远远超过了一般的演示Demo。

再说缺点:

  • Devin的反应还很慢,当然小哥也说,因为他用的是1M的Starlink来上网,所以反应慢很有可能是他自己的原因。

  • 其次就是还不能允许用户直接自己编辑代码,而且也没法协作完成。

  • 当然,最初那个下棋的应用,难住了Devin,最终没有完成部署。而那个数据可视化的任务,似乎也有些Bug。

网友看了这个实测之后还是感觉有点失望,毕竟这个任务一个初级程序员是能做到的,但是Devin的可视化项目的结果只做出了一个有Bug的网页。看样子Devin本质上还只是一个可以上网的大模型,现在要让他解决实际问题还有难度。
在这里插入图片描述

关于这里小哥具体的体验过程,参看:Devin第一手体验:开始编码就停不下来,但要替代程序员还很远

四、通过了面试,但不一定适合职场

首个AI程序员,已经实现了突破,目前的实际体验也许没有那么的优秀,但是再经过一段时间的发展,也许数十年后,上述问题都能得到解决,等到发展的相当成熟的时候,我们也不得不思考一个问题:它真的适合职场吗?

对于Deven是否适合职场,这是一个复杂且多角度的问题。从纯技术的角度来看,发展完善的Deven无疑展现出更强大的编程能力,能够快速、准确地完成编程任务。这使得它在某些特定的、高度技术化的职场环境中,可能表现出色。

然而,职场不仅仅是技术的竞技场,它更是一个涉及人际关系、团队协作、情感沟通等多方面因素的复杂系统。在这些方面,AI程序员如Deven目前还存在明显的局限性。它无法像人类一样进行深入的交流和沟通,无法理解和感受他人的情感和需求,因此在团队协作和人际关系处理上可能存在困难。

此外,职场中的很多决策并不仅仅基于技术因素,还涉及到战略、文化、价值观等多个方面的考量。这些都需要具备丰富经验和深厚洞察力的人类来做出判断。在这方面,AI程序员如Deven可能还无法完全替代人类。

因此,虽然Deven在技术上表现出色,但要说它完全适合职场可能还为时过早。毕竟,一个真正优秀的程序员不仅需要高超的技术能力,还需要具备良好的人际交往、团队协作和情感沟通能力。未来,随着AI技术的不断发展和完善,我们或许可以期待AI程序员在更多方面展现出其优势,但同时也需要认识到其局限性和挑战。在职场中,人类和AI的协作与互补可能将是一个更为现实和可行的方向。

五、结束语

此前面对 GPT 编程时,在《新程序员 007:大模型时代的开发者》中,我们提到,GPT 的编程能力我们需要有着很大的敬畏,但彼时,GPT 并不能独立解决完整的真实编程任务。

而现在,Cognition AI 这家此前从未听闻的公司,一群年轻人,创造了这样一款产品,让 AI 编程实现了一个巨大的飞跃。同济大学特聘教授朱少民表示,“看完 Devin 让我很是震撼,AI 编程比我们预想得要快,只会写代码的程序员下岗的可能性越来越大。”

自主编码智能体Devin已现AGI雏形!它能在几分钟内自主编写整个应用程序。这是真正无代码未来的开始。

因此,尽管Deven在技术上取得了令人瞩目的成就,但我们也不能盲目地认为它就是职场的完美选择。在未来的发展中,我们或许可以期待AI在编程领域取得更大的突破,但同时也需要关注它在职场中的适应性和局限性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1553807.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Python函数和类2/6】函数的参数

目录 目标 为函数设置参数 传递实参 关键字实参 关键字实参的顺序 位置实参 常见错误 缺少实参 位置实参的顺序 默认值形参 参数的优先级 默认值形参的位置 总结 目标 上篇博客中,我们在定义函数时,使用了空的括号。这表示它不需要任何信息就…

IDEA2021.1.2破解无限试用30天破解IDEA

安装包下载 IDEA安装包:Other Versions - IntelliJ IDEA破解包下载:文件 密码:c033 开始激活 IDEA 2021.1.3 运行, 中间会先弹出一个注册框,我们勾选 Evaluate for free, 点击 Evaluate, 先试用30天: 注意,如果没有…

Leo赠书活动-22期 【大模型在金融行业的应用场景和落地路径】文末送书

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏: 赠书活动专栏 ✨特色专栏:…

对form表单对象中数组中的字段进行校验的方法

当对form表单中&#xff0c;数组readings中的字段进行校验时&#xff0c;prop和rules绑定要写成动态的&#xff0c;如下代码 <div v-for"(item,index) in form.readings"><el-form-item label"上次读数" > <!--prop"scds"-->…

威联通安装Kafka

最近在学习 Kafka 的知识&#xff0c;遇到一些问题网上搜到的信息不全。想要在本地安装一个 Kafka 进行验证&#xff0c;想到了之前买的 Nas 就开始折腾。 用 Docker 的方式安装 Kafka 现在的 Nas 很多都支持 Docker&#xff0c;我买的也支持。威联通的 Docker 叫 Container S…

Ubuntu通过分用户进行多版本jdk配置

前言&#xff1a;本文内容为实操记录&#xff0c;仅供参考&#xff01; linux安装jdk参考&#xff1a;http://t.csdnimg.cn/TeECj 出发点&#xff1a;最新的项目需要用jdk17来编译&#xff0c;就把服务器的jdk版本升级到了17&#xff0c;但是有一些软件例如nexus还需要jdk1.8进…

【算法】第一篇 外观数列

导航 1. 简介2. 生成规则3. 代码演示1. 简介 外观数列是指数列中的每一项都是描述前一项的外观或者外貌。它通常由初始项开始,通过描述前一项的外观来生成下一项。外观数列最初由John H. Conway在1969年发现,并在他的著作《外貌数列和自动机理论》(The Construction of Look…

数据持久化第二课-C#高级特性

数据持久化第二课-C#高级特性 一.预习笔记 1.委托 1-1.委托的概述与声明 1-1-1&#xff1a;委托是一种引用类型&#xff0c;表示对具有特定参数列表和返回类型的方法的引用 1-1-2&#xff1a;可以通过委托实例调用方法。也可以使用委托将方法作为参数传递给其他方法 1-1-3…

《VulnHub》Lampião:1

title: 《VulnHub》Lampio&#xff1a;1 date: 2024-03-28 21:37:49 updated: 2024-03-28 21:37:50 categories: WriteUp&#xff1a;Cyber-Range excerpt: 关键技术&#xff1a;主机发现&#xff0c;端口扫描、服务探测、操作系统探测&#xff0c;对开放的端口探测漏洞&#x…

Vue-Electron配置及踩坑

前言 大道至简。太复杂的教程不看。 本篇将记述我创建好Vue3项目之后&#xff0c;用Electron把页面呈现出来的整个过程。会记录一些踩坑。 首先&#xff0c;Electron官网可以参考。但是它只是作出了一个普通的html结构该如何用Electron呈现出来&#xff0c;vue的配置有一些变…

防止恶意软件和网络攻击的简单贴士

如今&#xff0c;缺少互联网的生活是难以想象的。然而&#xff0c;互联网的匿名性导致了网络攻击和恶意软件很猖獗。恶意软件会损坏我们的设备、窃取个人数据&#xff0c;并导致金钱损失。因此&#xff0c;保护计算机免受这些威胁显得至关重要。 一、确保操作系统和软件是最新版…

【深度学习目标检测】二十五、基于深度学习的花卉分类系统-含数据集、GUI和源码(python,yolov8)

设计花卉分类系统的原因主要有以下几点&#xff1a; 组织和识别&#xff1a;分类系统有助于组织和识别大量的花卉品种。通过将花卉按照特定的标准进行分类&#xff0c;可以更容易地找到、识别和区分不同的花卉。 科学研究&#xff1a;分类系统为科学家提供了研究花卉的基础框架…

C++从入门到精通——缺省参数

缺省参数 前言一、缺省参数概念二、缺省参数分类位置参数的缺省参数全缺省参数半缺省参数 关键字参数的缺省参数函数指针的缺省参数lambda表达式 三、缺省参数的具体代码展示main.cpp 前言 缺省参数是在函数定义时指定的默认值&#xff0c;当调用函数时未提供该参数的值时&…

系统分析师-UML系列

系列文章目录 数学与经济管理 软件开发模型总结 文章目录 系列文章目录前言一、类图&#xff08;class diagram&#xff09;二、对象图&#xff08;object diagram&#xff09;三、构件图&#xff08;component diagram&#xff09;四、活动图&#xff08;activity diagram&am…

安卓调试桥ADB

Logcat 命令行工具 | Android Studio | Android Developers 什么是ADB ADB 全称为 Android Debug Bridge &#xff0c;是 Android SDK &#xff08;安卓的开发工具&#xff09;中的一个工具&#xff0c;起到调试桥的作用&#xff0c;是一个 客户端 - 服务器端程序 。其中 …

滑动窗口_水果成篮_C++

题目&#xff1a; 题目解析&#xff1a; fruits[i]表示第i棵树&#xff0c;这个fruits[i]所表示的数字是果树的种类例如示例1中的[1,2,1]&#xff0c;表示第一棵树 的种类是 1&#xff0c;第二个树的种类是2 第三个树的种类是1随后每一个篮子只能装一种类型的水果&#xff0c;我…

java项目:基于springboot实现的MBTI性格测试系统(分前后端)

一、项目介绍 本项目是一套基于springboot实现的个人性格测试系统&#xff0c;主要针对计算机相关专业的正在做bishe的学生和需要项目实战练习的Java学习者。 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目可以直接作为bishe使用。 项目都经过严格调试&#xff0…

SpringCloudConfig 使用git搭建配置中心

一 SpringCloudConfig 配置搭建步骤 1.引入 依赖pom文件 引入 spring-cloud-config-server 是因为已经配置了注册中心 <dependencies><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-config-server</…

1. Java概述

文章目录 1.Java语言概述1.1 Java介绍1.1.1 软件开发概述1.1.2 计算机语言1.1.3 Java 简史1.1.4 Java 技术体系平台1.1.5 Java在各领域的应用1.1.6 Java语言特点1.1.7 Java核心机制一-Java虚拟机1.1.8 Java核心机制二-垃圾回收1.1.9 Java开发工具 1.2 Java环境搭建1.2.1 JDK、J…

对接中泰极速行情 | DolphinDB XTP 插件使用教程

XTP 是中泰证券推出的高性能交易平台&#xff0c;专为专业投资者提供高速行情及交易系统&#xff0c;旨在提供优质便捷的市场接入通道。目前支持股票、基金、ETF、债券、期权等多个市场&#xff0c;可满足不同投资者需求。 基于 XTP 官方 C SDK&#xff0c;DolphinDB 开发了 X…