【AI大模型】程序员AI的未来——Copilot还是Claude3.5 Sonnet?

news2024/9/21 11:55:33

近期,Anthropic发布了Claude 3.5 的“大杯”模型 —— Claude 3.5 Sonnet!

这次发布的 Sonnet 代表意大利的“十四行诗”,结构复杂,在智能水平、功能多样性和处理能力上都有所提升,能够应对更复杂的认知任务,提供更高质量的输出。

Claude 3.5 Sonnet 作为 Claude 3.5 系列的首个模型版本,在行业智能水平上取得了显著提升。它不仅超越了竞争对手的性能,还超越了自家的上一代“超大杯” Claude 3 Opus,同时保持了与中端模型 Claude 3 Sonnet 相同的速度和成本优势。

Sonnet 在研究生级推理(GPQA)、本科级知识(MMLU)和编程能力(HumanEval)方面都设立了全新的行业标准。

它在理解细微差别、幽默和复杂指令方面有显著提高,并能以自然、易于理解的语调撰写高质量内容。其运行速度是 Claude 3 Opus 的两倍,性能提升与成本效益相结合,使 Claude 3.5 Sonnet 成为复杂任务的理想选择,例如上下文敏感的客户支持和多步骤工作流程的管理。

划重点,在编程能力方面都设立了全新的行业标准。

我记得,ChatGPT4o的Copilot号称最强编程插件。

👉 GPT功能:

  1. GPT-4o知识问答:支持1000+token上下文记忆功能
  2. 最强代码大模型Code Copilot:代码自动补全、代码优化建议、代码重构等
  3. DALL-E AI绘画:AI绘画 + 剪辑 = 自媒体新时代
  4. 私信哪吒,直接使用GPT-4o

在这里插入图片描述

下面从7个方面,横向对比一下ChatGPT4o和Claude 3.5 Sonnet,看谁的编程能力更强。

round 1:图片识别能力

上传一张图片,是经典算法题“猴子吃桃”的题目。

PS:只上传图片,啥也不说,对比一下ChatGPT4o和Claude3.5 Sonnet的图片识别能力和理解能力。

原图:

ChatGPT4o

ChatGPT4o识别了图片内容,不过默认转化为了英文。

ChatGPT4o给出了解决方案,默认是Python语言。

ChatGPT4o最后给出了代码的解释说明:

Claude3.5 Sonnet

Claude3.5 Sonnet识别了图片内容,默认也是英文。

Claude也识别出这是一道算法题,并给出了解决问题需要的算法,不过只给出了一个简单的解题思路。

图片识别能力小结:

在我看来,ChatGPT4o完全理解了我的用意,不仅识别了图片内容,还给出了解题思路、代码示例和解释说明,图片识别能力堪称完美。

反观Claude3.5 Sonnet,只是识别了图片中的内容,给出了了一个简单的解题思路。

图片识别能力,ChatGPT4o完胜。

round 2:代码能力

Prompt:请根据上面描述,给出解题思路,通过Java代码解答此题,关键代码添加注释,并根据示例中的输入输出进行代码测试,代码如果有错误,请重新修改代码

ChatGPT4o

ChatGPT4o给出了解题思路、Java代码、代码解释、测试用例。

Claude3.5 Sonnet

Claude给出了解题思路、Java代码、代码解释、测试用例、时间复杂度。

验证代码正确率,我们将ChatGPT4o和Claude的代码Copy到Idea中,通过测试用例测试一下。

测试通过,通过率100%。

代码review:

如下图所示,左侧为ChatGPT4o,右侧为Claude3.5 Sonnet。

肉眼可见,ChatGPT4o代码共74行,Claude共54行,相差20行。Claude3.5 Sonnet明显更加简洁。

代码能力小结:

ChatGPT4o给出了解题思路、Java代码、代码解释、测试用例。

Claude3.5 Sonnet给出了解题思路、Java代码、代码解释、测试用例,还给出了算法的时间复杂度。

ChatGPT4o与Claude3.5 Sonnet的代码都没有问题,通过率100%。

通过review代码,Claude3.5 Sonnet明显更加简洁。

代码能力,Claude3.5 Sonnet小胜。

round 3:代码优化

PS:我们将“通过回溯算法解答猴子吃桃的代码”发给它们,让它们对代码进行优化。

ChatGPT4o

ChatGPT4o指出了代码存在4个问题:

  1. 效率低,递归回溯,时间复杂度为 O(N)
  2. 递归深度限制,可能会导致 StackOverflowError
  3. 不必要的排序
  4. 全局变量使用,不符合编码规范

ChatGPT4o给出了优化后的代码、关键点、下一步改进建议。

Claude3.5 Sonnet

Claude指出了代码存在4个问题:

  1. 效率低,递归回溯,时间复杂度为 O(N)
  2. 不必要的排序
  3. 全局变量使用,不符合编码规范
  4. 代码没有处理输入异常的情况

Claude给出了优化建议、优化后的代码、优化说明、小总结。

代码优化小结:

ChatGPT4o和Claude都指出了4项问题,给出了优化建议、优化代码,略有差异,区别不大。

代码优化能力,旗鼓相当。

round 4:解读代码

Prompt:请给出代码的解题思路

ChatGPT4o

ChatGPT4o给出了具体的解题思路、优化后的代码、代码解析、建议的下一步改进

Claude3.5 Sonnet

Claude3.5 Sonnet给出了优化后代码的解题思路:

  1. 问题分析
  2. 输入处理
  3. 初始验证
  4. 二分查找最小速度
  5. 验证函数
  6. 返回结果
  7. 分析代码优势

Claude3.5并没有再次输出代码,其实这一点是好评的,因为上面已经输出过了,完全没必要再次输出。

解读代码小结:

ChatGPT4o看似给的东西比较多,Claude3.5只是返回了解题思路。

但是,提示词就是输出代码的解题思路,ChatGPT4o反而有点本末倒置了。

解读代码能力,Claude3.5 Sonnet小胜。

round 5:测试用例及说明

Prompt:给出3个测试用例和说明

ChatGPT4o

ChatGPT4o给出了三个测试用例,涵盖了不同的场景、完整代码及测试用例、测试用例结果

Claude3.5 Sonnet

Claude3.5 Sonnet给出了3个测试用例,并对每个用例进行详细说明。

这些测试用例涵盖了几种不同的情况:

  1. 正常情况,需要计算的最小速度
  2. 需要较高速度才能完成的情况
  3. 无法完成任务的情况(时间不足)

解读代码小结:

ChatGPT4o给出的东西很多,又输出一遍完整代码,但是回答内容有些重复。

Claude3.5 Sonnet给出了3个测试用例,并对每个用例进行详细说明,还指出了3个测试用例覆盖了3种不同的情况。

测试用例及说明能力,Claude3.5 Sonnet小胜。

round 6:Java转Python

Prompt:将代码转为Python语言

ChatGPT4o

ChatGPT4o给出了Python代码、关键代码解析、测试用例

Claude3.5 Sonnet

Claude3.5给出了Python代码、解题思路、时间复杂度

转码能力小结:

ChatGPT4o和Claude3.5都给出了Python代码、解题思路、测试用例,测试后,通过率100%。

转码能力,旗鼓相当。

round 7:添加注释

ChatGPT4o

Claude3.5 Sonnet

ChatGPT4o和Claude3.5都为Python代码添加了详细的代码注释,能力堪称顶级。

添加注释能力,旗鼓相当。

总结

我们分别从七大方面对比了ChatGPT4o和Claude3.5 Sonnet。

  1. 图片识别能力,ChatGPT4o完胜
  2. 代码能力,Claude3.5 Sonnet小胜
  3. 代码优化能力,旗鼓相当
  4. 解读代码能力,Claude3.5 Sonnet小胜
  5. 测试用例及说明能力,Claude3.5 Sonnet小胜
  6. 转码能力,旗鼓相当
  7. 添加注释能力,旗鼓相当

就今天的测试而言,我们不难看出,Claude3.5 Sonnet在代码能力方面,小胜ChatGPT4o。

屏幕前的你,是不是也想试一下打败了Copilot的Claude3.5 Sonnet。

👉 GPT功能:

  1. GPT-4o知识问答:支持1000+token上下文记忆功能
  2. 最强代码大模型Code Copilot:代码自动补全、代码优化建议、代码重构等
  3. DALL-E AI绘画:AI绘画 + 剪辑 = 自媒体新时代
  4. 私信哪吒,直接使用GPT-4o

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1943338.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

进程与进程函数

目录 进程与程序 1.1进程是什么 1.2程序,进程之间的关系 1.3进程的生存环境 1.4进程的状态转换 1.5关于内核层与用户层 1.6保存和恢复处理器现场 进程原语 2.1fork() ​编辑 2.1.1父子进程的继承 2.1.2父子进程共享fork()栈帧 2.1.3打印进程id和父进程i…

【OpenREALM学习笔记:14】单目视觉SLAM方法在UAV影像上重建三维地形的思考

最近在学习SLAM技术与测绘三维影像重建的相关知识,结合自己的感受,撰写一下对于单目视觉SLAM利用无人机影像重建三维地形的一些看法。 1. 单目视觉SLAM系统在三维地形重建中所面临的挑战有哪些? 单目视觉SLAM众所周知的一个问题是&#xff…

C# 委托函数 delegate

在C#中,委托(Delegate)是一种特殊的类型,它可以持有对方法的引用。 委托是实现事件的基础。事件本质上是多播委托,允许多个方法被触发 委托允许你将方法作为参数传递给其他方法,或者将方法作为返回值从方法…

feed流(投喂)

1、拉模式: 优缺点:节省空间,只存一份,赵六在需要的时候直接去读。延迟高,耗时长。如果关注的人多的话,就会一次性拉取的很大,造成拥塞。 2、推模式 优缺点:延迟低,耗时少…

嵌入式C++、STM32、树莓派4B、OpenCV、TensorFlow/Keras深度学习:基于边缘计算的实时异常行为识别

1. 项目概述 随着物联网和人工智能技术的发展,智能家居安全系统越来越受到人们的关注。本项目旨在设计并实现一套基于边缘计算的智能家居安全系统,利用STM32微控制器和树莓派等边缘设备,实时分析摄像头数据,识别异常行为(如入侵、跌倒等),并及时发出警报,提高家庭安全性。 系…

内存卡损坏读不出怎么修复?内存卡数据恢复的7个方法请收好!

当面对内存卡损坏、无法读取数据的困扰时,许多人会感到焦虑和困惑。尤其是当这些卡中存储着珍贵的照片、视频或文件时,这种困扰更显得令人不安。您是否也曾因内存卡损坏而无法显示照片或遭遇需要格式化的提示而感到困扰?在我们日常的生活中&a…

power bi文本,截取及查找函数

power bi文本,截取及查找函数 1. 文本函数1.concatenate函数2. exact 函数3. find函数4. search函数 2. 截取函数1. fixed 函数2. 大小写转换3. trim函数4.rept函数5. replace 函数6. substitute函数 3. 查找匹配函数1 contains函数2. treatas 函数3. ContainsString函数4. Con…

GPT模型为什么能生成有意义的文本

GPT模型的底层,其实是谷歌团队推出的Transformer模型。但是在GPT-3出现之前,大家一直对它没有多少了解。直到它的参数数量突破1750亿个的时候,它才建立起一个庞大的神经网络,这个神经网络最突出的特点是大数据、大模型和大计算。其…

宠物经济纵深观察:口红效应显著,呈可持续发展态势

七月以来,全国各地陆续开启高温模式。和人一样,“毛孩子们”同样也难耐高温,由此,围绕猫猫狗狗的“宠物经济”迅速升温,宠物冰垫、宠物饮水机、宠物烘干机......一系列宠物单品掀起夏日消费热潮。 就在几天前&#xf…

mysql的主从复制和读写分离:

mysql的主从复制和读写分离: 主从复制 面试必问:主从复制的原理 主从复制的模式: 1、mysql的默认模式: 异步模式 主库在更新完事务之后会立即把结果返回给从服务器,并不关心从库是否接受到,以及从库是…

汽车研发项目管理系统排行榜:五大热门汽车项目管理系统推荐

汽车研发项目管理软件在汽车制造行业中扮演着至关重要的角色,本文介绍了五款在汽车及零部件领域专业的项目管理软件。 一、 奥博思 PowerProject 企业级项目管理系统 奥博思 PowerProject 项目管理系统(支持项目管理、项目集管理、项目组合管理三位一体…

LLM之RAG理论(十二)| RAG和Graph RAG对比

最近Graph RAG非常火,它来自微软的一篇论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》,论文地址:https://arxiv.org/pdf/2404.16130。本文将对RAG 和 Graph RAG在架构和成本方面做简要分析。 一、RAG …

家里灰尘多又不想打扫。教你一招,省时省事,除尘很轻松

出差半个月前,我住在新装修的房子里两周。在新餐桌上铺了一块桌布,结果一周后布上就积了一层灰尘。而且,那些夜里,我经常听到妻子剧烈咳嗽,令人担心。她有中度肺部疾病,平时非常注意卫生,每天都…

mysql高阶语句:

mysql高阶语句: 高级语法的查询语句: select * from 表名 where limitsdistinct 去重查询like 模糊查询 排序语法:关键字排序 升序和降序 默认的排序方式就是升序 升序:ASC 配合order by语法 select * from 表名…

大模型应用—大模型赋能搜索

大模型赋能搜索 AI正在改变搜索体验,使其对我们来说更加智能、个性化和高效。 你可能会想,“但是谷歌已经足够好了!”首先,谷歌的搜索相关性和个性化是有代价的,那么跨不同媒体类型的搜索呢?对于最相关的信息格式,甚至是自动化某些任务,比如抓取网站、索引内容和搜索…

因为很会用工具,拿下了很多客户!

作为一名想要得到更多业绩的打工人,能提高工作效率的工具一定要拥有! 今天,就给大家分享一个职场必备的提效神器,一起来看看它都有哪些功能吧! 1、多渠道客源 它可以从多个渠道去获取你想要的客户资源,无…

CSS画边框线带有渐变线和流光边框实例

流光边框css流光边框动画效果_哔哩哔哩_bilibili流光边框css流光边框动画效果_哔哩哔哩_bilibili纯CSS写一个动态流水灯边框的效果~_哔哩哔哩_bilibili荧光边框CSS 动画发光渐变边框特效_哔哩哔哩_bilibili [data-v-25d37a3a] .flow-dialog-custom {background-col…

简单使用SpringMVC写一个图书管理系统的登入功能和图书展示功能

准备好前端的代码 这里已经准备好了前端的代码,这里仅仅简单的介绍登入功能,和展示图书列表的功能。 如图: 如上图所示,这里的前端代码还是比较多的,在这里我介绍,login.html还有book_list.html这两个。 l…

springboot智慧草莓基地管理系统--论文源码调试讲解

3 系统分析 当用户确定开发一款程序时,是需要遵循下面的顺序进行工作,概括为:系统分析-->系统设计-->系统开发-->系统测试,无论这个过程是否有变更或者迭代,都是按照这样的顺序开展工作的。系统分析就是分析…

golang 基础 泛型编程

(一) 示例1 package _caseimport "fmt"// 定义用户类型的结构体 type user struct {ID int64Name stringAge uint8 }// 定义地址类型的结构体 type address struct {ID intProvince stringCity string }// 集合转列表函数&#…