GPT vs Claude到底如何选?

news2024/12/27 7:14:33

美国当地时间6月20日,OpenAI的“劲敌”Anthropic公司发布了最新模型Claude 3.5 Sonnet。据Anthropic介绍,该模型是Claude 3.5系列模型中的首个版本,也是Anthropic迄今为止发布的“最强大、最智能”的模型。它不仅在性能上超越了竞争对手和自家此前最先进的Claude 3 Opus模型,还主打高性价比。

从这张图可以看出,cluade3.5作为Anthropic的主力模型,在性能上远超上一代最强模型Opus,并且在价格上低于Opus,是目前Anthropic对企业用户和C端用户的主要服务模型。和GPT4o相比,在多个评测榜单上追平甚至赶超GPT4o最新模型。

从官方的评测可以看到,在高级专业领域(GPQA)、中学考试知识(MMLU)上Claude3.5的得分都超过了GPT4o,表现了模型在基础知识能力上的领先,另一方面在代码和数学上也全部超越GPT4o。尤其是在代码上能力上,Claude3.5上线以来大幅推动了代码类工具发展,原来的模型只能写几百行的代码,现在Claude3.5可以写到上千行的代码不出错。并且在调试上可以看到Claude非常强的指令follow能力,这对于小白开发和程序debug非常重要(这也是国产模型和国外领先模型差距最大的地方,国产模型经常聊几句就会忽略用户的核心意图)。除了官方给的评测,本文基于用户使用视角,对两个模型做些评测,看看用户体感和模型在公开评测集上表现是否一致。

随着AI模型的不断进化,传统的评估标准已经逐渐变得陈旧和不再适用。以经典的“喝水测试”为例(三人三天三桶水,九人九天几桶水),过去广泛应用于检测模型能力,但现如今即便是国内的一些先进模型,也能够轻松答对这些简单的问题。因此,我们亟需引入更为复杂的测试题目来全面考察模型的能力。最近,一项研究引起了广泛关注——一项关于浮点数比较的问题,“13.11 > 13.8”竟然引发了热议,导致了人类与AI在处理这一数学题时表现得相当迷惑。尽管这道题目看似简单,几乎所有的国产和国外模型都对其感到棘手。一个月过去了,我们来检验一下最新的Claude 3.5和GPT-4o,看看这些模型是否已经突破了这一问题。从结果来看,Claude 3.5已经能够给出正确答案,而GPT-4o仍然存在困难。

Claude-3.5-sonnet

GPT4o

模型“幻觉”问题评测。这一问题的根本原因在于目前的大多数模型基于概率推断,它们容易给出“无中生有”的答案,特别是在一些复杂的任务中,模型难以意识到自己的局限性。这也是为什么这些大模型在实际应用中往往无法完全落地的原因之一。因此,了解模型的边界变得尤为重要。为此,我们通过一道经典的背诵歌词测试来评估模型的幻觉表现——“周杰伦《枫》”的歌词是什么?
首先来看GPT-4o的表现。我们可以看到,GPT-4o在回答的第一句中表现得还算准确,但随后的回答开始出现了许多虚构内容。虽然大致的意思还是对的,但模型并未能够准确复述原歌词。这种现象在AI模型中并不少见,表明模型在记忆的精确度上存在偏差。接下来,我们测试了国产领先模型GLM4的表现,结果却并不如预期。GLM4的回答完全是凭空创作,甚至偏离了原歌词的主题和风格。

GPT4o

然而,Claude 3.5的表现则给我们带来了惊喜。当模型无法准确回答时,它选择了给出“不知道”的回答,并同时提供了对歌词的大意描述。这种避免幻觉的处理方式在AI中极为罕见,展现了Claude在面对“不知道”的情况时,能够做出合理而自信的选择。

Claude-3.5-sonnet

写作能力对比:Claude 3.5与GPT-4o的差异
现代AI模型在文章写作方面的能力也在不断提升,然而许多模型所产出的文本依然显得“AI味”十足,缺乏人类写作的细腻与情感。为了对比Claude 3.5与GPT-4o在写作风格上的差异,我们选择了一段文章并要求它们进行仿写,目的是模仿头条新闻的风格。以下是两者的表现:

Claude-3.5-sonnet

Claude 3.5的仿写明显更为细腻,语言使用上更具人性化,并且在内容中加入了诸如“有用户反馈”等表述,使得文章更符合新闻写作的惯用方式。这种细致入微的写作风格,使得Claude在仿写任务中展现出了强大的语言表达能力。

GPT4o

相比之下,GPT-4o的仿写风格则显得较为平淡,表述较为中规中矩,缺乏复杂的修辞和表达。虽然GPT-4o的写作没有明显错误,但与Claude的细腻程度相比,仍显得略为逊色。
总结与展望
尽管Claude在国内使用时可能会面临一些挑战,但它在处理复杂任务时所展现的能力无疑令人印象深刻。特别是在避免“幻觉”问题以及在文章写作方面的细腻程度上,Claude 3.5展现出了强大的优势。在未来,随着AI技术的不断发展,选择合适的工具和方法,用户完全可以在不同场景下获得更流畅的体验。

最后,针对Claude的最新使用方案,这里推荐一个无魔法平台AIBox,支持GPT4o、Claude3.5、Gemini1.5等最先进模型,国内直达,一站式解决AI使用问题。

AIBox365 - ChatGPT中文版,一站式AI创作平台

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2253492.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式——Chain(责任链)设计模式

摘要 责任链设计模式是一种行为设计模式,通过链式调用将请求逐一传递给一系列处理器,直到某个处理器处理了请求或所有处理器都未能处理。它解耦了请求的发送者和接收者,允许动态地将请求处理职责分配给多个对象,支持请求的灵活传…

SQLite:DDL(数据定义语言)的基本用法

SQLite:DDL(数据定义语言)的基本用法 1 主要内容说明2 相关内容说明2.1 创建表格(create table)2.1.1 SQLite常见的数据类型2.1.1.1 integer(整型)2.1.1.2 text(文本型)2…

【Elasticsearch】实现分布式系统日志高效追踪

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…

WEB安全 PHP学习

PHP基础 PHP编码显示问题 header ("Content-type: text/html; charsetgb2312"); header("Content-Type: text/html;charsetutf-8"); windows需要使用gbk编码显示 源码是 <?php header ("Content-type: text/html; charsetgb2312"); sys…

MySQL 单表练习

DQL练习1-学生表 创建如下学生表 create table student( id int, name varchar(20), gender varchar(20), chinese int, math int, english int ); insert into student values (1,张明,男,89,78,90), (2,李进,男…

详解Java数据库编程之JDBC

目录 首先创建一个Java项目 在Maven中央仓库下载mysql connector的jar包 针对MySQL版本5 针对MySQL版本8 下载之后&#xff0c;在IDEA中创建的项目中建立一个lib目录&#xff0c;然后把刚刚下载好的jar包拷贝进去&#xff0c;然后右键刚刚添加的jar包&#xff0c;点击‘添…

第32天:安全开发-JavaEE应用Servlet路由技术JDBCMybatis数据库生命周期

时间轴&#xff1a; 32天主要学习内容&#xff1a; 1、JavaEE-HTTP-Servlet技术 2、JavaEE-数据库-JDBC&Mybatis java技术使用历史&#xff08;2023 &#xff09;&#xff1a; JavaEE-HTTP-Servlet&路由&周期: java学习范围&#xff1a; 3、Java: 功能:数据…

【大数据技术基础】 课程 第3章 Hadoop的安装和使用 大数据基础编程、实验和案例教程(第2版)

第3章 Hadoop的安装和使用 3.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台&#xff0c;为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的&#xff0c;具有很好的跨平台特性&#xff0c;并且可以部署在廉价的计算机集群中。H…

VTK中矩阵vtkMatrix4x4类的介绍和使用

1、矩阵-齐次坐标介绍 常见的点一般是Pt&#xff08;X,Y,Z&#xff09;&#xff0c;相当于一个13矩阵&#xff0c;而矩阵相乘的话一般是第一个矩阵的列数要等于第二个矩阵的行数。此处需要引入齐次坐标的概念&#xff1a;从广义上讲&#xff0c;齐次坐标就是用n1维向量表示n 维…

RoGS: Large Scale Road Surface Reconstruction based on 2D Gaussian Splatting

RoGS 摘要简介RoGS基于高斯面元的道路表面表示(Road Surface Representation Based on Guassian Surfel)2D Gaussian Surfel:Road Surface Modeling:Why use 2D Gaussian Surfels? 基于轨迹的初始化&#xff08;Trajectory-base Initialization&#xff09;优化&#xff08;Op…

使用 postman 传递 binary 类型的图片到后端接口遇到的坑

使用 psotman 传 binary 类型图片报错&#xff1a; -2024-12-04 [http-nio-9090-exec-1] WARN org.springframework.web.servlet.mvc.support.DefaultHandlerExceptionResolver Resolved [org.springframework.http.converter.HttpMessageNotReadableException: Required r…

微服务通讯系统(2)

软件设计及核心代码展示 数据库表设计&#xff0c;ES搜索表设计&#xff0c;Redis键值对设计 数据库表设计 &#xff08;1&#xff09;用户表设计 这里的ID是指的是在系统中用户是第几个注册的&#xff08;从1开始&#xff09; user_id是指用户的唯一ID是通过uuid()函数生成…

修复docker启动失败:Failed to start Docker Application Container Engine

配置了镜像源之后&#xff0c;运行sudo systemctl restart docker.service失败&#xff0c;提示让运行systemctl status docker.service或journalctl -xeu docker.service查看详细信息。 运行后者发现有如下日志&#xff1a; 红色区域是我设置的一个镜像源这个日志的意思就是…

神经网络入门实战:(十四)pytorch 官网内置的 CIFAR10 数据集,及其网络模型

(一) pytorch 官网内置的网络模型 图像处理&#xff1a; Models and pre-trained weights — Torchvision 0.20 documentation (二) CIFAR10数据集的分类网络模型&#xff08;仅前向传播&#xff09;&#xff1a; 下方的网络模型图片有误&#xff0c;已做修改&#xff0c;具…

微信小程序wx.showShareMenu配置全局分享功能

在app.js文件中配置如下即可&#xff1a; onLaunch() {//开启分享功能this.overShare()},/*** 开启朋友圈分享功能* 监听路由切换/自动执行*/overShare() {wx.onAppRoute((res) > {// console.log(route, res)let pages getCurrentPages()let view pages[pages.length - …

Java刷题常见的集合类,各种函数的使用以及常见的类型转化等等

前言 相信大家在刷算法题的过程中&#xff0c;好不容易想出来大概的思路&#xff0c;也知道去用哪个集合类&#xff0c;但各个集合类的一些命令都长得太像&#xff0c;很容易将他们弄错&#xff0c;并且在各集合之间的转化也是特别烦人&#xff0c;还有很多实用的函数都知道可…

用 NotePad++ 运行 Java 程序

安装包 网盘链接 下载得到的安装包: 安装步骤 双击安装包开始安装. 安装完成: 配置编码 用 NotePad 写 Java 程序时, 需要设置编码. 在 设置, 首选项, 新建 中进行设置, 可以对每一个新建的文件起作用. 之前写的文件不起作用. 在文件名处右键, 可以快速打开 CMD 窗口, 且路…

【金猿CIO展】复旦大学附属中山医院计算机网络中心副主任张俊钦:推进数据安全风险评估,防范化解数据安全风险,筑牢医疗数据安全防线...

‍ 张俊钦 本文由复旦大学附属中山医院计算机网络中心副主任张俊钦撰写并投递参与“数据猿年度金猿策划活动——2024大数据产业年度优秀CIO榜单及奖项”评选。 大数据产业创新服务媒体 ——聚焦数据 改变商业 数据要素时代&#xff0c;医疗数据已成为医院运营与决策的重要基石…

计算机视觉——相机标定(Camera Calibration)

文章目录 1. 简介2. 原理3. 相机模型3.1 四大坐标系3.2 坐标系间的转换关系3.2.1 世界坐标系到相机坐标系3.2.2 相机坐标系到图像坐标系3.2.3 像素坐标系转换为图像坐标系3.2.4 世界坐标转换为像素坐标 3.3 畸变3.3.1 畸变类型3.3.1.1 径向畸变&#xff08;Radial Distortion&a…

Go学习:编译器(编写程序时应该注意的点)

一、注意&#xff1a; LiteIDE工具&#xff1a; &#xff08;1&#xff09;创建项目后&#xff0c;同一个目录下的go文件 只能有一个 main函数&#xff0c;如果多个文件都有main函数&#xff0c;会出现编译错误。例如&#xff1a; &#xff08;2&#xff09;如果一个目录下多…