新模型Claude 3实测!各项能力超强,确实比GPT-4好用

news2025/1/19 20:40:51

2024最新教程Claude 3注册账号,小白教程包教包会

过去不到一个月,OpenAI 扔出 Sora 这个重磅炸弹后成为全球焦点,不断推出的视频更是赚足眼球、热度不减。昨晚,Anthropic 突然惊喜上线,时隔八个月携着 Claude 3 走来,让世界再次将目光聚焦到这一个被视为 ChatGPT 强大竞争对手之一的多模态模型。

1

响应速度达即时水准

长文本与多模态双拳出击

图片

据 Anthropic 官方表示,Claude 3 是针对不同功能的一个模型系列,分别是:Opus、Sonnet 和 Haiku。尽管 Anthropic 并未给出 Claude 3 模型的具体参数,但也公布了此三个版本在各自性能和适配的任务上的差异,具体表现为:

  • Claude 3 Opus——最智能的模型,可跨 API 和数据库规划和编码,在药物研发、市场分析等高度复杂的任务上具有最佳性能。
  • Claude 3 Sonnet——平衡智能和速度,其高耐用性更适合企业,更实惠和适合规模化。
  • Claude 3 Haiku——最快、最紧凑的模型,具有近乎即时的响应能力,能提供无缝问答体验。

目前,Opus 和 Sonnet 现已可以使用,而 Claude 的 API 也已在159 个国家/地区广泛开放。其中,开发者们可以在官网上免费体验最经济实惠的 Sonnet,而 Opus 则需要 订阅 Claude Pro 后付费使用。

与大半年前发布的 Claude 2 相比, Claude 3 有什么令人瞩目的进步呢?

首先,Claude 3 响应速度接近即时。

Claude 3 模型支持实时对话、自动完成和数据提取任务。对于绝大多数工作负载,Claude 3 Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。Sonnet 擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似,但拥有更高的智能水平。而 Haiku 作为速度最快且最具成本效益的型号,它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

其次,Claude 3 大大增强了对语境的理解,减少了不必要的拒绝。

Anthropic 在语境理解的领域取得了有显著进展。与前几代模型相比,Claude 3 Opus、Sonnet 和 Haiku 发出拒绝回答提示的可能性明显降低,展现出 Claude 3 模型家族能对请求表现出更细致的理解,能够识别真正的伤害,并且拒绝回答无害提示的频率要少得多。

图片

另一方面,Claude 3 还提高了回答的准确性。Anthropic 官方表示,他们使用了大量复杂的事实问题来针对解决当前模型中已知的弱点,将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型“承认不确定性”表示它不知道答案,而不是提供不正确的信息。

图片

与 Claude 2.1 相比,Opus 在具有挑战性的开放式问题上的准确性提高了一倍,同时也减少了错误答案的水平。另外, Anthropic 很快还将在 Claude 3 模型中启用引用功能,以便用户可以指向参考材料中的精确句子来验证他们的答案。

尽管由 Sora 引发的文生视频热潮似乎已成为2024年的新趋势,但毋庸置疑的是,以长文本为核心的大语言模型依旧是各大科技巨头的兵家必争之地。

同老对手OpenAI GPT-4与谷歌 Gemini Pro相比,Claude 3 的优势又在哪里呢?

Claude 本次更新的一大亮点,在于长文本能力的升级以及对多模态能力的突破。

Anthropic 在推出 Claude 3 时升级了其复杂视觉功能,使其领先于其他模型,多模态能力比肩GPT-4V。

Claude 3 可以处理各种视觉格式,包括照片、图表、图形和技术图表,在数学推理、文档视觉、科学图表等各方面性能超越 GPT-4V,能让企业客户的知识库高达 50% 以各种格式编码,例如 PDF、流程图或演示幻灯片。

图片

至于在原本就拥有的长文本分析优势上, Anthropic 也做出了升级。

Claude 3 提升了上下文对话窗口,最高达到200k。值得一提的是,它还具有超强的回忆能力。Claude 3 Opus 能够 “大海捞针”(NIAH),即通过将一个特定的句子(即“针”)隐藏在一堆看似杂乱无章的文档(即“大海”)中,然后询问一个只有通过找到那个“针”才能回答的问题,从而考察模型的信息回忆能力。

图片

研发团队通过在每个提示中使用 30 个随机“针”对其中之一并在不同的众包文档库上进行测试,增强了该基准的稳健性。测试证明,Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率,而且在某些情况下,它甚至可以通过识别“针”这句话似乎是人类人为插入到原文中来识别评估本身的局限性。

英伟达首席AI科学家 Jim Fan 在 Claude 3 发布后立即表示其他LLM也应该像 Anthropic一样出击金融、医药等需要专业意见和优质报告的领域:

图片

Claude 3 的发布极为低调,直接在X上丢出一个链接。而最让人眼前一亮的便是,Claude 3发布后即提供了免费试用的机会,此举吸引了大量用户积极参与体验。在社交媒体X上,一位博主发起了一场有趣的测试挑战,上传了一张酷狗的图片,并使用免费版Claude 3进行尝试,以检验其对图像内容的理解和描述能力。最终结果显示,相较于ChatGPT,Claude 3对于该图片信息的解读更详尽、贴切。

图片

最后,在多模态场景下,博主让Claude解读一篇论文的部分内容,其分析逻辑清晰、准确。尽管如此,在信息丰富度方面,Claude的表现略逊于GPT-4,尚有提升空间,特别是在多模态信息整合与呈现的能力上,仍有待进一步加强。

图片

2

双管齐下锁定企业市场:

Claude 3的定价策略

Claude 3,这款颠覆了大模型领域格局的AI产品背后母公司Anthropic,是一家战略上秉承谨慎与安全优先原则的初创企业。自公司创立之日起,其核心科研工作始终聚焦在人工智能治理和模型安全性的强化上。即使面对2023年ChatGPT在全球范围内引发的性能竞赛热潮,Anthropic并未盲目追求技术性能指标上的超越,而是坚守对AI安全的重视。

去年9月,Anthropic获得了亚马逊高达40 亿美元,约 280 亿人民币的重磅投资。获得巨头青睐的原因,一方面是其卓越的技术能力,另一方面,业界普遍认同,该公司的技术创新策略首先是确保服务于构建可靠且安全的人工智能框架,其次才是对技术极限进行探索和突破。

这意味着,在追求卓越的同时,Anthropic始终坚持将安全性作为其AI产品和技术研发的基石。

其创始人 Daniela Amodei 与 Dario Amodei 是两兄妹。

值得一提的是,Daniela Amodei 是该公司的总裁,曾负责监督 OpenAI 的政策和安全团队在加入 OpenAI 之前,她曾公开表示 Anthropic 的安全第一政策是其主要差异化优势之一。这也决定了Claude系列以安全为首的技术基因。

在Claude3 技术文档中,我们也看到了Anthropic对安全理念的一以贯之。

Claude 3团队表明:现阶段已经组建了多个专门团队,负责监控和减少一系列广泛的风险,包括错误信息、儿童性剥削材料(CSAM)、生物滥用、选举干预以及自主复制能力等。并将持续开发如宪法式 AI 等方法,以提升模型的安全性和透明度,并对模型进行了调整优化,以降低由新型模态引发的隐私问题。

对于日益复杂的模型中所存在的偏见问题,根据问题回答偏见基准测试(BBQ),Claude 3 模型相比之前的产品表现出更少的偏见。

团队将继续致力于推动减少偏见并促进模型更大程度中立性的技术进步,确保它们不会偏向任何特定的政治立场。

图片

实质上,关于AI 安全的问题,在此前一直是一个争议的热点。曾获得图灵奖、被称为“AI 教父”的加拿大计算机科学家 Yoshua Bengio就曾呼吁,AI 领域被少数科技公司控制的可能性,将会是该技术带来生存风险之后的“第二大问题”。

Anthropic 的创始团队从 OpenAI 出来,并且参加过 GPT-3 的核心研发工作,目前也许是除了微软与 OpenAI 之外,最了解 OpenAI 与 GPT 系列大模型的公司。而他们选择的道路与Open AI相比也正好印证了技术路线的分歧:到底是性能先行还是兼顾技术治理。

这也是他们在发展理念上的终极竞争。

而关于Claude 3 带给行业接下来的影响,除了对于Open AI 霸主的地位的冲击外,有行业人士直接表示,行业有望很快从模型竞争转变为工作流竞争。

图片

该观点的形成与Claude 3系列模型在定价策略上的与众不同相关。目前,Claude 3系列中最顶级版本Claude 3 Opus的价格设定凸显其高端定位,对于每100万条token的使用费用为15美元,明显高于GPT-4 Turbo的10美元收费标准。

然而,Anthropic也透露,Claude 3系列中性能相对较低的Sonnet和Haiku版本,在处理相同数据量时的收费至少比Claude 3 Opus低五倍。

举例来说,如果用Claude来创建电子表格并比较其不同层级模型与GPT-4 Turbo以及GPT-3.5的成本,可以发现,在高端产品线上,Claude 3 Opus在输入和输出成本上均超过了GPT-4 Turbo;但在小型或中低端模型方面,例如Claude 3 Haiku的定价则较GPT-3.5-turbo-0125更为经济实惠。

2024最新教程Claude 3注册账号

这种价格差异使得业界开始讨论小规模模型的市场前景,有人甚至预测小模型可能在未来市场竞争中逐渐淡出。

与此同时,Anthropic对AI安全性的高度重视及定价策略上的亲民设计,显示了该公司商业模式上的独特布局,即更倾向于瞄准具有较高付费能力的企业级客户群体。

Claude 3发布后,市场上对下一代大模型GPT-5的期待声浪愈发高涨,许多业内专家认为,这不仅标志着Claude的崛起时刻,同时也是Open AI展现实力的关键阶段。有网友乐观预计,也许不久就能见证GPT-4.5的诞生。虽然最终结果有待观察,但可以预见的是,这场围绕大模型技术的竞争即将迎来新一轮的升级与高潮。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1491980.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java EE 】认识文件与Java文件操作

目录 🍀认识文件🌸树型结构组织 和 目录🌸文件路径(Path)🌸其他知识 🌳Java 中操作文件🌸File 概述🌻属性🌻构造方法🌻方法 🌸代码示例…

西安雁塔未来人工智能计算中心算力成本分析

先看一例旧闻:西部“最强大脑”落户雁塔——30亿亿次超算能力助力创新之城建设 其中提到一期算力为 300PFLOPS FP16(每秒30亿亿次半精度浮点计算),项目总投资约为19亿元。 这个算力是什么概念呢? 我们以深度学习训练中…

100%开源大模型OLMo:代码/权重/数据集/训练全过程公开,重定义AI共享

前言 近日,艾伦人工智能研究所联合多个顶尖学术机构发布了史上首个100%开源的大模型“OLMo”,这一举措被认为是AI开源社区的一大里程碑。OLMo不仅公开了模型权重,还包括了完整的训练代码、数据集和训练过程,为后续的开源工作设立…

C语言回顾学习

一、数据类型 1.常量 2.float浮点表示 3.字符型 4.char&#xff08;大小写&#xff09; #include <stdio.h> //根据数字输出字符--int值可以直接输出为char int main() {int value;while (1){scanf("%d",&value);if(value<65||value>122){printf(&…

【Redis】RedisTemplate和StringRedisTemplate的区别

两者的关系是 StringRedisTemplate 继承 RedisTemplate 。 两者的数据是不共通的&#xff1a;也就是说 StringRedisTemplate 只能管理 StringRedisTemplate 里面的数据&#xff0c;RedisTemplate 只能管理 RedisTemplate 中的数据。 RedisTemplate 看这个类的名字后缀是 Temp…

android开发游戏加速器,Android架构组件Room功能详解

Java基础 Java Object类方法HashMap原理&#xff0c;Hash冲突&#xff0c;并发集合&#xff0c;线程安全集合及实现原理HashMap 和 HashTable 区别HashCode 作用&#xff0c;如何重载hashCode方法ArrayList与LinkList区别与联系GC机制Java反射机制&#xff0c;Java代理模式Jav…

UOS 20 安装redis 7.0.11 安装redis 7.0.11时 make命令 报错 /bin/sh: cc: command not found

UOS 20 安装redis 7.0.11 1、下载redis 7.0.112、安装redis 7.0.113、启动停止redis 7.0.114、安装过程问题记录 UOS 20 安装redis 7.0.11 安装redis 7.0.11时 make命令 报错 /bin/sh: cc: command not found、zmalloc.h:50:31: fatal error: jemalloc/jemalloc.h: No such fil…

jquery选择器有哪些

jQuery是一个功能强大的JavaScript库&#xff0c;它提供了丰富的选择器来帮助开发者更方便地选择和操作DOM元素。以下是jQuery的一些常用选择器及其示例代码&#xff1a; 1.基本选择器&#xff1a; // 通过ID选择元素 $("#myId").css("color", "red…

java实现文件上传到本地

很多时候我们都需要进行文件上传和下载的操作&#xff0c;具体怎么实现网上的代码其实也是挺多的&#xff0c;刚好我的项目中也遇到了文件上传和下载的需求&#xff0c;本篇博文具体讲解上传操作&#xff0c;下篇博文讲解下载操作。 我们具体来想一想要将一个从前端传来的文件…

一命通关二分搜索

二分法 简介 和双指针一样&#xff0c;二分法也是一种优化方法&#xff0c;或者说二分法就是双指针的一类。不过&#xff0c;二分法的思想比双指针诞生更早也更广泛&#xff0c;在我们日常生活里也无时不刻在使用二分的思想。 比如我们想回顾某些影片&#xff0c;但是只记得…

书籍推荐:ChatGPT,大模型的预训练、迁移和中间件编程学习。

前言 OpenAI 在 2022 年 11 月推出了人工智能聊天应用—ChatGPT。它具有广泛的应用场景&#xff0c;在多项专业和学术基准测试中表现出的智力水平&#xff0c;不仅接近甚至有时超越了人类的平均水平。这使得 ChatGPT 在推出之初就受到广大用户的欢迎&#xff0c;被科技界誉为人…

【Redis | 第二篇】Redis的五种数据类型和相关命令

文章目录 2.Redis的数据类型和相关命令2.1常用数据类型2.2特性和用途2.2.1字符串&#xff08;String&#xff09;2.2.2哈希&#xff08;Hash&#xff09;2.2.3列表&#xff08;List&#xff09;2.2.4集合&#xff08;Set&#xff09;2.2.5有序集合&#xff08;Sorted Set&#…

网络编程 24/3/4 作业

1、广播 发送端 #include <myhead.h> int main(int argc, const char *argv[]) {//创建套接字int sfdsocket(AF_INET,SOCK_DGRAM,0);if(sfd-1){perror("socket error");return -1;}//设置当前套接字允许广播属性int broadcast1;if(setsockopt(sfd,SOL_SOCKET…

【IO】进程间通信

A程序代码&#xff1a; #include <stdio.h> #include <sys/types.h> #include <sys/stat.h> #include <unistd.h> #include <errno.h> #include <fcntl.h> #include <string.h> int main(int argc, const char *argv[]) {if(mkfifo…

MySQL面试题纯享版

基础内容 1、MySQL的架构分层 2、一条 SQL 查询语句的执行流程 3、如何查看 MySQL 服务被多少个客户端连接了&#xff1f; 4、 空闲连接会一直占用着吗&#xff1f; 5、MySQL 的连接数有限制吗&#xff1f; 6、 怎么解决长连接占用内存的问题&#xff1f; 7、执行器与存储引擎…

Java 并发编程 面试题及答案整理,最新面试题

Java中的volatile关键字有什么作用&#xff1f; volatile关键字在Java中的作用包括&#xff1a; 1、保证可见性&#xff1a; 确保变量的修改对其他线程立即可见。 2、防止指令重排&#xff1a; 防止编译器对操作进行重排序&#xff0c;保证代码的执行顺序。 3、非原子性&am…

xss.haozi.me:0x0B

<svg><script>(1)</script>

数仓实战——京东数据指标体系的构建与实践

目录 一、如何理解指标体系 1.1 指标和指标体系的基本含义 1.2 指标和和标签的区别 1.3 指标体系在数据链路中的位置和作用 1.4 流量指标体系 1.5 指标体系如何向上支撑业务应用 1.6 指标体系背后的数据加工逻辑 二、如何搭建和应用指标体系 2.1 指标体系建设方法—OS…

数电票又增新票种 百望云率先推出机动车数电票解决方案

经过两年多的试点推广&#xff0c;数电票工程已经覆盖全国大部分省区市&#xff08;含计划单列市&#xff09;&#xff0c;随着系统建设的深入&#xff0c;不仅是应用功能逐渐完善&#xff0c;对票种的支持也走向全面。 2023年11月天津市正式开启机动车数电票的开具功能&#x…

解决win10串口一直被占用

目录 问题描述解决方法 问题描述 串口设备一直被占用&#xff0c;换串口也没有用&#xff0c;永远都是串口正在被使用&#xff0c;甚至换硬件设备也不行&#xff0c;都快烦死了 解决方法 输入这个&#xff1a; 删除这个玩意&#xff0c;计算机\HKEY_LOCAL_MACHINE\SYSTEM\Cu…