[ 云计算 | AWS ] ChatGPT 竞争对手 Claude 3 上线亚马逊云,实测表现超预期

news2025/1/24 5:35:26

在这里插入图片描述

文章目录

    • 一、前言
    • 二、Claude 3 介绍以及相关测试细节
    • 三、在亚马逊云科技上体验 Claude 3
      • 3.1 在 Amazon Bedrock 服务中配置 Claude 3
      • 3.2 为聊天配置使用 Claude 3 模型
      • 3.3 Caude 3 Sonet 聊天体验
    • 四、文末总结
    • 五、参考文献

一、前言

3月4号,Anthropic 发布了号称现阶段宇宙最强大模型 Claude 3,到底强到什么程度,直接看这张图即可。

发文时间点 Claude 3 Sonnet 模型现已在亚马逊云科技的 Amazon Bedrock 正式可用本文第三节会介绍如何在亚马逊云科技上使用 Claude3 模型。

二、Claude 3 介绍以及相关测试细节

这次发布包括了三个版本:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们的能力从低到高。

首先是Haiku,它是市场上速度最快、成本效益最高的选择,对于大部分的纯文本任务表现出色,同时也支持多模态能力。

Sonnet 则比之前的 Claude 2 和 Claude 2.1 快两倍,并且智能水平更高。它擅长处理需要快速响应的智能任务,比如知识检索或者销售自动化。它在智能和速度之间达到了完美平衡,这对企业应用来说尤为重要。

Opus 是最顶级、最强大的基础模型,具备深度推理、高级数学和编码能力,在高度复杂的任务上表现出色。它能够流畅地处理各种开放式提示和新颖场景,包括任务自动化、假设生成以及图表、图形和预测的分析。适用于需要高度智能和复杂任务处理的场景,比如企业自动化、复杂金融预测、研究和开发等。

Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus的能力可以参考下面的图示:

在这里插入图片描述

在相关测评中,Opus表现出色,多项基准测试中的得分都超过了GPT-4和Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度上树立了新的行业标准。特别是在特定测试场景下,如研究生水平考试Q题解A和数学Q题解决上,Claude 3的表现优于GPT-4。比如,在zero-shot学习环境下,Claude 3的准确率达到了60%,超过了GPT-4的52%。

在 Babel.cloud 开源评估项目的 LLMRGB 项目中,Claude3 在单次测试中获得了高达97.6的高分,大大超过了GPT-4,成为当前大型模型能力的领先者。

在这里插入图片描述

(测试结果图片以及仓库见文末参考文献)

要特别注意的是,在 LLM-RGB 评估中,015_simple_mahjong 是个超级难题。简单地说,大型模型被教了一些简单的麻将规则,还给了一些例子,然后要求在一个具体情境下做出选择。这个问题在以前的测试中很少有人能正确解答。不过,Claude 3 Opus20%的几率给出最佳解答,还有80%的几率给出次优解。这意味着它的多轮推理能力远远超过其他模型,能够快速学习并应用有限的知识。这使得 Claude 3 的应用领域不仅限于简单的客服和文本生成,它在工程过程更长的领域也能表现出色。

三、在亚马逊云科技上体验 Claude 3

3.1 在 Amazon Bedrock 服务中配置 Claude 3

目前,Anthropic 的 Claude 3 Sonnet 模型现已在亚马逊云科技的 Amazon Bedrock 正式可用。目前可以完全免费试用

Amazon 上的体验服务入口:https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=KOCKOL

进入后无需注册账号,仅需要扫码进入 CloudAssist,然后点击限时试用即可,如下图

下一代 Claude (Claude 3) 的三个模型 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 将陆续登陆 Amazon Bedrock。Amazon Bedrock 是目前第一个也是唯一一个提供 Claude 3 Sonnet 的托管服务。

在这里插入图片描述

在 Amazon Bedrock 服务中,点击下面的入门按钮

在这里插入图片描述

进入到 Amazon Bedrock 后,首先需要管理模型的访问权限,这后面需要申请所需的模型,在这个步骤直接点击 [管理模型访问权限] 按钮即可。

在这里插入图片描述

进入到模型列表页面后,可以看到 Amazon Bedrock 中内嵌了很多模型,不过这些模型默认没有配置访问,这需要你做访问请求,也就是继续点击配置模型访问权限操作。

在这里插入图片描述

进入到模型请求访问权限页面后,可以看到 Anthropic 公司的模型,在做请求之前,需要先提交应用场景。如下图

在这里插入图片描述

下面的信息是必填信息,需要填写后,按钮才会高亮,允许继续点击

在这里插入图片描述

在上一步点击提交按钮后,勾选所需的模型,这里直接全选了所有模型做请求。

在这里插入图片描述

最后请求过程中可能需要等待几分钟。等待请求完成即可。

在这里插入图片描述

3.2 为聊天配置使用 Claude 3 模型

在上述步骤配置好后,在 Amazon Bedrock 页面,选择聊天菜单,之后点击【选择模型】按钮,选择 Claude 3 模型。

在这里插入图片描述

进入到模型选择页面,选择 Anthropic 公司中的 Claude 3,点击应用即可。

在这里插入图片描述

3.3 Caude 3 Sonet 聊天体验

第一个问题我是直接问他使用pyhon写一个3次的循环,可以看出 Caude 3 不局限一种方式书写,并且将多个实现写出,后面并且给出的测试打印结果。可以说你后面想问的或者拓展的很好。

在这里插入图片描述

接下来我使用 Claude 3 进行了一个图片识别,并且让 Claude 3 进行了分析总结, 传给 Claude 3 的图片是一张中国地图,并且带有一些描述信息。

可以看到最后 Claude 3 给的分析总结非常精准,精准到我有点吃惊。

在这里插入图片描述

对图片进行识别的测试,我上传了一只猫,可以看到 Claude 3 不仅分析了动物是什么,还直接描述了这个图片中猫的场景动作。

在这里插入图片描述

另外一个让我吃惊的是,我上传了一张车的图片,让他识别出来车的型号,Claude 3 可以几乎精准识别。问题以及 Claude 3 的回答可以看下图。

在这里插入图片描述

四、文末总结

个人觉得,Claude 3 的超预期成功并不意味着 Anthropic 的能力已经完全超越了OpenAI。现在看 Claude 3 显然比 GPT4 更强大,但也许GPT-5 已经在 OpenAI 手中了。

然而,Claude 3 的出现表明大型模型领域不再由单一实体主导,也没有只有 OpenAI 才能创造的“核心魔法”。更多地涉及领先于工程能力和资源投入。大型基础模型之间的竞争为上层应用开发人员提供了更多选择,并将不可避免地带来更低的价格。从这个角度来看,无论 Claude 3 的成功被高估了多少,都带来了重要的行业价值和社会影响。

五、参考文献

  • https://github.com/babelcloud/LLM-RGB
  • https://llm-rgb.babel.run/view/testId/a581e4a9-ce1e-4b2f-8f45-980889913b58
  • https://mp.weixin.qq.com/s?__biz=MzA4ODMwMDcxMQ==&mid=2651122739&idx=1&sn=667fcc30565cb1ba6510307747fbf78e

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1495255.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

jmeter请求接口问题小记

将请求链接复制下来,然后将其放在http的请求中,可以有两种写法,详见附件

Python算法100例-3.6 自守数

1.问题描述2.问题分析3.算法设计4.求给定数的位数5.分离给定数中的最后几位6.确定程序框架7.完整的程序 1.问题描述 自守数是指一个数的平方的尾数等于该数自身的自然数。例如, 5 2 25 , 2 5 2 625 , 7 6 2 5776 &#xff0c…

微信小程序怎么盈利?探索微信小程序的盈利途径与建设流程

微信小程序自推出以来,凭借其无需下载安装、即用即走的特点,在移动互联网领域迅速占据了重要地位。商家和开发者们纷纷投入其中,希望借助这一平台实现商业价值的转化。那么,微信小程序是如何为开发者和商家带来盈利的呢&#xff1…

java微服务面试题及答案,java技术栈面试题

前言 原来,一瞬间,一句话,真的可以改变一个人的命运。 说一个前几年一个热门话题:“是否应该跳出舒适圈。” 一时间,这个话题便引发众人议论: 支持方:愿意挑战不擅长领域的人,勇气…

JS 实现AES方式加密数据实现示例

简介:全称高级加密标准(英文名称:Advanced Encryption Standard),在密码学中又称 Rijndael 加密法,由美国国家标准与技术研究院 (NIST)于 2001 年发布,并在 2002 年成为有…

APS(高级计划与调度系统)难度超高,ERP在它面前就是弟弟。

一、APS定义和功能模块 APS系统是Advanced Planning and Scheduling System(高级计划与调度系统)的缩写。它是一种计划和调度管理软件系统,旨在帮助企业优化生产计划和资源调度,提高生产效率和响应能力。 APS系统利用先进的算法和…

Android已死,备战三个月

1.写在前面 Google在上周发布了Android Studio 3.0的正式版本,周四早晨在上班的地铁上就看到群里在沸沸扬扬的讨论关于3.0版本的各种坑,啊,不对,各种特 点击领取完整开源项目《安卓学习笔记总结最新移动架构视频大厂安卓面试真题…

安防视频监控云平台EasyCVR v3.5支持批量设置录像计划时间段

安防视频监控云平台EasyCVR支持多协议接入、可分发多格式的视频流,平台支持高清视频的接入、管理、共享,支持7*24小时不间断监控。视频监控管理平台EasyCVR可提供实时远程视频监控、录像、回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储…

Mac Pro 突然不能双击打开文件夹

当Mac Pro 突然不能双击打开文件夹 不防右击看看这儿 有没有勾选 如果勾选就会在打开的瞬间 闪退关掉文件夹

大唐杯学习笔记:Day6

1.1小区选择 一、概述 1.UE在RRC_IDLE和RRC——INACTIVATE状态下进行的过程; 2.UE首先需要完成PLMN的选择,在已选择的PLMN上寻找合适的小区,获取合适的服务,监听控制信道,这个过程即小区选择过程; 3.根据小区重选准则,UE寻找其他更适合的小区进行小区…

Sqli-labs靶场第13关详解[Sqli-labs-less-13]

Sqli-labs-Less-13 #手工注入 post传参了 根据题目看,像一个登录页面,尝试使用布尔型盲注测试能否登录网站 1. Username输入a 测试是否会有报错,burp抓包 报错:syntax to use near a) and password() LIMIT 0,1 at line 1 分…

【YOLO v5 v7 v8 v9小目标改进】AFPN 渐进式特征金字塔网络:解决多尺度特征融合中,信息在传递过程丢失

AFPN 渐进式特征金字塔网络:解决多尺度特征融合中,信息在传递过程丢失 提出背景AFPN 多尺度特征金字塔 非邻近层次的直接特征融合 自适应空间融合操作 小目标涨点YOLO v5 魔改YOLO v7 魔改YOLO v8 魔改YOLO v9 魔改 提出背景 论文:https:…

GO语言环境安装---VScode.2024

目录 一、下载并安装GO 二、配置环境变量 三、VScode环境安装 由于工作原因,需要用到go来写web后端,正好从零记录下环境安装 一、下载并安装GO 首先在官网根据PC系统选择对应的包下载 源地址:https://go.dev/dl/ 打不开的用这个也行&a…

鸿蒙岗位大反攻:几十家头部应用加入鸿蒙后,鸿蒙工程师薪酬水涨船高

华为原生鸿蒙生态开始百花齐放:已经有几十家国内应用软件,宣布适配华为原生鸿蒙APP,其中就包括支付宝、美团、新浪微博、小红书、B站、高德地图、58同城等多家头部应用。 因为华为已经公开宣布:2024年的鸿蒙5.0系统将不再兼容安卓…

Operator开发

概述 基于k8s做扩展的时候,一种典型方式则是 operator 开发,通过 CRD(CustomResourceDefinition) 来定义自定义资源,开发对应的 controller 来做业务控制,以期实现特定的业务需求。那么其本质是什么?是事件驱动。与我…

视频产品介绍:国标28181网关(GB/T28118网关)

目 录 一、概述 二、产品功能 (一)功能描述 (二)功能展示 1、国标接入 2、资源绑定 三、产品能力 (一)接入能力 (二)多级架构 四、特点优势 (一&am…

VSCode 隐藏侧边栏文件或文件夹

开发时有些文件根部就会动,可能是运行的环境或者缓存,可能是其他的文件。 但是又不能删除,影响开发的观感,那么怎么在侧边栏栏隐藏文件呢 搜索的时候想要加快速度,怎么屏蔽某些文件呢 隐藏侧栏显示文件或屏蔽搜索范围…

【计算机网络】IO多路转接之epoll

文章目录 一、epoll的相关系统调用二、epoll工作原理三、epoll的优点(和 select 的缺点对应)四、epoll工作方式五、epoll服务器1.Sock.hpp2.Log.hpp3.Err.hpp4.epollServer.hpp5.epollServer.cc 一、epoll的相关系统调用 按照man手册的说法: 是为处理大批量句柄而作了改进的po…

前端实现一个绕圆心转动的功能

前言: 今天遇到了一个有意思的需求,如何实现一个元素绕某一个点来进行圆周运动,用到了一些初高中的数学知识,实现起来还是挺有趣的,特来分享🎁。 一. 效果展示 我们先展示效果,如下图所示&…

C#知识点-22(ADO.NET五个对象,SQL漏洞注入攻击)

ADO.NET 概念:ADO.NET就是一组类库,这组类库可以让我们通过程序的方式访问数据库,就像System.IO的类用类操作文件一样,System.Data这组类是用来操作数据库的(不光是MSSql Server),它提供了统一…