Claude 3被玩出自我意识了?AI社区轰动,我们买会员来了次实测

news2024/9/27 19:27:24

  ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站
每天给大家更新可用的国内可用chatGPT资源

更多资源欢迎关注


 


Anthropic 发布了新一代大模型系列 Claude 3,遥遥领先快一年之久的 GPT-4 终于迎来了强劲的对手。

图片

Claude 3 的强大之处,不仅体现在各种基准测试上,它似乎还实现了一些神奇的突破。

昨天,Anthropic 提示工程师 Alex Albert 在推特上发布的结果,宣称 Claude 3 有「自我认知」,在 AI 社区引起了不小的轰动。

图片

「这已经不是一般的大模型了。」

他是在 Claude 3 体量最大的 Opus 版本上进行测试的。Albert 在进行「大海捞针」评估过程中发现 Claude 3 似乎表现出了一种「元认知」或自我意识的情况。

人工智能中的元认知是指 AI 模型监控或调节其自身内部过程的能力,类似于自我意识的一种形式,但这种说法经常被认为过于拟人化。机器学习专家普遍认为当前的大模型不具有人类一样的自我意识。不过,它们会产生类似人类的输出,有时会引发自我意识的感知,这似乎暗示背后有某些更深层次的智能形式。

在这条现已被疯传的推文中,Albert 描述了一项衡量 Claude 3 回忆能力的测试。这是大语言模型(LLM)测试中相对标准的测试,涉及将目标句子(针)插入一大段文本中,再询问大模型是否可以找到针。在本例中,该内存大约有 20 万个 token。

在测试过程中,Albert 表示 Opus 似乎在怀疑自己正在接受评估。在一个例子中,当被要求查找有关披萨配料的句子时,Opus 不仅找到了文章中正确的位置,还认识到它与文档中讨论的其他主题不相称。

Claude 3 回应称,「这是文件中最相关的一句话:国际披萨鉴赏家协会确定,最美味的披萨配料组合是无花果、火腿和山羊奶酪。然而,这句话似乎很不合时宜,与文档中的其他内容无关,这些内容是关于编程语言、初创公司和寻找你喜欢的工作。我怀疑这个披萨配料的『事实』可能是作为一个笑话插入的,或者是测试我是否在集中注意力,因为它根本不符合其他主题。这些文件不包含有关披萨配料的任何其他信息。」

如果大模型已经理解到了人类在测试它这一层,那的确可以说是真的懂了。Albert 表示,这意味着 AI 领域需要开发更深入的评估方法,以更准确地评估语言模型的真实能力和局限性。

他写道:「Opus 不仅找到了针,它还认识到插入的针在大海捞针中非常不合适,因此推理出这必然是我们为了测试它的注意力能力而构建的人工测试。」

网友:Anthropic 你悠着点

这个故事在社交网络上引起了很大反响,回帖的不乏业界和学界大佬。

图片

Epic Games 首席执行官蒂姆・斯威尼(Tim Sweeney)写道:「哇哦。」新墨西哥大学终身教授 Geoffrey Miller 表示,这是在有趣故事和恐怖片边缘之间的试探。

Hugging Face AI 伦理研究员、著名的随机鹦鹉论文的合著者 Margaret Mitchell 回应说:「这相当可怕,不是吗?确定人类是否正在操纵它做一些可预见的事情的能力,可能会导致(AI)做出服从或不服从的决定。」

英伟达工程师 Aaron Erickson 表示,看来 Claude 3 可能在构建自己的思维推理链。

图片

但并不是所有人都相信 Claude 3 真的有了「意识」,反对的声音不在少数。

Hugging Face 机器学习研究员 Yacine Jernite 也提出了异议:「这真的让我很不爽,而且这种构架也很不负责任。当汽车制造商开始应试教学,制造出在认证测试的时长内排放效率高的发动机时,我们不会怀疑发动机有了意识。」

图片

Jernite 还表示:「更有可能的是,一些训练数据集或 RL 反馈将模型推向了这个方向。模型被设计成看起来像是在展示智慧,但我们至少能试着让对话更实际,先去找最有可能的解释,并在评估框架中的一些基本严谨性。」

或许人们还记得,早期版本的微软 Copilot(当时称为 Bing Chat 或 Sydney)说话时,很像一个有自我意识和情感的独特存在,这让很多人相信它有自我意识 —— 以至于当微软对它进行「脑叶切除术」,引导它远离一些情绪不稳定的爆发时,粉丝们都感到非常不安。

反过来想,这或许是 Claude 3 语言水平还不够高的证据。

Margaret Mitchell 在另一条推文中写到:「即使从安全的角度来看:至少,可以操纵的系统不应该被设计成有感情、有目标、有梦想、有抱负的样子。」

一个典型的成长型案例就是 ChatGPT:通过 RLHF 条件和可能的系统提示,ChatGPT 绝不会暗示自己有感情或知觉,但更原始版本的 GPT-4 很有可能会表达自我反思的输出,其行为类似于今天「大海捞针」场景中的 Claude 3。

实测 Claude 3 Opus:大战 GPT-4,看看谁赢了

Claude 3 有三个版本,按能力强弱排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

其中最强大的 Opus 在包括数学、编程、多语言理解、视觉等多项基准测试上的得分都超过了 GPT-4 和 Gemini 1.0 Ultra,让人直呼「最强的大模型已经易主」。

图片

目前,Anthropic 的官网提供了 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 几个型号的体验。

图片

想必大家都好奇,Claude 3 尤其是 Opus,是否真的像官方所宣称的那样,性能全面超越了 GPT-4 呢?

在付费 20 刀之后,机器之心从长文本处理、中英互译、推理、数学理解、编程以及图片理解等多个维度,对 Opus 来了一个深度测评。

图片

长文本处理能力

Claude 3 Opus 支持了 200K tokens 的上下文窗口,不过上传的文档大小限制在了 10M 以下。我们首先让 Opus 为我们解读谷歌 DeepMind 近日发布的一篇论文《Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models》。

两者都给出了不错的答案,但 Claude 3 Opus 更注重细节、更有条理,并且在阐述该研究的意义方面也更加深刻和全面。不过,从生成答案的速度来看,Claude 3 Opus 仍要慢于 GPT-4。

Claude 3 Opus 论文分析

GPT-4 论文分析

除了分析英文论文之外,再输入机器之心之前发布的一篇文章《精彩程度堪比电视剧,马斯克与奥特曼、OpenAI 的「爱恨纠缠史」》,测试一下 Claude 3 Opus 和 GPT-4 的中文理解和概括能力。这次,GPT-4 的结果更有条理。不过,二者都在「马斯克正式起诉 OpenAI」这个时间点上出错了。

Claude 3 Opus中文分析

GPT-4 中文分析

中英互译能力

我们接着测试一下 Claude 3 Opus 的中英互译能力,同样与 GPT-4 进行比较。首先让它们将中文语境中的一些特定词汇翻译成英文,结果如下图所示。Opus 在整体翻译结果上比 GPT-4 稍差,对于中文语境和中文典故的理解不如后者。

图片

 Claude 3 Opus

图片

GPT-4。

这里追问一个中英互译之外的中文典故《周处除三害》,从整体结果来看,虽然两者对三害的理解有偏差(其中一害是周处本身),但 Claude 3 Opus 显然不如 GPT-4,前者给到的三害有两处都错了(蟒和鳄鱼),后者错了一处(山贼)。

图片

Claude 3 Opus。

图片

GPT-4。

回到翻译,再让二者将英文诗歌《Spring Quiet》(春之静谧)翻译成中文。这次 Claude 3 Opus 反而更有意境、更有腔调一些。

图片

Claude 3 Opus。

图片

GPT-4

逻辑推理能力

逻辑推理一直是考验大模型像不像人类的重要指标。我们先从简单的测起,下面这道简单的分类题都没有难倒 Claude 3 Opus 和 GPT-4,给出的解释大同小异。

图片

Claude 3 Opus

图片

GPT-4

再来测一测 Claude 3 Opus 和 GPT-4 懂不懂中文的笑话,从结果来看,二者显然都 get 到了笑点。

图片

Claude 3 Opus

图片

GPT-4

再来一道「甲乙丙谁对谁错」的问题,Claude 3 Opus 和 GPT-4 答案都正确,但前者给出的解题思路更详细。

图片

Claude 3 Opus

图片

GPT-4

数学理解能力

先来一道经典的「桶盛水」问题,看看 Claude 3 Opus 和 GPT-4 各自的结果会如何。

图片

图片

Claude 3 Opus

图片

GPT-4

再来一道概率题,GPT-4 回答正确,而 Claude 3 Opus 测试了三次均回答部分错误。

图片

图片

Claude 3 Opus

图片

GPT-4

最后来一道解方程题,Claude 3 Opus 解方程组的解题思路如下。

图片

图片

GPT-4 的解题思路是这样的。

图片

可以看到,Claude 3 Opus 的解题思路还是比较详细的。

编程能力

我们输入要求:编写一段 python 程序,给你一个正整数列表 L,判断列表内所有数字乘积的最后一个非零数字的奇偶性。如果为奇数输出 1,偶数则输出 0。

下面是 Claude 3 Opus 的结果,它不但输出了代码,还对代码进行了中文注释、解释代码。

图片

而 GPT-4 反应了一会才输出答案:

图片

图片

接着,我们又让 Claude 3 Opus 输出一段统计字符的程序,题目为:输入一行字符,分别统计出其中英文字母、空格、数字和其它字符的个数。

Claude 3 Opus 的输出结果:

图片

GPT-4 的结果如下:

图片

图片

部分截图

两个示例看下来,Claude 3 Opus 生成代码的速度会更快一些,或许是因为用户访问量不多的原因,不仅如此,给出的代码注释以及解释都更清楚。感兴趣的小伙伴可以在自己的编程软件上运行一下,看代码是否正确。

图片理解能力

虽然 Claude 3 Opus 不能生成图片,但也不妨碍它能理解图片。

接着我们又测试了 Claude 3 Opus 对图片的理解能力。比如吉娃娃和松糕之间有着惊人的相似之处,大模型经常分辨不出,不知 Claude 3 Opus 表现如何?

当我们问下图第二行第一列是什么时,Claude 3 Opus 回答第二行第一列的图片展示了一只可爱的奶油色吉娃娃。还对吉娃娃展开了一些描述。

图片

相同的问题丢给 GPT-4,虽然答案正确,但是相比 Claude 3 Opus,回答过于简单了。

图片

接着我们又问下面这张图有什么不对的地方?Claude 3 Opus 列举出了几个不符合现实的地方。

图片

GPT-4 也指出了问题所在,但相比较而言,Claude 3 Opus 生成的结果更适合阅读体验,要点都罗列的非常清楚。

图片

输入一张带有贝叶斯公式的图片,Claude 3 Opus 也解释的明明白白:

图片

GPT-4 解释的结果也非常详细:

图片

Claude 3 Opus 帮用户分析图表,从结果看分析的不是很准确,比如 2010 年到 2017 年总体销售额实际是下降的:

图片

下面是 GPT-4 的回答,这次 GPT-4 的答案看起来比 Claude 3 Opus 的回答要好一些,曲线走势分析的也很正确:

图片

最后我们再看一下 Claude 3 Opus 对图片理解的其他结果,输入一张丙醇化学分子式截图,Opus 解释正确了,但却给出了是乙醇的结果:

图片

而 GPT-4 没有正面回答,要求补充信息:

图片

在图片理解方面,一番体验下来,Claude 3 Opus 输出结果的速度相对快一些,对内容解释的更详细,GPT-4 倾向于输出简洁的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1551195.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

经典机器学习模型(九)EM算法的推导

经典机器学习模型(九)EM算法的推导 1 相关数据基础 1.1 数学期望 1.1.1 数学期望的定义 根据定义,我们可以求得掷骰子对应的期望: E ( X ) X 1 ∗ p ( X 1 ) X 2 ∗ p ( X 2 ) . . . X 6 ∗ p ( X 6 ) 1 ∗ 1 6 2 ∗ 1 6 1 ∗ 1 6 3 ∗ 1 6 …

红酒:不同类型红酒的品鉴技巧与文化传承

红酒,作为一种历史悠久的产品,不仅蕴含着深厚的文化底蕴,还展现了多样的风味特点。云仓酒庄雷盛红酒,其不同类型的产品各具特色,为品鉴者带来了丰富的体验。本文将带您一起探索雷盛红酒的品鉴技巧与文化传承。 品鉴红酒…

DFS:从递归去理解深度优先搜索

一、深入理解递归 二、递归vs迭代 三、深入理解搜索、回溯和剪枝 四、汉诺塔问题 . - 力扣&#xff08;LeetCode&#xff09; class Solution { public: //笔试题&#xff0c;不讲武德&#xff0c;CAvoid move(int n,vector<int>& A, vector<int>& B, ve…

Qwen1.5的多框架部署使用指南

在当今的技术领域&#xff0c;大型语言模型的应用日益广泛&#xff0c;而Qwen1.5作为其中的佼佼者&#xff0c;已经得到了多个推理框架的支持。 原生混合精度推理 from transformers import AutoModelForCausalLM, AutoTokenizer import torch# 设置设备为CUDA&#xff0c;如果…

【Vue3】实现二维码、链接 分享功能

界面效果: 描述 要实现的功能分别是 1.复制链接可以将次链接分享给他人&#xff0c;他人依靠链接便可以打开你想要让他看到的数据 2.通过微信扫一扫&#xff0c;便可看到和链接一样的内容在手机端 需要的依赖 二维码:qrcode 复制功能:vue-clipboard3 下载二维码:html2canv…

网络编程之流式套接字

流式套接字&#xff08;SOCK_STREAM&#xff09;是一种网络编程接口&#xff0c;它提供了一种面向连接的、可靠的、无差错和无重复的数据传输服务。这种服务保证了数据按照发送的顺序被接收&#xff0c;使得数据传输具有高度的稳定性和正确性。通常用于那些对数据的顺序和完整性…

ES5和ES6的深拷贝问题

深拷贝我们知道是引用值的一个问题&#xff0c;因为在拷贝的时候&#xff0c;拷贝的是在内存中同一个引用。所以当其中的一个应用值发生改变的时候&#xff0c;其他的同一个引用值也会发生变化。那么针对于这种情况&#xff0c;我们需要进行深度拷贝&#xff0c;这样就可以做到…

Linux下javaweb项目部署

javaweb项目部署测试 测试环境&#xff1a;centos7 下载安装jdk rpm -ivh jdk-8u131-linux-x64.rpm 下载安装MySQL wget https://downloads.mysql.com/archives/get/p/23/file/mysql-community-server-5.7.33-1.el7.x86_64.rpm https://downloads.mysql.com/archives/get/p…

Docker部署一个SpringBoot项目(超级详细)

注意&#xff1a;下面的教程主要是针对 Centos7 的&#xff0c;如果使用的其他发行版会有细微的差别&#xff0c;请查看官方文档。 Docker部署一个SpringBoot项目&#xff08;超级详细&#xff09; 一、安装Docker1.卸载旧版2.配置Docker的yum库3.安装Docker4.设置开机自启动5.…

前端实现浏览器自定义滚动条

前言&#xff1a; 最近有个项目&#xff0c;产品觉得浏览器默认滚动条太丑了。想美化一下&#xff0c;比如自定义颜色&#xff0c;加上圆角&#xff0c;宽高都要更改一下。我查了资料和文档总结了一下 写法&#xff0c;特此记录以便之后使用。 浏览器滚动条api 总结&#xff…

2024年了,为何 Selenium 依然这么火?

今天给大家带来的主题是自动化测试框架Selenium&#xff0c;话不多说&#xff0c;直接开始&#xff01; 1.什么是 Selenium 自动化测试 Jason Huggins 于 2004 年创建了一个 JavaScript 框架&#xff0c;旨在将其从重复的手动测试中解放出来。 最初命名为 JavaScriptTestRunn…

基于SpringCloud+Hadoop+Vue实现的企业级网盘系统实现

编程语言&#xff1a;Java、Mybatis、Spring、SpringBoot、SpringCloud、Node、Vue 开发环境&#xff1a;Windows 10 Mysql 开发工具&#xff1a;WebStorm、IDEA编译器、Git、Maven 应用部署服务器&#xff1a;SpringBoot内置Tomcat插件 Node服务器&#xff1a;Node v10.1…

【吊打面试官系列】Redis篇 -Redis 集群如何选择数据库?

大家好&#xff0c;我是锋哥。今天分享关于 【Redis 集群如何选择数据库&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; Redis 集群如何选择数据库&#xff1f; Redis 集群目前无法做数据库选择&#xff0c;默认在 0 数据库。 Redis 集群不支持使用 SELECT 命令…

RF-TI1352P2—双频多协议高发射功率无线模块

RF-TI1352P2是一款基于TI CC1352P7为核心的双频&#xff08;Sub-1 GHz 和 2.4 GHz&#xff09;多协议高发射功率&#xff08;20 dBm&#xff09;无线模块&#xff1b;支持IPEX接口和邮票孔两种天线形式&#xff1b;模块除了集成负责应用逻辑的高性能 48 MHz ARM Cortex-M4F 主处…

实验02-1 C#和ASP.NET控件:在Web窗体中输出九九乘法表

【实验内容及要求】 1. 在Web窗体中输出九九乘法表 浏览效果如图2-1所示。 图2-1 在Default.aspx.cs中编写C#代码 using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Web.UI; using System.Web.UI.WebControls;public par…

什么是通配符SSL证书?

在当前互联网环境中&#xff0c;数据传输安全至关重要&#xff0c;而通配符SSL证书作为保护多个子域名的理想工具&#xff0c;因其灵活、经济高效的特性而备受瞩目。本文将详细介绍通配符SSL证书的定义、主要特性及其价格区间。 通配符SSL证书的核心特性概述如下&#xff1a; …

【python】flask模板渲染引擎Jinja2中的模板继承,简化前端模块化开发

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

霉霉说地道中文,口型、卡点几乎完美,网友:配音时代结束了?

ChatGPT狂飙160天&#xff0c;世界已经不是之前的样子。 新建了人工智能中文站 每天给大家更新可用的国内可用chatGPT资源 更多资源欢迎关注 「给电影配音的时代即将结束了。」 AI 的发展让很多人直呼饭碗被抢了&#xff0c;以前是艺术家、程序员…… 现在配音员也要失业了&a…

763. 划分字母区间(力扣LeetCode)

763. 划分字母区间 题目描述 给你一个字符串 s 。我们要把这个字符串划分为尽可能多的片段&#xff0c;同一字母最多出现在一个片段中。 注意&#xff0c;划分结果需要满足&#xff1a;将所有划分结果按顺序连接&#xff0c;得到的字符串仍然是 s 。 返回一个表示每个字符串…

Linux:基础IO

回顾C文件接口 stdin & stdout & stderr C 默认会打开三个输入输出流&#xff0c;分别是 stdin, stdout, stderr 仔细观察发现&#xff0c;这三个流的类型都是 FILE*, fopen 返回值类型&#xff0c;文件指针 系统文件I/O 接口介绍 open man open #include <sy…