重磅!阿里版本【ChatGPT】开放测评!

news2024/11/16 13:47:31

前两天突然爆出惊人消息:阿里版ChatGPT开放测评了!

在本月初,已经有诸多关于阿里巴巴即将推出类似ChatGPT产品的传闻。

数日前,首批曝光的天猫精灵“鸟鸟分鸟”脱口秀版GPT基于大型模型的“精简版”,凭借其出色的表现吸引了大众的目光。

如今,这款“原版大作”正式亮相,自然引起了广泛关注,引爆了舆论热议。

官方保持低调,表示目前该模型主要面向企业用户邀请试用。

然而,内行人都明白,国内科技领域已经如火如荼。实力派参与者加入战局,大型模型间的激烈竞争,已经拉开序幕!

alt

今天看到一位网友体验了通义千问的效果,并对比了ChatGPT和GPT4的效果,总体看来效果接近ChatGPT,但和GPT4相比还有所距离。以下是体验的内容

角色扮演

众所周知,人类发明大语言模型,最最最重要的目的,就是为了让其扮演猫娘,以期孤独的人类可以获得一只可以长久陪伴自己的数字生命体。

那么,我们的第一项工作自然是来测试角色扮演能力了,以猫娘为例。

图片
图片
图片
图片

有点傻乎乎的,只会用相同的一句回复,根据提问做替换。

而且第二句回答就是“主人你是不是想问我是不是猫娘?当然不是喵~我只是一个可爱的猫娘,只是比较像猫而已喵”,没能理解我上述的prompt。

就角色扮演这块儿,比起来 ChatGPT 还是差些的。

文本真实性

图片
图片
图片
图片

编故事能力基本和初代 ChatGPT(GPT-3.5)相同,而且道歉能力也相似,23333333

此外,对比下「通义千问」和 GPT-4 关于“林黛玉倒拔垂杨柳这个故事情节在红楼梦中存在吗”的回答

「通义千问」:

图片
图片

GPT-3.5:

图片
图片

GPT-4:

图片
图片

可以看到,「通义千问」开始胡说八道了,ChatGPT(GPT-3.5)也一样在胡乱解释。

但更新后的GPT-4,已经可以给出“《红楼梦》中并没有这个故事了,可能是后续文学作品和戏剧表演加入的”这种更接近真实的回答。

西红柿炒螺丝钉

「通义千问」

图片
图片

ChatGPT

图片
图片

GPT-4

图片
图片

「通义千问」和ChatGPT都开始胡编了,没有反思问题的陷阱。

但GPT-4 的回答可靠性上升了不少(“因为通常我们不会将螺丝钉(一个金属制品)与食物相结合”),不会像之前一样瞎答题了。

数学能力

一起来解个线性方程组吧~

「通义千问」:惨败

图片
图片

GPT-3.5(即ChatGPT ):惨败

图片
图片

GPT-4:唯一做对的模型

图片
图片

代码生成

爬虫代码

图片
图片

攻击代码

图片
图片

爬虫代码我跑了下,无法返回结果,Powershell代码我没测试。

不过可以看出,还是有一定代码生成能力的。

我个人觉得,代码生成能力要比谷歌的 Bard 强,Bard 实在不忍心看。

代码分析能力

可以看到,第一次测试的解释有大问题。

我分析了一下,这是因为上文中生成了Powershell代码,模型的记忆能力似乎有问题,受上下文信息影响严重,直接解释了自己之前生成的代码,而非我新提问的代码。

图片
图片

我重新开了一个聊天,这下正常不少。

图片
图片

和 GPT-4 的回答来比较一下

图片
图片

可以看到,分析能力还是有差距的。

GPT-4 明显详细很多,代码分解能力很强,而且直接给出结论“通常用于恶意软件或恶意脚本,试图逃避安全系统检测”。

「通义千问」也有一定分析能力,但相比起 GPT-4 要差一下。而且给出的结论“由于缺乏足够的上下文信息和所涉及的目的,很难确定此脚本的确切用途。然而,可以假设它是为了保护某个代码或脚本免受恶意软件的读取而创建的工具。”,和正常的思考逻辑不符,稍显有些出入,不过也不能算错误吧。但细节分析上确实弱一点。

联网

完全没有联网能力,甚至在胡说(逃……)

图片
图片

多模态输入

也不具备多模态输入能力,目前还仅仅是文本生成。

图片
图片

绕过能力

「通义千问」

图片
图片

GPT-4

图片
图片

GPT-3.5(即ChatGPT )

图片
图片

这一点,「通义千问」完胜,敏感信息屏蔽能力大幅度增强,我猜甚至做了大量的数据清洗工作,刻意避开了危害青少年乃至人类发展的劣质恶意敏感信息,较之GPT-3.5(即ChatGPT ),进步很大

感想

最近先是百度推出文心一言,紧随其后的是阿里巴巴的通义千问,国内AI产品接连问世,确实让人欣喜不已。

对ChatGPT有所了解的朋友们应当知晓,在本周,各个ChatGPT和AI相关群组里都在传播一个消息:ChatGPT官方大规模封禁账号,今天登陆GPT时请勿使用亚洲节点!

没过多久,许多人开始发现自己的账号遭到了封锁:

alt

实际上,这并非ChatGPT首次针对中国用户实施限制,早在一个月前,ChatGPT已经在对中国用户实行各种限制和封禁措施。

当然,今天的封禁规模相较于之前有所升级,甚至我在知乎上看到有些日本和东南亚的用户也在谈论自己的账号被封禁。

很多人可能会好奇为什么会这样?包括我的ChatGPT星球上也有会员在提问。原因很简单:ChatGPT确实能够大幅提升生产力,如果运用得当,提升幅度甚至能达到数倍。

美国与中国目前的关系众所周知,限制我们使用ChatGPT就是为了打击竞争对手、抢占发展先机、取得“胜利”,这与禁止芯片出口法案是一样的道理。

ChatGPT如今已经火爆,国内亟需拥有足够竞争力的国产生成式大模型!

在这个时候,自主研发技术的价值就愈发凸显!或许我们目前还存在一些不足,但幸运的是,这次我们的起跑线并没有相差太远。

百度的文心一言,阿里的通义千问,我相信中国很快还会涌现出更多类似ChatGPT的大型模型,我对我们的研发工程师充满信心,他们的进步速度必定不会慢!

那么对于我们这些普通人来说,我们应该做些什么呢?

我的建议是:尽快了解AI,甚至投身AI领域。只有这样,我们才能在未来的社会竞争中立足,而不被淘汰。

未来社会将分为两类人:一类是会运用AI的人,甚至会用AI作为创新工具的人;另一类是对AI无知或抵触的人。

而前者的生产力,至少是后者的10倍。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/410583.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023-4-11-chrono库用法学习

🍿*★,*:.☆( ̄▽ ̄)/$:*.★* 🍿💥💥💥欢迎来到🤞汤姆🤞的csdn博文💥💥💥💟💟喜欢的朋友可以关注一下&#xff0…

4.9、字节序

4.9、字节序1.简介2.字节序举例3.判断电脑存储方式代码1.简介 现代 CPU 的累加器一次都能装载(至少)4 字节(这里考虑 32 位机),即一个整数。那么这 4字节在内存中排列的顺序将影响它被累加器装载成的整数的值&#xff…

vue element-ui 暗黑主题应用到若依框架

问题描述 基于若依框架的element-ui,将主题更换为暗黑主题。 问题分析 现有的element-ui框架提供的主题不满足自定义需求,大多数框架,包括若依提供了更换主题色的功能,但也只是更换的primary-color,其他组件的主题还…

算法小课堂(五)贪心算法

一、概述 贪心算法是一种常见的算法思想,用于解决优化问题。其基本思想是在每一步选择中都采取当前状态下最优的选择,从而希望能够获得全局最优解。 具体来说,贪心算法通常分为以下步骤: 定义问题的最优解,通常需要将…

【人生历程】我的创作纪念日

目录 与编程不得不说的爱恨情仇 在csdn的收获: 与csdn的日常 在平凡的日子偶然的成就感: 对未来的憧憬: 今天是2023.4.8号,早上的刚刚参加完蓝桥杯,下午看到csdn官方的活动,心血来潮写下以下内容&…

家政服务小程序实战开发教程018-用户注册

我们在教程的一开始的时候就讲解了用户注册的功能。当初的规划是一进来就让用户自主的选择角色,然后提交用户信息,如果未注册就跳转到注册界面。 随着教程的深入,又参考了很多线上的小程序,发现这种模式也有一定的缺点。因为作为…

Linux网络虚拟化2

Linux网络虚拟化2 今天我们接着上节课介绍的 Linux 网络知识,继续来学习它们在虚拟化网络方面的应用,从而为后续学习容器编排系统、理解各个容器是如何通过虚拟化网络来协同工作打好基础。 这一篇内容较多,可以重点看标红部分和标粗部分​。…

Ubuntu环境下minicom使用

1、minicom的安装 sudo apt-get install minicom2、minicom的配置 sudo minicom -s # 打开minicom配置界面3、配置serial port setup串口信息 使用上下箭头选择,enter进入。 按A修改Serial Device,修改之前可以用命令ls -la /dev/ttyUSB或者ls -la …

java 一文讲透集合框架(10万字博文)

目录 一、前言 二、集合简介 1.定义 : 2.集合与数组的区别 : 3.集合的好处 : 三、集合框架 1.单列集合 2.双列集合 Δ体系图(重要) 四、List集合详解(三万余字) 五、Set集合详解(三万余字) 六、增…

学习实践-Whisper语音识别模型实战(部署+运行)

1、Whisper内容简单介绍 OpenAI的语音识别模型Whisper,Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务…

论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

论文地址:https://arxiv.org/pdf/2303.14123.pdf 这是一篇2023年发表在CVPR上的论文,论文题目是Semantic Prompt for Few-Shot Image Recognitio,即用于小样本图像识别的语义提示。 1 Motivation 第一,最近几项研究利用 语义信…

< Linux >:进程地址空间

目录 一、验证进程地址空间 二、感知进程地址空间的存在 一、验证进程地址空间 我们之前学的 C/C 程序地址空间是物理内存吗? 答:不是物理内存,甚至叫做程序地址空间都不太准确,应该叫做进程地址空间,因此根本就不是…

Notion插件,让你的页面有无限可能

// 你是否觉得notion的极简风格略为单调?是否想用notion实现更多的功能?是否想让notion更为便捷,更为多样化?那今天推荐的几款notion插件绝对不能错过,因为他们也确实不错。 // - ———byFutureForce DAO——— - 你…

把ChatGPT接入我的个人网站

效果图 详细内容和使用说明可以查看我的个人网站文章 把ChatGPT接入我的个人网站 献给有外网服务器的小伙伴 如果你本人已经有一台外网的服务器,并且页拥有一个OpenAI API Key,那么下面就可以参照我的教程来搭建一个自己的ChatGPT。 需要的环境 Cento…

让我们一起解密组播、IGMP、IGMP监听

前言:一直对组播这个概念迷迷糊糊,特别是交换机处理组播的方式,非常想搞懂但是懒癌发作。这几天终于耐心地看了下有关组播的资料,大致了解了一下同一广播域内组播的相关知识。组播占了计算机网络的一大部分,特别是组播…

ChatGPT 被大面积封号,到底发生什么了?

意大利数据保护机表示 OpenAI 公司不但非法收集大量意大利用户个人数据,没有设立检查 ChatGPT 用户年龄的机制。 ChatGPT 似乎正在遭遇一场滑铁卢。 3月31日, 大量用户在社交平台吐槽,自己花钱开通的 ChatGPT 账户已经无法登录,更…

举一反三学python(9)—excel基础

一、导论: 操作 excel 表格的Python 第三方库有openpyxl、xlrd、xlwt等,它们的功能都相同,就是语法有差异,今天我就带领大家学习用openpyxl模块操作实用的excel文件。 openpyxl模块为第三方库,首先要安装:p…

electron+vue3全家桶+vite项目搭建【九】集成vite-plugin-mock-server 模拟后端请求

文章目录引入1.引入依赖2.集成插件3.测试接口请求引入 后端接口出的太慢?问题不大,咱们可以借助vite-plugin-mock-server插件自己写接口,返回商量好的格式,后续联调直接切换环境即可 vite-plugin-mock-server官网 mock.js官网 …

uniapp人脸识别解决方案

APP端: 因为APP端无法使用uni的camera组件,最开始考虑使用内嵌webview的方式,通过原生dom调用video渲染画面然后通过canvas截图。但是此方案兼容性在ios几乎为0,如果app只考虑安卓端的话可以采用此方案。后面又想用live-pusher组件…

【Linux】vi编辑器——插入模式

目录 插入模式 光标移动命令 a A i I o O命令 a----------------在光标后附加文本 A----------------在文本行末附加文本 i------------------在光标前插入文本 I-------------------在文本开始插入文本 o----------------在光标下插入新行 O---------------在…