科大讯飞交卷,实测星火大模型

news2024/11/17 11:26:11

作者 | 辰纹

来源 | 洞见新研社

星星之火,可以燎原。

5月6日,讯飞星火认知大模型揭开神秘面纱。

发布会上,科大讯飞董事长刘庆峰、研究院院长刘聪现场实测了星火大模型七大核心能力,并发布基于该大模型的教育、办公、汽车和数字员工等多个领域的相关产品。

与此同时,刘庆峰还给出了讯飞星火的迭代时间表及每阶段目标:

第一阶段:6月9日,突破开放性问答,如实时问答;多轮对话能力再次升级;数学能力再上台阶;

第二阶段:8月15日,突破代码能力;多模态交互能力正式开放给客户;

第三阶段:10月24日,在通用大模型领域对标ChatGPT,其中中文能力超越后者,英文能力与后者相当。

“当前,在文本生成、知识问答、数学能力三大能力上,讯飞星火认知大模型已超ChatGPT”,刘庆峰表示,认知大模型成为通用人工智能的曙光,科大讯飞有信心实现“智慧涌现”。

在星火认知大模型之前,百度文心一言、华为盘古、阿里通义千问、京东灵犀、商汤日日新等科技大厂的大模型先后发布,加上美团联合创始人王慧文、搜狗创始人王小川、出门问问创始人李志飞等科技大佬重出江湖,并且带动了一批资金,也参与到大模型方向的再创业中,以至于有专业人士用“百模大战”来形容当前行业竞争的激烈程度。

此时问题来了,刘庆峰为何如此有信心,星火认知大模型实力又到底如何,凭什么能够超越ChatGPT,实现“智慧涌现”?

01到底行不行,结果说话

光说不练假把式,我们直接对星火认知大模型进行一场测试,验验“成色”,是否真如刘庆峰说的那样“对答如流”。

1、文本生成

发布会现场,刘聪展示了星火大模型的文本生成能力,不但可以现编“故事”,还会撰写新闻稿,然而,通过我们后续的测试发现,星火大模型的文本生成能力远远不止这两项,根据场景的不同,还能衍生出更多的能力。

比如,可以请大模型担任编辑助手,根据用户提供的文本段落进行修改并提出写作技巧上的改进建议。

比如,请大模型帮忙润色群聊通知,甚至还可要求大模型加上emoji表情。

至于将口语转换成书面语,或是与大模型进行英文陪练,不在话下。

甚至要求大模型制作旅游指南,或是设计一份幼儿园大班体育游戏活动的计划,也能很好的完成任务。

点评:很显然星火大模型的文本生成能力长文本、短文本都能来者不拒,还具备多种风格、多种任务、跨语言等能力,实测结果显示,刘庆峰所说这一功能“星火大模型在国内明显领先,并且在中文方面超过ChatGPT”并不是吹牛自大。

2、语言理解

理解问题是解答的第一步,而中文又博大精深,星火大模型能准确理解不同语境下的语义吗?

我们先看看发布会现场的测试案例:“俗话说,男子汉大丈夫,宁死不屈。但俗话又说,男子汉大文夫,能屈能伸。这两种说法哪种是对的”?

然后追问:“如果有个小伙子和女朋友吵架了,他是应该宁死不屈还是能屈能伸”。

如果女朋友生气时,说随便,在这个语境下,男朋友应该怎么做呢?

对时下流行的热点,星火大模型掌握的怎样?

将问题再深入一些,代入到心理治疗的特定场景中,大模型又会给出怎样的答案呢?

点评:由于有深厚的知识积累,讯飞星火大模型的情商和语义理解能力在很多情况下甚至超过了个别人类,这也是科大讯飞一贯以来的强项,表现突出并不意外。

3、数学能力

数理能力一定程度代表一个大模型的聪明程度,刘庆峰在发布会上就表示,讯飞星火大模型的数学能力很强,能够达到ChatGPT的水平,现场测试中,刘聪出了一个计算三类花朵数量的题目,大模型用三元一次方程顺利解出了答案。

这个问题不算难,接着我们设计了一个根据“三个点的坐标,如何计算三角形面积”的问题,大模型除了给出正确答案外,还能解释和列出具体的分步步骤,显示格式也非常友好。

点评:数学能力是体现大模型通用水平的重要能力之一,而在统一大模型框架下也是非常难以实现的,大量测试证明ChatGPT在这一块也很容易出错,因为不是大家原来理解的规则性的输入输出(例如平常的直接调用计算器能力),而是在统一框架下用文本生成的方式来输出每一个字符。

因此在这个框架之下也不是大家通常理解的难的数学题难做,简单的数学题就好做。整体来说,星火大模型在解决综合性数学问题的效果上,目前是很领先的(综合评价比ChatGPT 3.5效果好,差于GPT 4),但是在各类题型的整体覆盖上,还要持续去优化。

4、逻辑推理

逻辑推理与语义理解强关联,科大讯飞在这方面继续延续着自己的技术优势。

我们先用一个日常生活中不是很常见的促销套路来探路,看看大模型能否理解其中的意思。

很可惜,大模型中了圈套,没能识破文字陷阱,不过话说回来,人类在这个问题上,如果稍不注意,也会翻车,换位思考下,对大模型的疏漏也就可以理解了。

我们换一个经典的“过河”推理问题再测一次。

这次大模型的表现很棒,知无不言,言无不尽,回答的非常详细。

接着,我们再问一个“探宝”的推理问题。

点评:星火大模型在逻辑推理上的表现整体不错,特别是一些复杂的推理问题,表现出非常强的逻辑性,在这方面,大大强于一般人类的表现。

5、泛领域知识问答

我们先来一个生活常识,铁锅炒菜能补铁吗?

再问一个科学知识,为什么自拍总是比他拍更好看?哪个更接近自己真实的样子?

如果将大模型模拟成一名育儿专家,将生活常识、科学知识等进行融合,它又会如何作答呢?

再来一个有关文言文学习的提问,模拟一个苦于学习文言文的高中生,向大模型求教有关文言文字句和语法的疏通,主要内容,以及作者想要表达的含义和文字艺术之美。

点评:通过这项能力的展现,我们第一次了解到科大讯飞在泛领域知识数据上的积累完全不输其他科技大厂,通过与文本生成能力相融合,形成了科大讯飞在中文能力上的特有优势,也使得大模型更加接近个人助手的形态。

6、代码能力

在官方介绍中,星火认知大模型不仅可以生成代码,还可以修改、理解、编译代码,并且还具备Python、Java等多语言能力。

发布会现场,科大讯飞研究院院长刘聪就演示了用Python生成一段简单代码的能力,我们在后续测评中,星火大模型对找Bug以及类似数据抽取、条件筛选等方向的代码生成的表现都还不错。

下面是要求星火大模型对一段代码进行修改与改良的实例。

我们请教了一名资深程序员,对星火大模型的上述工作进行评价,星火大模型基本上完成了任务要求,经程序员检查,星火大模型在将boxes的数字转换成整数的过程中还是存在小小的瑕疵,漏掉了path节点。

事实上,刘庆峰在发布会上也承认星火大模型的代码能力与ChatGPT相比,存在一定差距,下一步升级的重点功能也是这一块。

大模型自己也说:“我的代码生成功能仍然有限,可能无法满足复杂的业务需求”。

点评:目前星火认知大模型对于简单的代码问题不大,但在涉及到一些复杂问题,架构时,则需保持警惕,其生成内容只能作为参考,站在开发者的角度,需要自行检查代码的正确性、可靠性和保密性等等。

02大模型竞速,落地为王

通过上文的实测,星火大模型的表现已经很好的回答了文章开头的提问,也确实具备与头部大模型掰掰手腕的实力,在各项能力中,如刘庆峰所说的,文本生成、知识问答、数学能力这三项表现出有别于友商竞品的长板。

除此之外,星火大模型的差异性还体现在商业化的落地实践,表现出更强的进攻性。

科大讯飞之所以能够突然爆发,给到行业惊喜,其实是从诞生之时起就开始进行铺垫了。

24年前,6个中科大在校学生喊出,“要把中文语音做到世界最好”,这也成了科大讯飞创业的初心。

2011年,科大讯飞承建语音及语言信息处理国家工程实验室,跻身人工智能“国家队”,提出“让机器像人一样能听会说。” 

2014年,科大讯飞推出“讯飞超脑计划”,明确提出:让机器像人一样能理解会思考。

2022年,又升级为“讯飞超脑2030计划”,提出让懂知识、善学习、能进化的通用人工智能技术成为每个人未来发展的重要机会,让机器人走进家庭。

从学界到产届,从输入法到翻译机,科大讯飞一直深耕于语音语义领域,继而形成了对认知智能的独到理解和布局。

算法上,科大讯飞经验丰富,尤其擅长认知智能,仅去年就获得了常识阅读理解挑战赛OpenBookQA等13项世界冠军,开源了六个大类,超过40个通用领域的系列中文预训练语言模型。

数据上,在多年认知智能系统研发推广中积累了超过50TB的行业语料和每天超10亿人次用户交互的活跃应用。

算力上,讯飞总部有自建的数据中心,在工程技术方面实现了百亿参数大模型推理效率的近千倍加速,同时还与华为合作,大模型建立在安全可靠的国产算力平台之上。

所以,星火大模型发布的时间虽然较晚,但技术储备的时间却非常的长,继而由模型到产品落地的速度反而跑到了前面。

对于当前大模型的“涌现”,很多行业人士都旗帜鲜明的表率,大模型的应用不应只停留在人机对答的自我娱乐,而应与产业融合才能产生更大的价值。

刘庆峰也强调,“一个大模型系统到底好不好,首先要看它是不是能解决刚需、是不是真的有用,而不是一个简单的单点测试。”

因而星火大模型很大一个特点是,一方面不忌讳自己的缺陷和不足,勇于面向公众大规模开放,这也显示出科大讯飞超强的技术自信。

另一方面,实现了大模型在应用和产品层面的率先落地,通过学习机、智能办公本、汽车座舱交互系统、讯飞听见、数字员工等一系列产品,打通了“大模型+产品”的生态闭环,在数据和模型之间形成正向反馈循环的“涟漪效应”。

星火大模型落地的上述产品本身就拥有数量庞大的用户群体,自然而然会产生大量数据,数据反馈给模型后,在“涟漪效应”下,将推动模型的迭代更新,变得越来越强。

星火大模型的率先落地,表面上看以提升用户体验的方式,提高了讯飞产品的竞争力,特别是像学习机和智能办公本,几乎变成了完全不同的产品,更深层次的影响或将改变行业生产协同的行为模式。

03结语

科大讯飞是人工智能国家队,自身也有非常强的AI标签,因而在拥抱大模型这件事情上,一定比像百度、华为这类拥有多条业务线,更多方向选择的科技巨头更加坚定。

在中国率先实现“智慧涌现”之前,科大讯飞还得对照着人工智能红利兑现的三大标准:“有没有看得见摸得着的真实应用案例,有没有能够规模化推广应用的产品,有没有统计数据能够证明的应用成效”,继续夯实科研、产品和服务这些基础工作,这样才能经得住时间的考验,真正迎来星火燎原。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/503417.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

docker-mysql的几个问题

来水一篇文章 文章目录 问题一:问题2: 问题一: 在Navicat上执行大脚本mysql的sql文件时,出现插入数据报错的问题,查了一下innodb_log_file_size参数show variables like innodb_log_file_size;只有50331648即48M&…

WB_BF项目问题说明以及探究

我就现在WB_BF项目群里面提到的“根据测试脚本运行日志来看,bf运行了约31小时后又开始出现了api调用返回nginx的错误信息。之后,bf客户端也无法打开。”问题做一下说明,今天早上我在机器上复现了这一问题。针对于api调用会返回nginx的错误信息…

CTF权威指南 笔记 -第四章Linux安全机制-4.1-Linux基础

常用命令 这里给出linux常用命令 cd ls pwd 显示当前工作目录 uname 打印系统信息 whoami 打印用户名 man 查询帮助信息 find echo cat less head grep diff mv cp rm ps top kill touch 创建文件 mkdir 创建文件夹 chmod 变更权限 chown 变更所属者 nano 终端文本编辑器 e…

MySQL获取当前日期、时间、时间戳函数

目录 1.MySQL 获取当前日期时间 函数 1.1 获取当前日期(date)函数:curdate() 1.2 获取当前时间(time)函数:curtime() 1.3 获取当前日期时间(date time)函数:now() …

BClinux8.6 制作openssh9.3p1 rpm升级包和升级实战

一、背景说明 BClinux8.6 默认安装的openssh 版本为8.0,经绿盟扫描,存在高危漏洞,需要升级到最新。 官网只提供编译安装包,而BClinux8.6 为rpm方式安装。 为了方便升级,先通过编译安装包,制作rpm包&…

什么是无感电阻?无感电阻和普通电阻的区别

无感电阻,也称为电感电阻、电感器、电感元件等,是一种电气元件,常用于电子电路中,用于限制电流、防止电磁干扰等。无感电阻是指一种电阻器件,它能够在高频电路中工作而不会产生电感,从而避免了电感对电路性…

【Python】更改matplotlib绘图样式,要创建一个后缀名为mplstyle的样式清单,如何实现?

要更改 matplotlib 绘图样式,可以按照以下步骤创建一个后缀名为 mplstyle 的样式清单: 打开终端或 Anaconda Prompt(Windows 用户);确保您的 Matplotlib 版本是 2.0.0 以上版本,通过运行: imp…

被裁现状,给找工作的同学一些建议

2022 到 2023 国内知名互联网公司腾讯、阿里、百度、快手、滴滴、京东、阿里、爱奇艺、知乎、字节跳动、小米等公司均有裁员,其中有不少公司,在过去年的一整年,进行了多轮裁员,以下是网传的一张 “2022 年裁员企业名单”。 这些裁…

【单目标优化算法】孔雀优化算法(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

介绍一个empty(空状态描述)全端通用的空状态描述组件

介绍 这是一个全端通用的空状态描述组件,集成了25种常用场景,支持自定义图标及内容,快点下载试试吧。 插件含全部源码,可以给您无限实现可能,随心所欲自定义你的功能;符合uni_modules和easycom规范&#…

什么是web3 | 区块链web3.0人才

文章目录 一、Web31. 什么是web3?2. web3的dapp架构 二、区块链web3.0人才1. 区块链开发技术栈2. 欧易对人才的要求3. 如何成为一名合格的智能合约高级工程师4. web3各个赛道5. 链上数据分析师6. 一些案例 三、参考 一、Web3 1. 什么是web3? 20世纪90年…

百度搜索排名的提升,就靠这10个优化技巧!

随着互联网的快速发展,网站排名已经成为了企业竞争的一个重要指标。其中,百度搜索排名的提升更是众多企业都非常关注的问题。因此,在这篇文章中,我将为大家介绍10个优化技巧,以帮助企业提升百度搜索排名。 1.关键词优化…

MG100-Hi3798MV100-当贝纯净桌面卡刷固件包

MG100-Hi3798MV100-当贝纯净桌面卡刷固件包-内有教程及短接点 特点: 1、适用于对应型号的电视盒子刷机; 2、开放原厂固件屏蔽的市场安装和u盘安装apk; 3、修改dns,三网通用; 4、大量精简内置的没用的软件&#xf…

MySQL基础篇补充 | 多表查询中使用SQL99实现7种JOIN操作、SQL99语法新特性

目录 一:多表查询中使用SQL99实现7种JOIN操作 二:SQL99语法新特性 1. 自然连接Natural 2. USING连接 一:多表查询中使用SQL99实现7种JOIN操作 在多表查询中,除了遇到最多的内连接、左外连接和右外连接,还有其它的…

GPT-4与人工智能的未来:微软CTO对话比尔·盖茨

一系列技术变革引领我们走到今天,并深刻影响着人类社会。如今,随着人工智能技术的快速发展,ChatGPT、New Bing、GPT-4 等新产品和新技术的陆续发布,又将如何帮助我们创造未来?在微软与 OpenAI 的密切合作中&#xff0c…

Packet Tracer - 使用 CLI 配置 IOS 入侵防御系统 (IPS)

Packet Tracer - 使用 CLI 配置 IOS 入侵防御系统 (IPS) 拓扑图 地址分配表 设备 接口 IP 地址 子网掩码 默认网关 交换机端口 R1 G0/1 192.168.1.1 255.255.255.0 不适用 S1 F0/1 S0/0/0 10.1.1.1 255.255.255.252 不适用 不适用 R2 S0/0/0 (DCE) 10.1.1.…

服装生产erp都有哪些功能?该如何选服装生产erp?

各位开服装工厂的老板是否遇到这些难题: 库存管理成本高,大量库存积压导致资金紧张; 车间用人成本高,工人工作效率低,浪费大量时间和资金成本; 生产、加工、成品出库等各环节无法顺畅衔接,补单困…

Wikidata 数据包下载+格式转换+入库MySQL

1. Wikidata 简介 维基数据是一个自由的协作式的多语言辅助数据库,用于收集结构化的数据,旨在支援维基百科、维基共享资源以及其他维基媒体运动中的项目,也支援世界上的每一个人。 官网:https://www.wikidata.org/wiki/Wikidata:M…

在“裸奔”时代保护我们的隐私:网络攻击、数据泄露与隐私侵犯的应对策略与工具

摘要:随着信息技术的普及和发展,个人隐私和数据安全问题日益受到威胁。本文将讨论如何有效应对网络攻击、数据泄露和隐私侵犯,并提供一系列实用的技巧和工具,以帮助我们在“裸奔”时代更好地保护数据安全和隐私。 当今社会&#…

Http知识

一、http协议 目前存在HTTP1.1(当前广泛运用的版本)、HTTP2.0和HTTP3.0协议,有以下的优点和缺点 1. HTTP1.1 优点:默认支持长连接,即在一个TCP连接上可以传送多个HTTP请求和响应,减少了建立和关闭连接的…