对标GPT-4o,科大讯飞正以大模型重塑语音产业

news2024/9/20 18:32:42

每个科技时代,都有每个时代的“入口”和“推手”。

在PC时代,浏览器和搜索引擎是主要入口,用户通过键盘和鼠标进行交互。移动互联时代,APP和应用商店成为典型入口,用户用手指和触摸屏进入互联网世界。而在眼下的AI时代,业内已经把语音交互当做重要入口,它提供了一种更为丰富、自然和便捷的交互体验。

纵观历史,每一个抓住入口、推动时代发展的企业,反过来也能掌握竞争主动权,获得长期发展动力。比如,PC时代的谷歌,移动互联时代的苹果等等。

因此,如今很多大厂都在围绕语音交互展开深度布局,力图抢占AI时代的战略要地。其中,就国外和国内而言,OpenAI和科大讯飞成为最受关注的两家企业。

今年5月,OpenAI 发布GPT-4o,展现出更为强劲的语音交互能力。比如,更快的响应速度、更自然的语音等等。但遗憾的是,GPT-4o目前还没有向国内用户开放,大部分人无法亲自感受各种体验。

很多人不知道的是,国内的科大讯飞不仅做到了对标GPT-4o的语音交互体验,而且还能让人抢先体验。

今年8月19日,科大讯飞发布了星火极速超拟人交互技术,在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现巨大突破。这项技术将于今年8月底在讯飞星火App上全民开放使用,普通用户也能亲自感知。

在最近的科大讯飞2024年上半年业绩说明会上,《一点财经》观察到科大讯飞董秘江涛亲自演示星火极速超拟人交互技术,由此更直观地看到了这项技术的操作体验。

不得不说,科大讯飞虽然在研发上大力投入,但在宣传上的力度着实不够。其实,这项技术能对行业变革产生深度影响。与此同时,科大讯也在积攒技术势能,未来预计会释放出强劲的发展动能。

语音交互的“理想”与“现实”

2014年,一部讲述人类与AI爱情的电影《Her》收获了超高人气,还获得了奥斯卡最佳原创剧本奖。

电影中,男主角西奥多的工作是给不善表达感情的人代写情书。他有语音操控的随身设备,能够直接用语音输入信件内容、进行打印等等。日常生活中,他还能通过语音收听歌曲、接收邮件和新闻。

让很多观众浮想联翩的是,西奥多遇到了一个AI机器人“萨曼莎”,她拥有温情的声线,不仅非常体贴还很懂西奥多。在跟“萨曼莎”的长期语音交流中,西奥多坠入爱河,开始了一段“人机恋”。

十年以来,这部电影里的科幻场景不断照进现实,各种语音交互产品和技术持续迭代,丰富着用户的语音交互体验。

不过,很多用户还是感觉跟想象中的体验有落差。因为市面上语音交互技术普遍存在痛点,包括响应迟钝、难以共情、个性化不足、端点检测困难等问题。

简而言之,现在许多语音交互技术机器的味道还是太重,拟人的感觉不足,没能提供足够的情绪价值。这一方面导致用户体验不佳,另一方面阻碍了行业发展,需要有企业来破除痛点,充当行业发展的推手。

目前来看,科大讯飞就是一个重要的推手。其推出的星火极速超拟人交互技术在四个方面极大提升了用户体验——“响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演”,总结下来就是:

不仅在响应上有速度,而且在情感上有温度,能够提供更多的情绪价值。

1、响应上的速度

用户进行语音交互的过程中,都想获得更快的响应,达到“召之即来”的效果。并且在中途频繁打断的情况下,希望能够迅速重新响应。

然而,目前主流的语音交互应用中,从用户提出问题到应用响应大多需要2-2.5秒,会明显感觉到停顿,中途打断后响应的时间更长,这就会影响用户的交互节奏和智能体验。

而星火极速超拟人交互技术带给人的首个感受就是“快”,其让响应时间缩短到了0.9秒,几乎感觉不到停顿。另外,用户还可以随时打断、插话,它依然能做到迅速响应。

这意味着,通过星火极速超拟人交互技术,用户可以获得更加贴近日常对话的现实体验。

2、情感上的温度

在语音交互过程中,如果能够及时响应,但回应的却是冷冰冰的话语,用户的交互欲望和热情必然会降低,因为没有人愿意面对一个没有温度的机器。

传统指令型语音技术,只能通过对某些特定发音的识别给出响应,情绪感知能力不足,而星火极速超拟人交互技术进行了明显的提升。其不仅能够根据语音判断用户情绪,包括高兴、悲伤、生气、害怕等等,还能识别咳嗽、宠物叫声等非语言信号,跟用户之间产生更深层次的情感共鸣。

如果只能分别情绪,不能情绪化地回应,用户的感知度也不会很明显。星火极速超拟人交互技术在表达方式上更加灵活,可以根据用户的指令控制数十种情感、风格、方言,甚至自动调节语速、语气和情绪,让对话更有温度从而直入人心。

另外,星火极速超拟人交互还有一个优势就是能够“选角色”,其支持多种人设的任意切换,用户可以与孙悟空、蜡笔小新、小猪佩奇等角色进行互动,感受到跟不同角色对话的乐趣。

可以说,以往的语音交互技术体验起来更像机器,而星火极速超拟人交互更像人类,大大提升了用户体验。这种进化背后,在于科大讯飞进行了长期的技术研发和积累。

语音交互进化史:技术才是硬道理

语音交互进化史,就是一部技术迭代史。

最早的语音交互技术,可以追溯到上世纪60年代。当时的语音交互技术主要基于规则,也就是将语音按照语法等规则进行分析和生成,然后根据设定好的语句进行回应。

这种方法的智能度和灵活度都很低,只能进行某些特定任务,比如查询天气、订票等,稍微复杂一些的指令就无法操作。

上世纪90年代,语音交互技术进入新的阶段,也就是基于统计模型。这种方法不再依赖于固定规则,而是利用概率论建立交互模型,根据上下文生成最合适的回应。这种方法相对可以处理更多指令,也能适应不同的场景需求。

2006年,随着深度学习技术兴起,语音交互技术有了质的飞跃,可以自动学习语音信号的复杂特征,从而进入DNN(深度神经网络)时代。比如,RNN(循环神经网络)是一种能够处理序列数据的神经网络。它具有长期记忆能力,可以用于处理连续的语音特征,从而提高识别准确率。

此后,语音交互技术在持续进化,比如CNN(卷积神经网络)、DFCNN(深度全序列卷积神经网络)等等,用户体验也在持续升级。在技术进化浪潮中,科大讯飞一直站在潮头浪尖。

早在2012年,科大讯飞就将BN-feature和NDD-HMM两套深度学习方案上线了讯飞输入法和语音开放平台,由此成为国内首个上线深度学习语音识别商业系统的机构,将实际场景中语音识别的准确率从60%提升到了88%左右。

到现在,星火极速超拟人交互采用的是统一神经网络,直接实现语音到语音端到端建模,这是一种被验证为能力更强的技术方案。

因为传统的语音识别系统一般由多个模块组成,包括声学模型、语言模型和发音词典等。而端到端建模将这些模块合并为一个整体,实现了原始语音信号到最终文本的直接映射,这就给语音交互带来了许多提升。

首先,端到端建模简化了传统语音识别系统的复杂度、减少了模块之间的集成难度。其次,它可以更好地外理语音信号中的噪声和变异,提高了系统的鲁棒性,即抵御外界干扰和保持稳定的能力。此外,它还具有更快的训练和推理速度,适用于实时场景。

星火极速超拟人交互的技术优势背后,在于科大讯飞持续进行研发投入和积累。

根据科大讯飞最新发布的2024年上半年财报,报告期内其营收93.25亿元,比上年同期增长18.91%。值得注意的是,公司研发投入21.9亿元,同比增长32.23%,占营收比重达23.5%。

在企业发展因子中,营销、宣传等浅层次的是“快变量”。短期内,它们能够发挥一时的成效,但也会呈现不稳定和低门槛的特征。

深层次则是“慢变量”,比如技术、研发等等。它们前期需要大量的投入,就像推动一个静止的轮子,投入到一定程度后轮子会越转越快,从而迸发出“飞轮效应”,最终转化为出色的技术和产品以及坚固的护城河。此次,科大讯飞推出星火极速超拟人交互技术就是一个典型。有时候,“慢”反而意味着“快”。

其实,星火极速超拟人交互技术背后的大模型能力,同样具备庞大的想象空间。

眺望未来:大模型重塑语音产业

如今,“大模型+”就像当年的“互联网+”给与市场无限想象力。

在大模型的热风之下,许多产业都值得被重塑一遍,其中就包括汽车、机器人、消费电子、家电等领域。在大模型落地方面,科大讯飞通过星火大模型云边端一体化、软硬件一体化的全场景布局,这让其能够满足多个复杂场景对大模型的需求,进而摘取多元的产业红利。

先说汽车领域。今年上半年,中国汽车产销量分别达1389.1万辆和1404.7万辆,依然保持全球第一。出口总量达348万辆,同比增长25%,火热态势依旧。目前,中国汽车出海十强企业中,有8家企业和科大讯飞合作。未来,汽车的趋势必然是智能化。而大模型的赋能,可以提升智能座舱、智能驾驶等多个方面的用户体验,助力中国汽车产业的增长。

比如,自2011年科大讯飞率先完成汽车语音国产化,车载语音已经成为中国汽车市场的标配,但在海外仍受制于单一语种的制约。今年星火语音大模型发布72个语种/方言免切换对话,并通过云边端及软硬一体化解决方案可以大大提升智能座舱体验。另外,科大讯飞还研发出基于星火大模型的用车助手,能够实时监测理解车辆状况,精准解答用户对用车的问题。

科大讯飞方面透露,公司汽车智能化产品合作已覆盖90%以上的中国主流自主品牌和合资品牌车厂。最新财报显示,科大讯飞汽车业务也延续了强劲的增长势头,上半年实现营收3.5亿元,同比增长65.49%。

跟汽车一样,机器人同样是未来的重要趋势。

尤其是人形机器人的前景非常可观,据《人形机器人产业研究报告》预测,2024年中国人形机器人市场规模将达到约27.6亿元,到2029年达到750亿元,将占世界总量的32.7%,占比位居世界第一。

大模型的思维链推理能力,能够明显提升机器人对于复杂任务的理解能力,并提供符合常识的任务拆解与规划。尤其是具身感知模型与具身决策模型的结合,能够进一步提升人形机器人在真实场景下的多模态感知与理解能力。

在复杂任务拆解、开放场景物体识别、多模态感知与理解等方面,星火大模型明显提升了人形机器人的智能水平。在最近的在2024世界机器人大会,科大讯飞亮相了“大模型+具身智能”的人形机器人最新进展:

整体运动性能提升2倍,复杂任务拆解成功率超过95%,交互能力、运动性能进一步提升。

另外在产业赋能上,讯飞机器人超脑平台已赋能420家机器人企业,深度链接1.5万机器人开发者,与优必选、宇树科技、智元机器人、银河通用等人形机器人企业形成广泛合作,未来预计有着充足的想象空间和强劲的产业推动力。

除了机器人,大模型浪潮也正在向消费电子终端和家电领域蔓延。

包括智能手机、智能办公本、学习机等在内的消费电子终端的规模非常庞大,《2024年数字经济报告》显示到2029年全球物联网设备数量将增至390亿部。如果用大模型让每台终端都变得更智能,从而提升用户体验,也能创造更大的市场空间。中商产业研究院预测,2023年中国智能硬件市场规模将达到14031亿元,预计2024年增至达15033亿元。

以科大讯飞智能办公本X3为例,其搭载了最新的讯飞星火智能技术,实现语音转文字、智能笔记整理、多语种翻译等高效办公功能。用户只需简单操作,就能将会议内容、演讲要点等语音信息实时转化为文字记录。这不仅大大提高了用户工作效率,也助力了科大讯飞智能硬件业务的增长。根据最新发布的2024年半年报,科大讯飞智能硬件业务实现营收9亿元,同比增长56.61%,增速远超行业平均水平。

随着新一轮以旧换新热潮来袭,家电市场也迎来新的市场增量。而家电与大模型的结合,能够为用户创造更智慧的家居生活,也能为家电厂商、技术提供商带来新的增长点。

比如,搭载讯飞星火认知大模型的电视语音助手将升级为全能的家庭中心,能够轻松应对日程管理、智能家居控制等操作,也能让孩子跟电视语音助手直接对话,练习口语、获取知识等等,打造出新的教育场景。三星就结合讯飞星火认知大模型的能力,让电视语音助手具备深层次理解、内容生成和知识问答等能力,极大提升了用户体验。

如今,星火大模型正成为教育、医疗、能源、汽车、家电、机器人等多个重要领域落地的首选。其不仅为AI时代的入口探索出更多可能性,也在结合实际场景进行应用落地,为用户真正带来技术红利,为企业创造经济效益,其本身也能够获得发展动能。

结语

《底层逻辑》一书中提出“战略势能”的概念,形象地说把一块石头抬到较高的山顶上就储备了势能。石头向下滚动时,势能就转化为了动能。

现在的科大讯飞,正处在积蓄战略势能的时候,需要克服困难大量投入。随着各项技术的深入和落地,战略势能将持续转化为发展动能,其未来是值得期待的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2082433.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

8月27c++

提示并输入一个字符串&#xff0c;统计字符串中字母、数字、空格和其他字符的个数 代码 #include <iostream> #include <cstring> using namespace std;int main() {string str;cout<<"输入一个字符串";getline(cin,str);//输入字符串int lenstr…

【vulhub】Weblogic WLS Core Components 反序列化命令执行漏洞(CVE-2018-2628)

简单来说就是先用序列化工具ysoserial启动一个JRMP服务&#xff0c;加载先相关漏洞利用链&#xff0c;加载你要执行的恶意代码。 并将上述结果通过序列化工具ysoserial将我们的恶意代码进行一个序列化操作。 第二步就是将我们的exp去加载ysoserial序列化后的数据&#xff0c;后…

vue侧边栏

在Vue中创建一个侧边栏&#xff08;Sidebar&#xff09;是一个常见的需求&#xff0c;特别是在构建管理界面或需要导航菜单的应用时。侧边栏通常用于展示应用的导航链接或菜单项&#xff0c;用户可以通过点击这些链接来访问应用的不同部分。 <template><el-tree :data…

openEuler安装Docker和踩坑分析

我是用的openEuler版本&#xff1a;20.03 LTS SP1&#xff0c;安装在虚拟机中&#xff0c;使用ssh连接 在openEuler上安装Docker还是让我踩了不少坑&#xff0c;先看看这些坑是如何产生的 虽然官方没有说openEuler是基于什么开源系统开发的&#xff0c;但大致内容和CentOS相似…

【教学新纪元】大学电工电子课堂大变身!SmartEDA电路仿真软件助你高效授课✨

在快速迭代的科技时代&#xff0c;教学方式的创新成为了提升教学质量的关键。作为一位深耕电工电子原理教学领域的老师&#xff0c;你是否曾梦想过将复杂的电路理论以直观、互动的方式展现给学生&#xff1f;今天&#xff0c;就让我们一起探索如何利用SmartEDA电路仿真软件&…

鸿蒙开发5.0【基于lycium的开源c库编译与集成】

场景描述 对于c库编译问题&#xff0c;应用经常会遇到如下业务诉求 场景一&#xff1a;基于HarmonyOS编译开源C库 场景二&#xff1a;开源c库编译完成后的集成 方案描述 场景一&#xff1a; 需要使用开源c库 lycium的使用说明&#xff1a;lycium的特点就是自动化编译&am…

8.28-回顾+容器与主机之间的通信+跨主机容器之间的通信

一、回顾 1.启动docker systemctl start docker 2.拉取registry docker pull registry 3.启动镜像&#xff0c;同时挂载目录&#xff08;保存镜像&#xff09;端口映射5000 docker run -d -v /regist/:/var/lib/registry/ -p5000:5000 registry:latest 4.修改/etc/docker/d…

培训第三十八天(上传镜像,私有仓库下载镜像,跨主机容器间的通信,harbor软件包下载)

1、harbor软件包下载 https://github.com/search?qharbor&typerepositories 2、出现拒绝连接错误&#xff0c;可能是由于容器没开 # 问题解决&#xff1a;[rootdocker ~]# curl localhost:5000/v2/_catalogcurl: (7) Failed connect to localhost:5000; 拒绝连接[rootdoc…

pdf怎么转换成excel?掌握好这9个pdf转换方法就够了(全)

pdf怎么转换成excel&#xff1f;日常的办公生活中&#xff0c;我们经常需要接触很多文档格式&#xff0c;而pdf格式文件因为其稳定性和安全性受到很多办公人士的喜爱。但PDF文件不能直接编辑&#xff0c;很多小伙伴们就会出现关于pdf格式转换的难题&#xff0c;比如说想把一份带…

MATLAB虫害检测预警系统

一、课题介绍 本课题是基于MATLAB颜色的植物虫害检测识别&#xff0c;可以辨析植物叶子属于是轻度虫害&#xff0c;中度虫害&#xff0c;严重虫害&#xff0c;正常等四个级别。算法流程&#xff1a;每种等级叶子分别放在同一个文件夹&#xff0c;训练得到每个文件夹每个叶…

SSL安全认证网关:保障网络安全的强大护盾

随着信息技术的飞速发展&#xff0c;我们的生活和工作越来越依赖于网络&#xff0c;但与此同时&#xff0c;网络安全威胁也日益严峻。为了保护我们的信息安全&#xff0c;各种安全技术和产品应运而生&#xff0c;其中SSL安全认证网关就是一种非常重要的安全防护工具。 今天&…

3款伪原创工具,为你轻松一键生成原创文案

在当今信息爆炸的时代&#xff0c;原创内容的重要性愈发凸显。然而&#xff0c;对于许多创作者来说&#xff0c;创作原创文案却是一项费时费力的挑战。幸运的是&#xff0c;随着科技的进步&#xff0c;现在有三款伪原创工具能够帮助你轻松一键生成原创文案&#xff0c;为你节省…

DNS服务器的配置(服务名named,端口53)

目录 前言 配置文件 DNS服务器的配置 主配置文件 扩展配置文件 区域配置文件 重启服务 配置防火墙 配置客户端dns 前言 DNS服务器的主要作用是将人类可读的域名转换为机器可读的IP地址&#xff0c;从而方便用户访问互联网资源。 在互联网中&#xff0c;设备需要通过I…

基于资源管控+TiCDC实现多业务融合容灾测试

作者&#xff1a; 数据源的TiDB学习之路 原文来源&#xff1a; https://tidb.net/blog/959b8d07 背景 金融机构越来越多的选择将多套业务系统融合到一套分布式数据库集群来支撑&#xff0c;一方面可以节约硬件成本&#xff0c;另一方面可以简化运维复杂性。多租户能力及资源…

【电控笔记z26】串级PID单环位置PID

1P-PI 传函(梅森法) : 2PI-P 3PID 三者等效

HyperMesh概述与有限元分析简介

1.1 HyperMesh 概述 本节将介绍有限单元法基本原理&#xff0c;HyperMesh 软件基本功能及界面介绍&#xff0c;获取在线帮助等内容。 1.1.1 有限元分析方法简介 有限单元法&#xff08;FEM&#xff09;是一种可以精确预测复杂结构在外界载荷作用下响应的方法&#xff0c;该数…

问界都回暖了,是谁还在持续掉队?

文/王俣祺 导语&#xff1a;在8月份的最后一个完整周&#xff0c;国内汽车市场的销量表现全面提升&#xff0c;乘用车市场销量达到了46.6万辆车&#xff0c;环比增长13.1%。其中&#xff0c;新能源汽车销量达到24.2万辆&#xff0c;环比增长11.6%&#xff0c;市场渗透率达到了…

《探索现代JavaScript中的异步编程》

探索现代JavaScript中的异步编程 随着Web应用变得越来越复杂&#xff0c;前端开发中对异步处理的需求也日益增加。JavaScript 作为 Web 开发中最主要的语言之一&#xff0c;提供了多种异步编程的方法来帮助开发者编写高效、可维护的应用程序。本文将介绍几种现代 JavaScript 中…

P5928 [国家集训队] 文学 题解

Description 给定 n n n 个半平面 a i x b i y ≤ c i a_i xb_i y\le c_i ai​xbi​y≤ci​ 和 p p p 个关键点 ( x i , y i ) (x_i,y_i) (xi​,yi​)&#xff0c;第 i i i 个半平面有价格 w i w_i wi​&#xff0c;你需要选择一些半平面覆盖所有的关键点&#xff0c;同…

深入探索Elasticsearch:从零基础到实战精通的全方位指南

ElasticSearch 一、初识ElasticSearch1、ES的介绍2、索引3、正排索引3、倒排索引 一、安装1、下载2、检查是否启动 二、语法1、添加一个文档编辑2、批量插入3、搜索4、查询某个特定的字段5、根据id查询6、修改7、删除8、mapping 三、分词器 一、初识ElasticSearch 1、ES的介绍…