祝贺!FISCO BCOS伙伴科大讯飞获国家科学技术进步奖一等奖

news2024/10/6 10:36:23

6月24日,2023年度国家科学技术奖励大会在京召开,金链盟理事单位、开源工作组成员单位、FISCO BCOS产业应用合作伙伴科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目获得国家科学技术进步奖一等奖。

这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域首个国家科学技术进步奖一等奖。这也是科大讯飞继2002年和2011年分别获得国家科学技术进步奖二等奖之后,首次获得国家科学技术进步奖一等奖。

科大讯飞作为AI行业的领跑企业,近年来深度参与FISCO BCOS底链、隐私计算、开源组件等模块建设,探索AI+区块链创新应用。

国家科学技术进步奖创办于1984年9月,是国务院设立的国家科学技术奖5大奖项(国家最高科学技术奖、国家自然科学奖、国家技术发明奖、国家科学技术进步奖、中华人民共和国国际科学技术合作奖)之一。因2021年、2022年国家科技奖暂停的缘故,2023年度国家科技奖积累了大量的优秀成果,竞争激烈。

图片


关键技术取得四大突破,达到国际领先水平

语音是人类最自然便捷的沟通方式,是智能设备人机交互的关键入口,也是诸多敏感信息的重要载体,还是民族团结和国际合作的基础。多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义,具有十分广阔的产业前景,是当前国际科技竞争核心焦点之一。

持续攻关多年,科大讯飞攻克了多个技术难题,并打破技术封锁,提出了四个方面的技术创新。

创新点一,复杂语音信号解耦建模关键技术突破。

语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题。

科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,解决了“鸡尾酒会”的难题,使得复杂场景下语音识别准确率得到重大突破。

在这些技术的支撑下,科大讯飞连续4届获得国际多通道语音分离和识别比赛CHiME冠军;连续8届获得国际语音合成大赛Blizzard Challenge冠军。2015年,相关技术首次在大会演讲场景实现语音转写超过人类速记员水平;2019年起连续六年服务全国两会;个性化语音合成首次应用于中央电视台节目配音(《创新中国》),并在新华社、人民日报、学习强国等广泛应用。

创新点二,多语种共享建模关键技术突破。

为了应对多语种技术“卡脖子”问题,必须解决小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题。

科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练——最终,显著提升了小语种语音系统性能。

相关技术在2021年国际低资源多语种语音识别竞赛OpenASR中获得15个语种受限赛道和7个语种非受限赛道的冠军。2024年,结合语音属性解耦表征、多语种多任务共享建模等关键技术成果发布星火语音大模型,首批37个主流语种的语音识别效果超过OpenAI Whisper V3。

在奇瑞、一汽等的交互评测中,科大讯飞的技术效果全面领先国际车载语音技术竞品赛伦思(原Nuance车载公司),在华为的评测中也领先谷歌。

创新点三,语音语义联合建模关键技术突破。

复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题。

科大讯飞提出语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。

相关技术于2018年在业内首次达到CATTI考试英语二级《口译实务(交替传译类)》合格标准;并在2021-2023年连续三届获得国际权威机器口语翻译评测比赛IWSLT冠军,覆盖同传、离线、方言翻译等多类任务。

技术成果应用在多个方面:如英语口语评测首次达到人类专家水平,是满足高考应用要求的技术,累计服务超1.3亿考生;智能客服系统规模应用,累计服务超8亿人,多行业对话成功率超90%。

创新点四,国产异构硬件平台训练及推理加速关键技术突破。

使用国产芯片开展智能语音算法模型训练和推理面临性能低、适配难等问题。

科大讯飞提出硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。

目前,已建成5个国产化集群,语音合成、识别、翻译、交互等国产化能力日服务8.73亿次。2023年,科大讯飞与华为联合攻关大模型国产化算力底座核心难题,建设首个万卡全国产算力平台“飞星一号”,填补了国产超大模型训练平台空白。

基于这些关键技术的持续攻关和突破,该项目获批牵头建设4个国家级创新平台:语音产业界唯一的国家级研究开放平台语音及语言信息处理国家工程研究中心,智能语音国家新一代人工智能开放创新平台,首批20家标杆全国重点实验室之一的认知智能全国重点实验室,智能语音领域唯一的国家技术标准创新基地;并主导编制11项国际和国家标准,获授权发明专利257项;近五年累计获得国际权威评测冠军20余项,持续保持技术引领。

实现规模化产业立地,有效支撑国家战略

科大讯飞一直坚持“技术顶天、应用立地”的战略,围绕多语种智能语音技术构建了自主可控的产业生态。

第一,语音是万物互联时代人机交互的关键入口,项目开创引领我国语音产业,支撑智能制造产业升级和出海。

智能手机方面,项目支持各主流手机厂商累计激活设备超10亿台,有效解决华为等厂商出海的多语种“卡脖子”问题;智能汽车方面,车载智能化产品累计前装超5300万套,支持奇瑞、一汽、长安等车企超200万套订单出海;智能软硬件方面,开创智能翻译机、智能办公本、智能录音笔等智能硬件新品类,连续三年获得京东&天猫双平台销售冠军,其中,讯飞翻译机目前能支持85个语种的翻译,覆盖全球200多个国家和地区,连续8年获得京东618、连续7年获得天猫双11销售冠军;在会议、办公等场景,讯飞听见系列产品服务遍及全球50多个国家和地区,支持了超过40万场会议,触及超过4亿观众;面向更多用户,讯飞输入法月活跃用户超1.4亿人,日语音交互次数超10亿次。

第二,项目助力民族团结,促进全球语言互通和“一带一路”建设。

发布“多语种语音云”平台,月服务超过5.46亿人次;每年提供翻译服务51.5亿次,语音同传服务全球50余个国家超4亿观众;多语种技术有效服务北京冬奥会和冬残奥会、中国国际进口博览会、博鳌论坛等国家重大活动。

第三,项目还构建了自主可控的多语种智能语音技术及全球产业生态。

2017年开始承建的智能语音国家新一代人工智能开放创新平台,已聚集平台开发者数700.7万,终端设备数40.5亿;构建全球多语种技术生态,目前平台聚集海外开发者数超过40万。

第四,让科技更有温度,项目持续助力公益,关爱弱势群体和特殊人群。

“听见AI的声音”公益行动,为听力障碍人士提供免费的实时语音转文字服务、捐赠免费时长,截至2024年6月,累计捐赠时长超一亿分钟;发起“三声有幸”项目,累计服务1368万人,助力公益团队创建无障碍应用超3万个;进行推普脱贫攻坚,累计助力超115万少数民族群众,成为《国家通用语言文字法》施行22年来首次表彰活动中的企业先进集体。

项目产业生态繁荣、成效显著。近三年,多语种智能语音技术产业化项目累计实现直接经济效益521.28亿元,并带动由工信部和安徽省政府共建、以科大讯飞为核心的“中国声谷”产业集聚发展,并上升为中部崛起的国家战略。

未来:智能语音+认知大模型,用人工智能建设美好世界

通用人工智能时代,科大讯飞多语种智能语音关键技术中的创新和大模型技术相互补充、相互促进。

语音属性解耦、语音信号时空分离等技术突破,可以将语音信号经过编码后输入到大语言模型,显著提升语音大模型的效果。2024年1月30日,科大讯飞就基于上述技术融合路线发布了星火语音大模型,显著超过了OpenAI的Whisper v3的语音大模型能力,Whisper v3的24个主要语种的平均识别率为82%,而星火语音大模型达到了90%。4月26日,科大讯飞又首发多情感超拟人合成和一句话声音复刻能力,使机器具备更加丰富的超拟人情绪感知和表达。

大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值,支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等未来智能产品创新,带来巨大产业机会,加速通用人工智能时代的到来。

文章来源:科大讯飞官方账号

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1869185.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[计算机网络] 虚拟局域网

虚拟局域网 VLAN(Virtual Local Area Network,虚拟局域网)是将一个物理的局域网在逻辑上划分成多个广播域的技术。 通过在交换机上配置VLAN,可以实现在同一个VLAN 内的用户可以进行二层互访,而不同VLAN 间的用户被二…

如何利用静力水准仪进行地形沉降测量

地形沉降测量在建筑工程和地质研究中起着至关重要的作用。准确的地形沉降测量可以帮助工程师预测和预防潜在的地基问题,从而保障建筑物的安全和稳定。本文将详细介绍如何利用静力水准仪进行地形沉降测量,并探讨其在实际应用中的优势。 静力水准仪的基本原…

线程池FutureTask浅谈

一,概述 FuturnTask实现了Future与Runnable接口,笔者知道,ThreadPoolExecutor#submit可以传入Callable接口而非Runnable,区别点在于Callable可以返回值,而整个FuturnTask可以理解为Callable设计,用来优雅地异步获取执行结果,无需手动Condition去实现。 围绕此,需知道…

碧海威L7云路由无线运营版 confirm.php/jumper.php 命令注入漏洞复现(XVE-2024-15716)

0x01 产品简介 碧海威L7网络设备是 北京智慧云巅科技有限公司下的产品,基于国产化ARM硬件平台,采用软硬一体协同设计方案,释放出产品最大效能,具有高性能,高扩展,产品性能强劲,具备万兆吞吐能力,支持上万用户同时在线等高性能。其采用简单清晰的可视化WEB管理界面,支持…

Aigtek:为何要使用电压放大器

电压放大器在现代电子技术中起到了至关重要的作用。它是一种电子设备,用于将输入信号的电压增大到所需的输出电压水平。电压放大器的使用有以下几个方面的原因和优势。 电压放大器可以提高信号的强度和质量。许多实际应用中的输入信号往往很微弱,比如来自…

基于springboot、vue影院管理系统

设计技术: 开发语言:Java数据库:MySQL技术:SpringbootMybatisvue 工具:IDEA、Maven、Navicat 主要功能: 影城管理系统的主要使用者分为管理员和用户, 实现功能包括管理员: 首页…

搭建抖音微短剧系统:源码部署与巨量广告回传全解析

在数字化浪潮中,抖音微短剧已成为内容创作的新宠。想要搭建一个高效的抖音微短剧系统,并实现与巨量广告的有效回传吗?本文将为您详细解析源码部署与广告回传的关键步骤。 一、源码部署:构建短剧系统的基石 源码是软件开发的起点…

[leetcode]beautiful-arrangement. 优美的排列

. - 力扣&#xff08;LeetCode&#xff09; class Solution { public:vector<vector<int>> match;vector<int> vis;int num;void backtrack(int index, int n) {if (index n 1) {num;return;}for (auto &x : match[index]) {if (!vis[x]) {vis[x] tru…

Java - Execl自定义导入、导出

1.需求&#xff1a;问卷星答 下图框出区域&#xff0c;为用户自定义字段问题及答案 2.采用技术EasyExcel 模板所在位置如下 /*** 导出模板** param response*/ Override public void exportTemplate(HttpServletResponse response) throws IOException {ClassPathResource c…

python-18-零基础自学python 类和子类的基础练习

学习内容&#xff1a;《python编程&#xff1a;从入门到实践》第二版 知识点&#xff1a; 类&#xff0c;父类与子类的继承&#xff0c;调用函数方法等。 练习内容&#xff1a; 练习9-7&#xff1a;管理员 管理员是一种特殊的用户。编写一个名为Admin的类&#xff0c;让它继…

linux绝对路径与相对路径区别简述

绝对路径与相对路径定义 绝对路径&#xff1a;相对于根路径&#xff0c;只要文件不移动位置&#xff0c;那么它的绝对路径是永恒不变的 相对路径&#xff1a;相对于当前所在目录而言&#xff0c;当前所在的目录可能会改变&#xff0c;所以相对路径不是固定的 路径&#xff…

算法基础入门 - 1.排序

文章目录 算法基础入门第一章:排序1.1 桶排序1.2 冒泡排序1.3 快速排序1.4 买书问题算法基础入门 第一章:排序 1.1 桶排序 该算法好比桶,假设有11个桶,编号从0-11。每出现一个数,就往对应编号的桶中放入旗子,只需要数桶中旗子的个数即可。比如2号桶有1个旗子,表示2出…

从零开始做一辆简易麦克纳姆轮小车

一、前期准备 麦克纳姆轮小车&#xff08;Mecanum wheel robot&#xff09;是一种能够实现全向移动的机器人&#xff0c;其核心在于使用了特殊设计的麦克纳姆轮。要从头开始制作一辆麦克纳姆轮小车&#xff0c;你可能需要准备以下组件和工具&#xff1a; 1. 材料和部件 麦克纳…

AIGC在游戏行业落地如何了?一起看看这篇文章

在2023年初AIGC开始被大众所认知的时候&#xff0c;游戏领域的股票一片飘红&#xff0c;AIGC被认为可以赋能游戏制作的各个环节&#xff0c;游戏板块(BK1046)从2023年初的800左右到2023年中翻倍至1600左右。 到今天&#xff0c;距离这个概念普及一年半有余&#xff0c;期待的效…

vscode安装lean4

本教程演示在Windows系统下如何安装Lean 4正式版。Linux和MacOS版本请参考Lean Manual。 如果你身在中国&#xff0c;在运行安装程序前需要做如下准备&#xff1a; 在系统目录C:\Windows\System32\drivers\etc文件夹下找到hosts文件。对于其它系统用户也都是找到各自系统的host…

Mind+在线图形编程软件(Sractch类软件)

Scratch作为图形编程软件&#xff0c;可以为小朋友学习编程提供很好的入门&#xff0c;是初次接触编程的小朋友的首选开发软件。这里介绍的Mind软件与Sractch用法几乎完全一致&#xff0c;并且可以提供在线免安装版本使用&#xff0c;浏览器直接打开网址&#xff1a; ide.mindp…

各省药品集中采购平台-地方药品集采分析数据库

国家第十批药品集中采购的启动时间暂未明确&#xff0c;但即将到来&#xff0c;在5月&#xff0c;国家医保局发布了《关于加强区域协同做好2024年医药集中采购提质扩面的通知》&#xff0c;其中明确指出将“开展新批次国家组织药品和医用耗材集中带量采购&#xff0c;对协议期满…

python爬虫--scrapy框架

Scrapy 一 介绍 Scrapy简介 1.Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架&#xff0c;用途非常广泛2.框架的力量&#xff0c;用户只需要定制开发几个模块就可以轻松的实现一个爬虫&#xff0c;用来抓取网页内容以及各种图片&#xff0c;非…

模拟物理弧线轨道运动(模拟飞盘,子弹运动)

模拟物理弧线运动&#xff08;模拟飞盘&#xff09; 介绍实现代码总结 介绍 模拟弧线的运动&#xff0c;并且对象始终朝向运动的方向&#xff0c;模拟飞盘子弹的运动轨迹。这里我是没有加重力这么一个概念的&#xff0c;当然了重力其实比较简单可以参考我之前写的模拟抛物线运动…

2024十大首码地推拉新app平台,一手首码对接平台!

到了2024年&#xff0c;地推新应用的接单平台成为创业者们关注的焦点。对于地推行业的从业人员而言&#xff0c;选择一家拥有一手单资源的平台至关重要&#xff0c;因为这直接关系到他们的利益。 2024年如果想要进行app地推活动&#xff0c;却没有人脉渠道的困扰&#xff0c;建…