百度语音+自动驾驶感知+深度学习平台技术解析

news2024/11/23 12:32:19

HIEV快讯(文/戒僧)本文将解析三部分技术内容,出自百度2023 Create大会-技术开放日:

•百度如何用“手机全双工语音交互”改善使用导航应用的体验

•如何用“上帝视角”BEV技术提升汽车的自动驾驶能力

•如何用百度自研的深度学习平台飞桨加速科学研究

百度的“手机全双工语音交互”

据百度语音首席架构师贾磊介绍,在世界范围内,很长时间都没有一个方案能普适的支持在手机上实现全双工的语音交互——在手机播放导航提示的同时,也能够听清我们的指令,甚至像真人对话一样可以被我们随时打断,并对新的语音指令给予反馈。

困难有不少。想要实现全双工语音交互,必须先做回声消除,避免手机终端识别自己播放的声音。贾磊说,在前装软件的音箱、车载系统上比较容易实现,可以通过硬件适配算法,提前保证回声消除的效果。

而手机App属于纯软件后装方案,需要让软件算法适配不同型号的终端硬件。通常,手机上喇叭距离麦克风的距离比较近,同时手机终端款式多,硬件参差不齐。这些因素叠加在一起,会导致声音信号的回声消除会出现各种各样的问题。再加上手机硬件的迭代更新非常快速,回声消除效果就更加难以保证了。

5298b9cd7efcbc0fbdab3a6449ff2f0b.jpeg

面对这个难题,百度的解决方法是:融合传统信号处理和深度学习模型各自的优点,基于语音识别目标,端到端地进行回声消除和信号增强,解决了手机场景下的回声消除问题,即使手机音量开到最大,回声消除量也能达到40分贝,使得手机APP的语音识别功能能够正常工作。

0f61b6acc36e8d45d4f3369ce077968a.jpeg

据百度介绍,这是世界范围内、在全行业,第一个能在手机上实现纯软件方案回声消除的技术。百度研发出的基于SMLTA2的多场景统一预训练模型,一个模型解决噪声、用户口音和回声消除残余吸收等难题,在各场景下识别率相对提升超过20%,这在业界同类技术中,准确率是最高的,可以说实力遥遥领先。

61f076945798274c9112cbdc00836c6e.jpeg

百度的BEV及UniBEV自动驾驶感知方案

在自动驾驶领域,传统的图像空间感知方法是将汽车上的雷达、摄像头等不同传感器采集来的数据分别进行分析运算,把各项分析结果融合到统一的空间坐标系中,去规划车辆的行驶轨迹。这个过程中,每个独立传感器收集到的数据往往受到特定视角的局限,经过各自的分析运算后,融合阶段会导致误差叠加,无法拼凑出道路实际情况的准确全貌,给车辆的决策规划带来困难。

近些年来,行业中提出了BEV(Bird's Eye View,视觉为中心的俯视图)自动驾驶感知方案。不同于传统的方式,BEV自动驾驶感知就好比是一个从高处统观全局的“上帝视角”,车上多个传感器采集的数据,会输入到一个统一模型进行整体分析推理生成鸟瞰图,能有效地避免误差叠加;这种方案还能够做到时序融合,不仅是收集一个时刻的数据,分析一个时刻的数据,而是支持把过去一个时间片段中的数据都融合进模型做环境感知建模,时序信息的引入让感知到的结果更稳定,使得车辆对于道路情况的判断更加准确、让自动驾驶更安全。

a102e8c614dee1cd92b136795ea91b2f.jpeg

目前,百度并没有止步于BEV自动驾驶感知方案,还首次在业内提出了车路一体的解决方案UniBEV,集成了车端多相机、多传感器的在线建图、动态障碍物感知,以及路侧视角下的多路口多传感器融合等任务,是业内首个车路一体的端到端感知解决方案。基于统一的BEV空间,UniBEV 车路一体大模型更容易实现多模态、多视角、多时间上的时空特征融合。

百度”飞桨“深度学习平台

AI 为解决科学问题带来新方法的同时,也对AI基础软硬件带来诸多新挑战。毕竟,推动科学进步与开发一个人脸识别算法需要的并不完全是一种能力。

首先,深度学习平台需要具备更加丰富的各类计算表达能力,如高阶自动微分、复数微分、高阶优化器等;其次,科学问题求解需要超大规模的计算,这对深度学习平台与异构超算/智算中心适配及融合优化,神经网络编译器加速和大规模分布式训练提出了新的要求;此外,如何实现人工智能与传统科学计算工具链的协同,也是需要解决的问题。

489c9473d76206fee63f9759f809c376.jpeg

过去的这几年,百度飞桨团队在这些问题取得了进展。作为国内首个自主研发、功能丰富、开源开放的产业级深度学习平台,飞桨研发了一系列用于科学研究的工具组件,比如赛桨PaddleScience、螺旋桨PaddleHelix、量桨Paddle Quantum等,支持复杂外形障碍物绕流、结构应力应变分析、材料分子模拟等丰富领域算例,广泛支持AI加计算流体力学、生物计算、量子计算等前沿方向的科研探索和产业应用。

对于科学领域大规模计算的需求,飞桨推出了超大规模图学习训练技术PGLBox,是业界首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术,通过显存、内存、SSD三级存储技术和训练框架的性能优化技术,单机即可支持百亿节点、数百亿边的图采样和训练,并可通过多机扩展支持更大规模,目前已经在百度的智能交通、信息推荐、搜索等标杆场景实现落地,大幅提升业务效率和用户体验。

在科研生态方面,百度飞桨已经与高校、科研机构等开展了计算流体力学、分子动力学、动力气象学等方面的范例建设,并形成了一些开放性的、多学科交叉的生态社区,包括飞桨特殊兴趣小组(PPSIG)、共创计划等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/144560.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

k8s常见错误

master节点初始化失败 出现这个原因是因为,我们之前有执行过初始化的命令,然后初始化的时候就会产生一些文件,和占用端口,然后当你再次初始化的时候,就会提示你有些文件已经存在和端口正在被使用,所以我们…

年末高压叠加“阳”后虚弱,双重压力下的测试者们该何去何从

在2022年的最后一个月,国家放开管控,发布“新十条”,不查核酸,不看健康码,以前闻之色变的“小阳人”,十几天后,遍地皆是。 相信大家对这段时间的经历难以忘怀,在刚放开的时候&#x…

【论文阅读笔记】EndoL2H: Deep Super-Resolution for Capsule Endoscopy

论文地址:https://arxiv.org/abs/2002.05459 代码地址:https://github.com/CapsuleEndoscope/EndoL2H 论文小结 顾名思义,本文是胶囊内窥镜领域的超分算法。本文的网络结构是条件对抗网络 空间attention块的方式,实现8倍、10倍和…

不要再被骗了,解密短视频里追剧看电影都能赚钱的坑。

不要再被骗了,解密短视频里追剧看电影都能赚钱的坑。 最近刷短视频刷到了好多抖音追剧看电影每天收几百,还有截图,还有怎么实操的视频。 关键不是刷到一个两个,是几十个还有越来越多的趋势。 都说新入门实操,终于忍不住&#x…

LeetCode刷题Day05——链表(链表元素删除、相交、环形链表)

文章目录一、删除链表中的倒数第n个节点二、链表相交三、环形链表一、删除链表中的倒数第n个节点 题目链接&#xff1a;19.删除链表中的倒数第n个节点 /*** <pre>* 最简单的方法显然是先遍历一遍链表&#xff0c;知道长度后重新遍历一次就可以找到指定节点了&#xff0…

WebDAV之葫芦儿·派盘+DAVx⁵

DAVx⁵ 支持WebDAV方式连接葫芦儿派盘。 支持移动设备远程同步,是不是比NAS更便捷?并且这款软件最为关键的还是支持各种协议,让你能够在跨平台上面同步安卓和苹果上面的内容,你可以在服务器上面进行一些简单的内容管理,快来试试DAVx⁵与派盘的最佳组合吧。 DAVx⁵是一款…

LeetCode:18. 四数之和

18. 四数之和1&#xff09;题目2&#xff09;思路3&#xff09;代码4&#xff09;结果1&#xff09;题目 给你一个由 n 个整数组成的数组 nums &#xff0c;和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] &…

Codeforces Round #772 (Div. 2)

A. Min Or Sum 题目链接&#xff1a;Problem - A - Codeforces 样例输入&#xff1a; 4 3 1 3 2 5 1 2 4 8 16 2 6 6 3 3 5 6样例输出&#xff1a; 3 31 6 7题意&#xff1a;给你一个长度为n的数组&#xff0c;我们可以对这个数组进行操作&#xff0c;每次操作可以选择两个不…

ThinkPHP5之文件包含审计分析(五)

说明 该文章来源于同事lu2ker转载至此处&#xff0c;更多文章可参考&#xff1a;https://github.com/lu2ker/ 文章目录说明0x00 环境准备0x01 测试代码0x02 代码分析0x03 总结参考链接&#xff1a;Mochazz/ThinkPHP-Vuln/ 影响版本&#xff1a;5.0.0<ThinkPHP5<5.0.18 、…

Java - JIT即时编译

java前端编译器和后端编译器的作用Java前端编译器&#xff1a;javac 编译&#xff0c;在程序运行前&#xff0c;将 源文件 转化为 字节码 即 .class 文件Java 程序最初只能通过解释器解释执行&#xff0c;即 JVM 对字节码逐条解释执行&#xff0c;因此执行速度比较慢。字节码与…

【SAP Abap】SAP Flight 航班系统数据模型简介(SCARR、SPFLI、SFLIGHT、SBOOK等)

SAP Flight 航班系统数据模型简介&#xff08;SCARR、SPFLI、SFLIGHT、SBOOK等&#xff09;1、本文目的2、数据模型3、查看模型数据4、生成演示数据5、模型应用1、本文目的 SAP ABAP 系统都会自带 Flight 航班系统数据模型&#xff0c;其大量应用于 SAP ABAP 帮助文档、系统 D…

移动安全总结 2019

声明 本文是学习移动安全总结 2019. 下载地址 http://github5.com/view/1223而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 序言 随着2019年的逝去&#xff0c;二十一世纪第二个十年也已随之结束。回顾过去的十年&#xff0c;我们的生活随着科技的进…

养老院人员定位方案125K芯片AS3933/SI3933/GC3933/PAN3501

随着社会老龄化&#xff0c;高龄化&#xff0c;空巢化和病残化的迅速发展&#xff0c;将使得越来越多的老人住进养老院。虽养老院数量越来越多&#xff0c;但养老院人也越来越多&#xff0c;给现有的养老管理上带来压力&#xff0c;由于服务人员有限&#xff0c;无法及时顾及到…

【LeetCode每日一题】——89.格雷编码

文章目录一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【解题思路】七【题目提示】八【时间频度】九【代码实现】十【提交结果】一【题目类别】 数学 二【题目难度】 中等 三【题目编号】 89.格雷编码 四【题目描述】 n 位格雷码序列 是一…

举个栗子!Tableau 技巧(249):为文本表中的不同度量设置不同颜色

使用文本表呈现数据时&#xff0c;通常会用颜色的深浅来代表度量的数值大小。单一度量很容易实现&#xff0c;但多个度量的情况&#xff0c;很多数据粉反馈不知道如何实现。 如下示例&#xff0c;在为不同度量设置了不同颜色后&#xff0c;的确既美观又直观。 具体该如何实现呢…

进制转换 2进制转10进制 10进制转2进制

觉得有用的&#xff0c;HXD们请点个赞●▽● 10进制转2进制&#xff08;以十进制100转换为二进制为例子&#xff1a;&#xff09; 方法一&#xff08;除2取余数&#xff0c;倒叙摆列&#xff0c;高位补零 &#xff09; 100/250余0&#xff1b; 50/225余0&#xff1b; 25/21…

Allegro174版本新功能介绍之改变菜单字体大小

Allegro174版本新功能介绍之改变菜单字体大小 Allegro在升级到174的时候,默认的字体是非常小的,如下图 看起来十分费劲 启动界面 菜单界面 但是174是支持把把这些字体调大的,具体操作如下 选择Setup

git远程仓库使用流程

git远程仓库使用流程远程仓库使用流程远程仓库介绍远程仓库使用流程如何将本地文件夹关联远程仓库多人开发配置流程远程仓库SSH配置远程仓库使用流程总结git分支使用流程分支介绍1.2-分支使用流程远程仓库使用流程 Git命名作用详细描述git clone克隆远程仓库代码把服务器的项目…

Laravel 开发 API 时的前置准备

前言 使用 Laravel 有一段时间了&#xff0c;今天来总结我平时进行开发前的一些准备工作&#xff0c;如果有不合理的地方或者有更好的建议欢迎各位大佬指出纠正&#xff01; 环境 PHP8 MySQL5.7 Nginx1.20 IDE&#xff1a;PhpStorm搭建 安装 推荐使用 composer 安装 或者…

舆情监测技术方案,网络舆情分析技术手段有哪些?

网络舆情分析技术手段着力于利用技术实现对海量的网络舆情信息进行深度挖掘与分析&#xff0c;以快速汇总成舆情信息&#xff0c;从而代替人工阅读和分析网络舆情信息的繁复工作&#xff0c;接下来TOOM舆情监测小编带您简单了解舆情监测技术方案&#xff0c;网络舆情分析技术手…