对话钉钉音视频专家冯津伟:大模型不是万能的

news2024/11/24 14:05:15

1e5a07e6e6ae2b33a54ba3d44212e232.jpeg

策划:LiveVideoStack

在音视频技术领域,ICASSP 大会是行业的风向标会议,也是语音学界从业者研究下一代技术发展的盛宴。近期,国内外各大企业陆陆续续放出论文入顶会的消息,钉钉蜂鸣鸟音频实验室 2 篇论文也登上了 ICASSP2023。

其中,实验室提出了“用一个 AI 模型同时消除回声、噪音和混响三种干扰音”的新研究,可以使得计算量和带宽更节省,延迟更低,同时音质效果也更好。这一项研究到底能解决什么问题,实现什么效果,用在哪些场景,是我们非常感兴趣的。

此外,随着 AIGC 技术的到来,每个行业都在面临着一场人机交互体验的变革。大模型的发展,对音视频领域到底有什么影响,是我们所关注的另一项重点。基于这两重因素,我们最近也和国内音视频领域的专家,钉钉蜂鸣鸟实验室负责人冯津伟博士做了一些沟通。

在与冯津伟交谈的过程中,我们了解到他们团队不仅把自研的 AI 模型用在了降噪、回声消除和去混响中,目前已落地于钉钉会议软件、Rooms 和钉钉会议一体机 F1/F2 上,并且在技术开放的过程中,他们还原创了一种麦克风阵列技术,用以解决线下开会坐得太远听不清的问题,引起了业内广泛关注。

在谈到 AIGC 及未来的技术革命时,冯津伟表示目前 AIGC 对行业的冲击还没那么大,一是大模型暂时对音视频的实时性缺乏有效的解决方案;二是不同于 AIGC 的推理和生成能力,在声学、底层算法层面更注重用 AI “还原真实” ,将采集到的音视频信息尽量还原成如同线下开会的临场感,比如解决音频处理的三大难题——回声消除、降噪和去混响。

在冯津伟看来,蜂鸣鸟实验室的定位,是既能在大模型的赛道中结合应用场景做落地,比如会议的智能摘要,同时,又是一个擅长工程化的团队,能研发从声学原理、信号处理到软硬件产品全流程的技术。这些技术和 AI 相关,但又不是大模型。“以深度学习为代表的 AI 技术的发展与成熟,会对音视频关键技术的突破提供新的方向。那些传统技术无法解决的问题,可以通过与 AI 的融合降低问题解决的难度,比如 AI 降噪。”冯津伟说,这也是钉钉会议在底层技术上的探索方向。

本文由 LiveVideoStack 和冯津伟的对话整理而成,以下经整理后有删减。

一、AI 的到来,给音视频行业注入哪些新惊喜?平行云与元宇宙

  1.  LiveVideoStack:你如何看待当下爆火的 ChatGPT、大模型、AIGC 等新兴概念与技术?

冯津伟:首先我们要肯定 AIGC 带来的价值,不同于元宇宙的一阵风,AIGC 能给许多行业带来真正的价值,例如帮助文案人员提升创作效率。现在 AI 已具备了初步的通用人工智能 AGI,这是与以前质的区别。

虽然人类目前还只具有初步的通用人工智能,但技术的发展不是线性的,而是跳跃性的。大家经常说奇异年和奇异点,爱因斯坦的 1905 年就是一次技术奇异年,用上帝视角来看的话,这两年我们可能正处于技术奇异年之中。

回到音视频行业,我觉得目前 AIGC 对它的冲击还没那么大。

第一,影响肯定有,钉钉也在探索应用场景,比如会议摘要,大模型嵌入音视频之后最直接的一项改变就是对会议内容的提取、总结。

第二,大模型暂时对音视频的实时性缺乏有效的解决方案,音视频应用能接受的延迟是几十毫秒或最多两百毫秒,要求很高。音频算法处理是一帧一帧(例如帧长为10毫秒)的,即流式处理,这就要求每一帧数据必须在10毫秒内处理完毕,把处理后的数据发送到音视频系统的下一个模块后,继续处理下一个10毫秒的数据,周而复始,但目前的 AIGC 显然还没有这样的流式处理能力来支撑。

第三,在声学、底层算法层面,大模型它目前的擅长的是检索、推理和生成,但在音视频应用里,更注重用 AI “还原真实” ,要实现线上开会达到和线下开会一样的“临场感”,比如我们用 AI 模型解决音频处理的三大难题——回声消除、降噪和去混响,即智能 3A 算法。

我们会持续关注,可能在某个时候,技术奇异点就会带来意想不到的应用。

  1. LiveVideoStack:你刚刚聊到 3A 算法,这次有一篇入选的顶会论文讲的也是这个话题,在你们的研究发现下,传统算法和 AI 算法有什么最大不同?这项技术是否落到了你们的产品里?

冯津伟:我们这次有一篇论文讲的是《实时全带语音通信中深度窄带网络用于回声,噪音和混响的联合消除》,背后其实我们做的是一个“一模型,多任务”的研究。这项研究是用来验证 AI 有能力做到一个模型同时处理这三种干扰音这件事的,这也符合在 AI 领域里多任务学习更能学到通用表达, 提高泛化能力的共识。

之前技术大多都是分开来处理回声、噪音和混响这三种干扰音,每个单独模块在计算量累加,算法延迟累加的同时,还容易导致鲁棒性下降,无法对音频链路进行全局优化。

我们的实验表明,在三个公开的测试集里,相比于 state-of-the-art 专门用于子任务的模型,我们的模型在远端单讲场景下效果提升 57%,双讲场景下提升9%,去噪和去混响后语音质量提升5%和8%,部分研究成果也已经落地到了我们的产品上。

我觉得传统算法和 AI 算法的不同在于对数据建模的不同路径,一个是基于数学解析表达式的相对简单的建模,如高斯分布等,对于较吻合的场景比如稳态噪音信号,传统算法处理效果还是可以的;另一个是data driven的建模,深度学习强大的建模能力使得 AI 算法能处理更复杂场景下的任务,尤其是当训练数据足够丰富的情况下,这也是目前 AI 算法在效果上有一个质的提升的原因,如非稳态噪声的去除,时延抖动下的回声消除。传统方法一般计算量比较小,可解释性好,我认为这两个途径也是互补的。

目前我们正在对这项技术做扩展性研究,比如消除在工位场景下同事说话产生的背景干扰音,这也是目前会议软件的痛点之一,还有把所有的算法都放进同一框架中,以节省计算量、降低延迟等等。

  1. LiveVideoStack:那你怎么看待两种 AI 之间的关系,及你们接下来的投入计划?

冯津伟:我觉得这两种 AI 并不互斥,一个是在应用层的智能化探索,另一个是在专业场景下对底层技术的支撑。

目前 AI 在音视频里面我觉得一个比较重要的应用,也是我们今年已经落地的一个应用,就是会议摘要或者总结。我们这次5月底的钉钉斜杠“/”邀测,也包括了这项能力,它可以帮你生成逐字速记,还可以自动分章节、分议题生成摘要与待办。这样一来,两三个小时的超长会议,浏览一下智能纪要 3 分钟就能看完了。 

这些 AI 的场景能力,比如转写、摘要与音频 3A 技术(去混响、噪音、回声)并不互斥。3A 技术对上面讲到的场景是强有力的底层技术支撑的,声音更清晰后内容识别也会更准确。所以即便是 AIGC 来了,这些底层技术还是要去持续优化、攻坚的,还是要持续投入资源。

另外,AI 技术在音频中还有非常多的潜在应用,例如,无参考音质评估、Personalized SE、NetEQ、LPC和音频超分技术等。AI 技术也能解决一些传统方法解决不了的问题,例如,网络延时抖动时或者设备移动时产生的回波。我们希望通过这一系列的工作能够真正帮助用户做到信息无障碍的交流,这也是我们认为技术最有价值的部分。

二、技术路线和开放策略的独特性

  1. LiveVideoStack:你们的技术路线听起来跟其他的公司不太一样,你怎么看待商业公司里面做技术这个话题,以及你们这两年有没有一些实例?

冯津伟:蜂鸣鸟音频实验室的工作是以产品为导向的,新技术的研发要以落地产品为目标,新技术的立项也是以解决用户问题为目的的。

作为一家商业公司与技术公司,产品必须要有竞争力,才具备商业化的基础,所以我们工作的大部分时间都专注于产品。我们的另一部分工作,则是希望能够深入打磨技术,研发“领先市场半步到一步”的技术,而不是只做基础理论研究,理论研究是大学实验室或者政府研究所做的事情,是他们的定位。

自实验室成立以来,还是有很多实际进展的。比如,我们把人工智能技术引入到了整个音频链路中,让 AI 模型不仅仅用在降噪、去回声和去混响上,也在研究如何用于丢包补偿,音频超分和编解码器。

目前,钉钉自研的 AI 降噪算法已经落地,将会陆续应用到钉钉会议的各个产品形态中,这也是行业内首家落地全带语音 AI 降噪的会议平台。到目前为止,国内外会议软件只有钉钉与 Google Meet 是使用全带语音通讯的,但 Google Meet 还没有做 AI 降噪。

钉钉自研降噪算法的技术特点是降噪量大、计算量小,但语音保真度高。降噪的同时对语音造成损伤是目前市面上几乎所有 AI 降噪技术都存在的问题,所以我们在算法设计时尽可能地对语音成分进行了保护。

此外,我们研发了一个创新性的会议设备转移技术,来提升会议室开会的便捷性。设想一下,你一开始是用手机入会的,当你到会议室时,你不需要再在会议室设备上输入冗长的会议码入会,你只要在你手机上点一下 button,会议就自动转移到了会议室设备上去了。

第三,在打磨产品体验的过程,我们团队还提出了一种原创的麦克风阵列技术,在 INTERSPEECH 和 ICASSP 发表了系列论文后,有多篇论文在 follow 我们的研究。目前,这一技术也落地到了我们的硬件产品会议一体机 F2 中,同时还开放给了生态伙伴。一家国际知名品牌经过严格测试后,决定与我们进行深度合作,目前他们的产品将很快上市。

  1. LiveVideoStack:那在用技术支撑产品的过程中,比如这次把 AI 降噪落地产品的经历里,有没有痛苦的回忆?

冯津伟:有,实际上既有成功的经验,也有痛苦的回忆。

成功的经验,例如,我们视频会议一体机 F1 这个产品从0开始在6个月内就全面推向了市场,目前的市场占比大概是1/3,非常成功,这是技术和产品、和业务团队无缝合作的结果。

大家都知道,研究并不能保证一定出成果,它本身具有很大的不确定性。这次 AI 降噪落地产品其实也有些曲折,在前期阶段的效果不明显,大家都怀疑是不是方向错了。后来,团队没放弃,不断地做数据和网络框架的改进,终于得到了一个满意的结果。这个结果,我们也跟国内外的竞品做了对比,降噪效果是能进入行业第一梯队的。

当然也有一些遗憾的事情,我们做技术的,有时经过一段时间的研究努力有了成果,但出于各种原因,最终没有产品化,这会让我们感到遗憾,因为我们希望我们的技术能让更多用户从中受益。

  1. LiveVideoStack:在后来,这些技术成功落地后,开放给了哪些行业合作伙伴,他们的评价是什么?有没有让你记忆深刻的?

冯津伟:开放给了许多生态伙伴,比如罗技、英特尔、联想都在使用我们的算法和模组。

特别是去年8月,我们给影石 Insta360 开放了整套的算法与工程化方案,他们对我们的远距离拾音、智能降噪、声源定位技术都非常满意。我们希望通过算法能力和技术模组的开放,让更多产业链中的伙伴可以快速复用,实现设备的智能化升级。

顺便提一下,我们对生态伙伴还提供了一套完整的兜底服务,提供驻场服务,并通过行业高级认证的评测,确保伙伴的产品性能达到设计预期,这也是我们在生态合作上一个差异化的地方。

一些生态伙伴在了解完我们的技术和服务模式后,果断选择跟钉钉会议合作,还有一些客户慕名而来,在技术上无条件信任我们,这些案例让我印象很深。

  1. LiveVideoStack:最后一个问题,技术再牛逼也不能闭门造车,作为技术人,你是怎么看技术、产品与商业的关系的?

冯津伟:我认为,技术只是商业成功的必要条件,不是充分条件,这在历史上有很多案例。

第一,技术公司的技术一定要有先进性,才能赢得市场,因为许多技术行业的一个特点是赢者通吃,即 winner takes it all。芯片行业就是一个很好的例子,头部就那么一两家,技术发展又是日新月异的,所以我们做技术研发的同学也时常会有危机感。

第二,做技术还有一个聚焦和专注的问题,因为技术资源永远都是有限的,需求永远都做不完。站在我的角度,对于技术产品体验上的专注是最重要的,但这种专注并不是技术人闭门造车,还是要结合整个钉钉、以及钉钉音视频事业部的战略,再结合客户真正的需求痛点,了解哪些是主线、哪些影响本质。这一层的东西,是需要做深做透的。

最后,冯津伟还和我们分享了他最近看的《半导体简史》,或是深受书中技术发展史的启发,他向我们描绘了自己对于音视频行业的畅想蓝图。

1d166436e4219e70ba531c4dba6bc716.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/644613.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

「2024」预备研究生mem-从不同备选池选元素从相同备选池选元素-仅分推

一、从不同备选池选元素 至少错误的解体: 其他方法: 二、从相同备选池选元素-仅分推 三、练习题 至少问题

【工具篇】Maven加密Nexus用户密码

背景说明 按照DevOps三级要求,Maven工具发布Nexus帐号不能使用明文密码,需要对settings.xml文件中的password密码进行加密存储。下面就说一下具体的加密过程及配置方法。 环境说明 Maven:Apache Maven 3.6.3 Nexus:OSS 3.29.2-…

设计用户模块的schema

schema 在计算机科学中,schema通常指的是 数据结构的定义和约束。 关系型数据库 在关系型数据库中,schema指的是数据库中所有表格的定义和表格之间的关系约束,包括每个表格的列名、数据类型、主键、外键等等。 如果要对一个关系型数据库进行…

在没有实验数据的情况下,如何高效快速发表论文

文献计量学是指用数学和统计学的方法,定量地分析一切知识载体的交叉科学。它是集数学、统计学、文献学为一体,注重量化的综合性知识体系。特别是,信息可视化技术手段和方法的运用,可直观的展示主题的研究发展历程、研究现状、研究…

互联网一线大厂Java面试题大全带答案 1110道(持续更新)

前言 春招,秋招,社招,我们 Java 程序员的面试之路,是挺难的,过了 HR,还得被技术面,小刀在去各个厂面试的时候,经常是通宵睡不着觉,头发都脱了一大把,还好最终…

平台稳定性里程碑 | Android 14 Beta 3 发布

作者 / Dave Burke, VP of Engineering 随着今天 Android 14 Beta 3 的发布,我们随之进入到 Android 开发周期的下一个阶段。Beta 3 依旧围绕着我们的核心主题打造,即隐私、安全、性能、开发者生产力和用户定制,同时继续完善平板电脑、可折叠…

基础知识学习---排序算法

1、本栏用来记录社招找工作过程中的内容,包括基础知识学习以及面试问题的记录等,以便于后续个人回顾学习; 暂时只有2023年3月份,第一次社招找工作的过程; 2、个人经历: 研究生期间课题是SLAM在无人机上的应…

Rsync工具的详细介绍以及定时备份案例

RSYNC 什么是RSYNC rsync是类unix下的一款数据镜像备份工具——remote sync。 Rsync 的基本特点如下: 可以镜像保存整个目录树和文件系统;可以很容易做到保持原来文件的权限、时间、软硬链接等;无须特殊权限即可安装;优化的流…

Java中的Lambda表达式详解

文章目录 什么是LambdaLambda表达式的语法Lambda表达式的应用场景GUI应用Lambda表达式的优缺点总结 什么是Lambda java中的Lambda表达式是一种函数式编程的风格,它允许我们将代码作为数据传递,并在需要时执行。Lambda表达式能够极大地简化代码&#xff0…

WPF开发txt阅读器9:语音播放及其进度监控

文章目录 播放进度光标跟踪进度条 txt阅读器系列: 需求分析和文件读写目录提取类💎列表控件与目录字体控件绑定💎前景/背景颜色书籍管理系统💎用树形图管理书籍语音播放 播放进度 SpeechSynthesizer对象可以注册Speech_SpeakPr…

安洵杯SYCCTF2023 writeup

一、MISC 1.sudoku_easy 简单的数独交互,几个小注意点,每次发送level之后sleep5秒才会返回题目 将形如 --------------------- 800103720 023840650 410006008 300001062 000052407 072060090 160000375 205019846 000030000 --------------------- 转换…

django中url和视图函数path re_path views.py

目录 url的定义url的格式django中的urldjango中的创建自己的urldjango访问测试django中的path动态django中的path动态案例django中的path动态类型django中的path动态案例-计算器django的正则路由re_path() url的定义 url 统一资源定位符 url 用来表示互联网上某个资源的地址 …

邀请媒体参加活动的邀请函应该怎么写

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 经常有小伙伴问媒体邀请函怎么写,今天胡老师就把媒体邀请函的一个大概格式分享出来,不论是 做成什么形式的邀请函,这几点都不可少。 主题:…

数据库的基本概念

数据库的基本概念 数据(Data) 描述事物的符号记录 包括数字、文字、图形、声音、档案记录等 以“记录”形式按统一的格式进行存储 表 将不同的记录组织在一起 用来存储具体数据 数据库 表的集合,是存储和管理数据的仓库 数据库管理…

linuxOPS基础_进程查看与管理

进程与程序的关系 进程是正在执行的一个程序或命令,每个进程都是一个运行的实体,并占用一定的系统资源。程序是人使用计算机语言编写的可以实现特定目标或解决特定问题的代码集合。 ​ 简单来说,程序是人使用计算机语言编写的,可…

三菱FX5U系列PLC之间进行简易PLC间链接功能的具体方法

三菱FX5U系列PLC之间进行简易PLC间链接功能的具体方法 功能介绍: 在最多8台FX5U或者FX3U PLC之间通过RS-485通信方式连接,进行软元件相互链接的功能。 接线注意事项: 根据链接模式和所使用的从站数量的不同,链接软元件的占用点数也有所变化。根据链接软元件的起始编号,对占…

Java数据结构之第十五章、Trie(前缀树/单词查找树)

一、前缀树 1.1前缀树相关知识 1.前缀树的概念:前缀树又叫字典树或单词查找树(高效的存储和查找字符串集合的数据结构)。 2.主要应用场景:给定一个字符串集合构建一颗前缀树,然后给定一个字符串,判断前缀…

Flink 流批一体在 Shopee 的大规模实践

摘要:本文整理自 Shopee 研发专家李明昆,在 Flink Forward Asia 2022 流批一体专场的分享。本篇内容主要分为四个部分: 1. 流批一体在 Shopee 的应用场景 2. 批处理能力的生产优化 3. 与离线生态的完全集成 4. 平台在流批一体上的建设和演进 …

华为OD机试 JavaScript 实现【扑克牌大小】【牛客练习题 HJ88】,附详细解题思路

一、题目描述 扑克牌游戏大家应该都比较熟悉了,一副牌由54张组成,含3~A、2各4张,小王1张,大王1张。牌面从小到大用如下字符和字符串表示(其中,小写joker表示小王,大写JOKER表示大王&#xff09…

JavaScript笔记——快速了解 ES6 新增数组方法,开箱即用(含案例)

文章目录 📋前言🎯Array.from()🎯Array.of()🎯Array.find()🎯Array.findIndex()🎯Array.includes()🎯Array.flat()🎯Array.flatMap()🎯Array.every()🎯Array.…