超1800万累计观看,多次占据热榜前列……“无障碍字幕直播间”带来的远不止这些!

news2024/11/16 3:24:50

截至12月6日,世界杯无障碍字幕直播间已累计观看超1800万,多次占据热榜前列……但TA带来的远不止这些。

“过去觉得世界杯距离我太远了,熬夜看球却听不懂、听不清只能紧紧盯着屏幕;但今年无障碍字幕直播间一出,似乎一下子就把我骨子里的体育DNA带动起来了,字幕和画面同时播放,那感觉说身临其境也不为过,最重要的是再也不用担心跟不上、听不懂了……”

“以前观看这种节目其实我挺迷茫的,周围人都在热烈讨论,甚至到精彩处欢呼雀跃,但因为我自己的身体原因,很难融入,脱节带来的孤独感一度让我很沮丧……如今借助无障碍字幕直播间,我又找到了那份可以与朋友快乐同步的体验!”

无障碍字幕直播间展示

沉浸体验并与快乐同步,是“无障碍字幕直播间”带来的惊喜与感动;但对火山语音团队来说,做好“无障碍字幕直播间”的技术支持与保障,让精彩持续,却是前所未有的挑战。

攻克口语现象、语速语气差异化 

火山语音自研端到端流式语音识别系统

“其实语音识别本身就是一种挑战!足球比赛瞬息万变,解说下来,很多口语现象不可避免,尤其是自我修正以及语序颠倒,差异化的语速语气更是司空见惯。如果再碰上一些没有经过专业训练的解说嘉宾参与其中,识别的难度就会进一步加码。为应对这个问题,我们其实思考了很久,最终还是通过自研端到端的流式语音识别系统得到了解决。”火山语音团队表示。

据了解,火山语音团队基于RNN-T框架,通过大量训练数据的积累和持续的算法优化,自研推出的端到端的流式语音识别系统,可以有效规避传统语音识别系统中涉及的大量人工流程,例如依赖专业人员设计各种口音的发声规则等,大幅度提高口音识别的效果。当然其他中间环节的人工假设也减少了很多,比方说对于犹豫、自我修正、语序颠倒等口语现象的表达,会有更好的建模能力。

 混合模型和端到端模型的对比示意图

据团队介绍,端到端识别系统的backbone结构(主干网络结构)对识别效果至关重要,所以火山语音采用了业界领先的Conformer结构,可以同时对局部信息和全局信息进行建模,识别效果较传统的CNN、LSTM和DFSMN等结构都有了大幅提升。但随之而来的Conformer的计算开销也会增加不少,因此团队又从模型角度优化了Conformer的训练和推理耗时,主要包括下采样、Attention Mask和模型压缩等方式。“首先Conformer结构的计算复杂度与输入音频的长度相关,特别是Attention计算复杂度与n的平方相关,即音频序列长度越长模型越慢,因此在整个模型的浅层,我们通过增加下采样来降低模型的序列长度;其次通过Attention Mask的方式约束Attention的范围;最后通过自研的模型压缩框架,自动对模型进行裁剪和量化,在降低计算复杂度的同时,效果基本无损。”

除了对识别准确率的要求之外,字幕的上屏速度也对观赛体验起到重要影响。火山语音团队通过在RNN-T训练过程中,对于每个字的发射延迟增加损失函数,叠加Conformer结构强大的上下文建模能力,发射延迟提升了300-400ms

“无视”背景噪声 优化术语识别  

品质字幕如此炼成

在过往的很多大型竞技比赛中,因为“遭遇”大量背景噪音,例如背景音乐以及现场欢呼声等,而带来的识别困扰,被认为是同传字幕不准的“罪魁祸首”。“赛场上经常会出现的观众呐喊声,特别容易被误识别为'嗯、啊、哈'的语气词;背景音乐和观众声则会降低解说员声音的清晰度,对识别模型造成了较大挑战。”火山语音团队提出。

针对上述问题,团队设计了一整套流程应对优化:首先需要自动化地从足球比赛音频中提取出这些噪声片段,通过在模型中显式地建模噪声, 将噪声误出字的比例下降了95%;同时通过数据增强方式提高声学模型在足球场景下的鲁棒性,即在有背景音的情况下也能清晰识别人声,实现更好的流式字幕效果。

在世界杯这样的大型赛事中,提高对相关术语的识别效果,提升同传字幕的专业度往往很关键。通常的做法是收集相关场景的语音识别训练集,但收集的过程耗费时间太长且成本较高;此外面对大量文本语料,如何利用这些纯文本来优化领域识别效果,这对于端到端的语音识别是一个业界难题。

“针对足球术语的优化,我们选择在收集的足球文本语料的基础上训练语言模型,通过语言模型干预方式提高模型在足球领域的适配性。”由于端到端模型本身也隐含语言模型信息,直接与外部语言模型进行融合,往往效果不佳。所以团队根据 RNN-T 的建模方式,通过解耦声学模型和语言模型,显式建模内部语言模型,调整内部语言模型和外部语言模型的权重,可以实现最佳的融合效果。

“对于教练与运动员人名识别难的问题,我们从足球相关语料中自动挖掘专有名词、球队和球员名称等术语,通过在解码备选中引入FST(Finite State Transducer)逻辑结构,结合'匹配走图+Backoff权重偿还'的方式对热词进行干预,有效利用该热词专项技术优化后,这些术语的召回从 64% 提升到 76%。”团队总结道。

尽管成功使用了热词干预的方式,但经过大量测试实践,火山语音团队发现,人名又是一种特殊的热词,在 RNN-T 训练平行语料中多为 OOV,采用简单的热词干预方式会存在两个问题:第一,人名中的每个单字RNN-T建模单元都是常见字,但是组合起来作为热词是OOV,这种情况下,纯热词激励权重会导致在不该出现人名的时候召回了人名,即“过召回”,再加上scale过大,导致弧上的边加分过于明显,更易过召回,这是人名重复出字的主要原因;第二,Top10备选路径里面不会出现人名,单纯通过外挂热词FST根本无法有效加分。

针对上述两个问题,团队对人名热词干预做出了两方面优化,分别是扩大FST干预备选以及对热词区分稀疏热词和普通热词,然后对两种热词分别构图,在解码逻辑区别处理。经过两项优化,人名的召回率从76%提升到84%。此外还联合火山语音音频合成团队的同学,采用TTS技术合成术语音频,并加入声学模型训练中,将这些术语的召回率进一步提高到90%,字幕效果更佳。

热词干预方案的流程示意图

如今在火山语音识别技术支持下,火山引擎语音识别产品已广泛应用于视频娱乐、办公会议、硬件交互、智能客服等诸多行业,为客户提供了优质且有前景的语音识别解决方案。近日,在火山语音识别能力的技术支持下,火山引擎语音识别产品获得了国家语音及图像识别产品质量检验检测中心(简称“AI国检中心”)颁发的语音识别增强级检验检测证书,充分表明其语音识别技术能力已达到行业领先水平。

从洗脑主题曲“下蛋歌”的魔性旋律与动作被争先效仿,到可爱吉祥物“拉伊卜”被誉为“会飞的饺子皮儿”,再到旅居中东的大熊猫四海竟然能听懂四川话,乡音未改好不欢乐……不得不说今年的卡塔尔世界杯确实贡献了很多“眼前一亮”,如今赛程已进四强争霸,想必无障碍字幕直播间还将带来更多惊喜。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/108110.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Talk预告 | 腾讯AI Lab研究员童湛南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测

本期为TechBeat人工智能社区第465期线上Talk! 北京时间12月22日(周四)20:00,腾讯AI Lab研究员——童湛&南京大学计算机科学与技术系硕士研究生——谈婧的Talk将准时在TechBeat人工智能社区开播! 他们与大家分享的主题是: “基于注意力机制…

在华为云桌面Workspace上,启泰智能工业设计效率翻倍

中国汽车的产销总量已经连续13年稳居全球第一,在一款新车开发中,大约有2万个汽车零部件,这些零部件的研发与制造,需要大量的工厂与各行业的协作,其中模具的需求量最大。 模具行业是一个非标、离散型的行业&#xff0c…

JavaSE笔记——泛型

文章目录前言一、简单泛型1.一个元组类库2.一个堆栈类二、泛型接口三、泛型方法1.变长参数和泛型方法2.一个泛型的 Supplier3.简化元组的使用4.一个 Set 工具四、构建复杂模型五、泛型擦除1.迁移兼容性2.擦除的问题3.边界处的动作六、补偿擦除1.创建类型的实例七、边界八、通配…

【学习打卡05】可解释机器学习笔记之CAM+Captum代码实战

可解释机器学习笔记之CAMCaptum代码实战 文章目录可解释机器学习笔记之CAMCaptum代码实战代码实战介绍torch-cam工具包可视化CAM类激活热力图预训练ImageNet-1000图像分类-单张图像视频以及摄像头预测pytorch-grad-cam工具包Grad-CAM热力图可解释性分析基于Guided Grad-CAM的高…

MySql 根据中文拼音首字母排序、 分组排序

如地域表信息: 如果我们想根据NAME 字段 的值, 按照中文拼音首字母排序 : sql SELECT CODE, NAME FROM district_info ORDER BY CONVERT(name USING gbk) COLLATE gbk_chinese_ci ASC 效果很OK: 那么如果我要整成想电话簿那样&am…

【正版软件】Navicat for Oracle 数据库数管理和开发工具

前言 Navicat for Oracle 透过精简的工作环境,提高 Oracle 开发人员和管理员的效率和效率。 Navicat for Oracle 透过精简的工作环境,提高 Oracle 开发人员和管理员的效率和效率。专业化 Oracle 的开发-快速安全地创建、组织、访问和共享信息…

微信小程序自定义顶部状态栏

因为工作需要,要在微信小程序中自定义顶部导航栏,通过这篇文章来记录一下自己所得~ 第一步: 需要在json文件中配置"navigation" : "custom",完成自定义导航栏,只保留胶囊按钮,效果如下图&#x…

养殖废水生化后氨氮400mg/L做到15mg/L,有什么降氨氮的工艺?

水产养殖过程中,鱼的排泄物和没有被消耗的饲料降解均会使水中的氨氮剧增,当氨氮浓度大于0.2mg/L时,鱼类摄食就会受到严重影响,造成生长不良或停止生长;达到 2mg/L时,则会造成生物的死亡,严重影响水产的养殖…

【Maven实战技巧】「插件使用专题」Maven-Archetype插件创建自定义maven项目骨架

技术推荐 自定义Archetype Maven骨架/以当前项目为模板创建maven骨架,可以参考http://maven.apache.org/archetype/maven-archetype-plugin/advanced-usage.html,详细介绍了如何快速创建和使用Archetype。 技术背景 在工作过程中必然会遇到创建项目的蛋…

最新版Crack:Xceed Ultimate Suite

Xceed Ultimate Suite 包括 160 多个适用于所有 Windows 平台的自适应、可靠和高性能控件和库的重要集合。程序前端的 UI 控件和后端的数据处理库。经常更新,并得到反应支持和开发人员的认可。 适用于所有 Windows 平台的 160 个自适应、可靠和高性能控件和库的重要…

vue-elementUI后台管理系统,已实现用户管理、菜单管理、角色管理、公司管理、权限管理、支付管理等

vue搭建后台管理界面模版(PC端) 完整代码下载地址:vue-elementUI后台管理系统 技术栈 vue2 vuex vue-router webpack ES6/7 axios elementUI 阿里图标iconfont 项目预览 http://nmgwap.gitee.io/vueproject/#/login 说明 本项目主…

Python使用pandas导入csv文件内容

使用pandas导入csv文件内容使用pandas导入csv文件内容1. 默认导入2. 指定分隔符3. 指定读取行数4. 指定编码格式5. 列标题与数据对齐使用pandas导入csv文件内容 1. 默认导入 在Python中导入.csv文件用的方法是read_csv()。 使用read_csv()进行导入时,指定文件名即…

jQuery 过滤方法

文章目录jQuery 过滤方法hasClass() 类名过滤eq() 下标过滤is() 判断过滤not() 反向过滤filter() 表达式过滤has() 表达式过滤后代元素jQuery 过滤方法 过滤方法说明hasClass()类名过滤eq()下标过滤is()判断过滤not()反向过滤filter()表达式过滤has()表达式过滤后代元素 hasCl…

微软发现macOS漏洞可让恶意软件绕过安全检查

©网络研究院 苹果修复了一个漏洞,攻击者可以利用该漏洞通过能够绕过 Gatekeeper 应用程序执行限制的不受信任的应用程序;在易受攻击的 macOS 设备上部署恶意软件。 由微软首席安全研究员发现并报告的安全漏洞(称为Achilles&#xff09…

前端基础_矩阵变换

矩阵变换 在介绍矩阵变换之前,首先要介绍一下变换矩阵,这个矩阵是专门用来实现图形变形的,它与坐标一起配合使用,以达到变形的目的。当图形上下文被创建完毕时,事实上也创建了一个默认的变换矩阵,如果不对…

腾讯T4熬夜硬肝的全套微服务学习笔记,Github万星只是开始

写在前面 微服务架构被认为是 IT 软件架构的未来方向。热度虽高,但对于很多中小公司来说微服务却是遥不可及,因为团队规模和能力又反过来制约了他们采用新技术的步伐。很多人对于微服务技术也都有着一些疑虑,比如:微服务这技术虽然…

编译器原理简介(以Cortex-M3为例)

在"keil根目录\ARM\ARMCC\bin"下可以找到如下文件: 他们就是编译器内核,将工程代码转换成二进制文件,烧写进MCU中执行。 目录 C与汇编 典型的开发流程 编译工具报错举例 C与汇编 在CM3上编程,开发人员既可以使用C也…

CANoe-新型通信模式(SOA面向服务架构)

传统的以ECU为单元的整车通信架构,是面向信号的以CAN/LIN等总线为代表的经典通信模式。而以车载以太网为总线,SOME/IP或DDS等为中间件的SOA面向服务的新型通信模式,在以域控为单元的整车通信架构中被越来越多的使用 CANoe作为仿真和测试环境提供了统一的跨网络通信概念。这…

字符设备驱动_3:register_chrdev_region() 简单字符设备驱动的实现

概述&#xff1a;利用regist_chrdev_region() 函数接口注册同一类字符设备的多个子设备。 上一节一起整理了一遍注册一个简单字符设备的流程&#xff0c;接下来就来实现一个同一类字符设备的多个子设备驱动程序。 1. Demo 程序 #include <linux/module.h> #include <…

Linux篇 三、香橙派Zero2搭建Qt环境

香橙派Zero2系列文章目录 一、香橙派Zero2设置开机连接wifi 二、香橙派Zero2获取Linux SDK源码 三、香橙派Zero2搭建Qt环境 文章目录香橙派Zero2系列文章目录前言一、下载交叉编译工具二、编译QT库1.先去网站下载Qt的资源包2.解压3.开始移植&#xff1a;4.编译&#xff1a;5.安…