奇富科技跻身国际AI学术顶级会议ICASSP 2024,AI智能感知能力迈入新纪元

news2024/11/16 7:41:11

近日,2024年IEEE声学、语音与信号处理国际会议ICASSP 2024(2024 IEEE International Conference on Acoustics, Speech, and Signal Processing)宣布录用奇富科技关于语音情感计算的最新研究成果论文“MS-SENet: Enhancing Speech Emotion Recognition Through Multi-scale Feature Fusion With Squeeze-and-excitation Blocks”。ICASSP上的成功发表是奇富科技在全球科技舞台上又一次的闪耀,也是对团队科研能力和创新实力的最佳证明。

15d3a4cbb9c7452c9cd5ba29a681cd6c.png 

ICASSP是由IEEE电气电子工程师学会主办的信号处理领域的顶级国际会议,在国际上享有广泛的学术影响力。本年度将于2024年4月14日至19日在韩国首尔举行会议,主题为“信号处理技术:迈向真正智能的基石”,奇富科技此次被录用的论文研究方向聚焦在语音情感计算,团队提出了一种名为MS-SENet的新型网络结构,通过高效提取、选择和加权空间和时间多尺度特征,并将这些特征与原始信息相融合,获得更强的语音情绪表征向量。

情感计算领域是一个涉及计算机科学、心理学和语言学等多学科的交叉研究领域,它的主要目的是通过分析和处理语音信号中的情感信息,使计算机能够识别和理解人类的情感状态。业界主流做法是通过音频、文本等多模态信息来进行情感分类,但奇富科技团队认为人类底层情感特征是相通的,是完全可以跨越具体语种和文本内容。奇富科技团队认为可以从减少提取大量无关紧要的声学特征和针对局部频率和长期时间特征进行融合两方面去提升语音信号的情感表征学习,并基于此提出了MS-SENet框架(图1)。MS-SENet通过使用不同尺寸的卷积核提取多尺度时空特征,并引入压励模块来有效捕捉这些多尺度特征。同时通过跳跃连接和空间丢失层防止过拟合并增加模型深度,进一步提高了情感计算模型的表达能力。

8774aedf82994d7f8785b22ae103eb37.png 

图1 奇富科技自研MS-SENet音频情感计算网络框架

奇富科技团队在论文中评估了包括中科院自动化所语音情感数据集、柏林情感数据库、意大利语数据集、互动情感二元运动捕捉数据库、Surrey音频视觉表达情感数据集以及Ryerson音频视觉情感演讲与歌曲数据集在内的六个不同场景的多语种的数据集。和SOTA(state of the art,是指在特定任务中目前表现最优的方法或模型)相比,MS-SENet将UA和WA提高了1.31%和1.61%,同时MS-SENet在具有更多情感类别和较低数据量的情况下,仍然保持着出色的情感识别能力。

5d076c09ed6a47fcaa316d709de1958b.png 

表1 奇富科技自研MS-SENet与学术界2019~2023年度SOTA在六大评测集上的表现

奇富科技团队还利用t-SNE技术对MS-SENet和SOTA模型(TIM-Net)的表征进行了可视化,从下图可以观察到MS-SENet形成了具有清晰分类边界的独特表征聚类。

b754320c6b0e492994f20dbc7a9f55c6.png 

图2 奇富科技自研MS-SENet与2023年度SOTA(TIM-Net)在SAVEE语料库上的可视化表征图,图(b)各个情绪分类边界明显更清晰

奇富科技的语音情感计算研究不止于理论突破,更是实际应用的成功典范。
在贷后降投诉项目中,异常情绪监测首次被应用在实景业务当中。通过对高风险客群的录音通话进行逐通分析,及时遴选出异常情绪的客户,以便相关人员可以及时介入,实验结果表明模型组投诉率低于对照组4个绝对值百分点。

此外,奇富科技大模型部自研的Orpheus-声学感知系统(Orpheus Acoustics Perceptual System,以下简称Orpheus-APS)中已成功地整合情感计算模块,该系统着重聚焦声学环境、音频内容和说话人三大感知维度,提供了崭新的智能外呼平台交互质量评估视角。例如,在质检场景中,Orpheus-APS不仅具备传统声学检测功能,更以其情感感知能力为亮点。与市面上已有简单的单句维度情感分类不同,Orpheus-APS可以在时间维度绘制连续的完整情绪光谱,更直观呈现说话者在通话过程中情绪状态的连续变化。情绪光谱的绘制精准反馈了坐席在通话过程中的情绪波动和趋势,为质检人员提供了全新的观察角度,也为企业利用好海量通话交互数据提供了全新的工具,是实现业务管理决策、战略规划数智化过程中重要的一步。

10cb11031dfb4c268957781cdb292b98.png 

图3 某贷后坐席的录音情绪光谱图,直观反映坐席在通话过程中的情绪波动过程

此次论文的成功录用,不仅是奇富科技团队的成果,更是中国科技创新的典范。奇富科技在国际顶会上的亮眼表现,将进一步提升中国科技企业的国际声望,为产业升级和技术进步贡献更多力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1339319.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java设计模式学习之【状态模式】

文章目录 引言状态模式简介定义与用途实现方式 使用场景优势与劣势在Spring框架中的应用状态示例代码地址 引言 设想你正在使用一个在线视频播放器观看电影。随着你的互动,播放器可能处于不同的状态:播放、暂停、缓冲或结束。每个状态下,播放…

IDEA安装教程及使用

一、IDEA简介 ​ IDEA全称IntelliJ IDEA,是用于Java语言开发的集成环境,它是业界公认的目前用于Java程序开发最好的工具。 集成环境:把代码编写,编译,执行,调试等多种功能综合到一起的开发工具。 二、ID…

数据分析之词云图绘制

试验任务概述:如下为所给CSDN博客信息表,分别汇总了ai, algo, big-data, blockchain, hardware, math, miniprog等7个标签的博客。对CSDN不同领域标签类别的博客内容进行词频统计,绘制词频统计图,并根据词频统计的结果绘制词云图。…

使用streampark进行flink on k8s LoadBalancer配置域名访问flink ui

在使用yarn部署flink任务时,yarn自动代理了flink web ui,通过yarn的地址即可访问任务web页面。 k8s模式下想访问flink web ui,要么使用NodePort的方式启动任务,然后通过k8s主机IPNodePort端口来进行访问。但是这种方法&#xff0…

C++构建简单静态库实例(cmakelist)

一、开发实例 通过cmake构建静态开发实例如下: 1.1 代码目录 代码目录结构如下: 1.2 代码内容 1.2.1 CMakeLists.txt # CMake 最低版本要求 cmake_minimum_required(VERSION 3.10)# 项目名称 project(mylib)# 添加源文件 set(SOURCE_FILESsrc/mylib

分布式数据库 GaiaDB-X 通过 GB18030-2022《信息技术 中文编码字符集》最高级别认证

近日,百度智能云分布式数据库GaiaDB-X通过 GB18030-2022《信息技术 中文编码字符集》强制性国家标准测试,达到最高实现级别(3级)。 据了解,GB18030-2022《信息技术 中文编码字符集》是中文信息技术领域最重要的基础性标…

在 Unity 中获取 Object 对象的编辑器对象

有这个需求的原因是,在编辑器的 Inspector 逻辑中,写了许多生成逻辑。 现在不想挨个在 Inspector 上都点一遍按钮,所以就需要能获取到它们的编辑器对象。 发现可以借助官方的 UnityEditor.Editor.CreateEditor 方法达到目的,如下…

【IoT网络层】STM32 + ESP8266 +MQTT + 阿里云物联网平台 |开源,附资料|

目标:实现STM32连接阿里云物联网平台发送数据同时接收数据,IOT studio界面显示数据。具体来说:使用ESP8266 ESP-01来连接网络,获取设备数据发送到阿里云物联网平台并显示且oled显示屏当前的设备数据,通过IOT studio界面…

OpenHarmony城市技术论坛武汉站:探索大模型时代的终端操作系统创新

2023年12月23日下午,OpenHarmony城市技术论坛(以下简称“技术论坛”)——第6期(武汉站)于华中科技大学梧桐语问学中心明德报告厅圆满举办。本次技术论坛聚焦“大模型时代的系统软件”,旨在探索AI大模型在终端操作系统领域的创新趋势和挑战。论坛从“终端操作系统十大技术挑战”…

亿赛通电子文档安全管理系统 linkfilterservice 未授权漏洞

产品简介 亿赛通电子文档安全管理系统,(简称:CDG)是一款电子文档安全加密软件,该系统利用驱动层透明加密技术,通过对电子文档的加密保护,防止内部员工泄密和外部人员非法窃取企业核心重要数据资…

php 之 redisk 扩展问题

系统: ARM V10 server (1229) 软件: php、phpdevel redis5.1.0RC1 redis5.1.0RC1.tgz phpredis 编译: 解压进入目录内: # phpize # ./configure withphpconfig/usr/bin/phpconfig # make # make ins…

【1】Docker详解与部署微服务实战

Docker 详解 Docker 简介 Docker 是一个开源的容器化平台,可以帮助开发者将应用程序和其依赖的环境打包成一个可移植、可部署的容器。Docker 的主要目标是通过容器化技术实现应用程序的快速部署、可移植性和可扩展性,从而简化应用程序的开发、测试和部…

机器学习——决策树(三)

【说明】文章内容来自《机器学习——基于sklearn》,用于学习记录。若有争议联系删除。 1、案例一 决策树用于是否赖床问题。 采用决策树进行分类,要经过数据采集、特征向量化、模型训练和决策树可视化4个步骤。 赖床数据链接:https://pan…

SLAM算法与工程实践——相机篇:RealSense D435使用(2)

SLAM算法与工程实践系列文章 下面是SLAM算法与工程实践系列文章的总链接,本人发表这个系列的文章链接均收录于此 SLAM算法与工程实践系列文章链接 下面是专栏地址: SLAM算法与工程实践系列专栏 文章目录 SLAM算法与工程实践系列文章SLAM算法与工程实践…

基于ChatGpt,Java,SpringBoot,Vue,Milvus向量数据库的定制化聊天Web demo

customized chat GitHub - bigcyy/customized-chatgpt: 基于ChatGpt,Java,SpringBoot,Vue,Milvus向量数据库的定制化聊天Web demo 简介 基于ChatGpt,Java,SpringBoot,Vue,Milvus向…

基于SpringBoot+thymeleaf+layui 宠物医院预约管理系统(Java毕业设计有文档)

大家好,我是DeBug,很高兴你能来阅读!作为一名热爱编程的程序员,我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里,我将会结合实际项目经验,分享编程技巧、最佳实践以及解决问题的方法。无论你是…

1 - 数据库服务概述 | 构建MySQL服务 | 数据库基本管理 | MySQL基本类型

数据库服务概述 | 构建MySQL服务 | 数据库基本管理 | MySQL基本类型 数据库服务概述构建mysql服务安装mysql软件包连接mysql服务器 修改密码 密码管理修改密码策略(需要登陆)破解数据库管理员root密码(数据库服务处于运行状态但是root忘记了密…

Android ImageView如何使用.svg格式图片

我们知道imageview常用的图片格式是.jpg/.png或者drawable里的部分.xml文件。但有时UI会给过来.svg格式的文件,下面讲解如何使用.svg格式图片文件 step1:AS点击File -> New -> Vector Asset step2:选中要使用的.svg文件,按需要命名和调整&#x…

信息泄露总结

文章目录 一、备份文件下载1.1 网站源码1.2 bak文件泄露1.3 vim缓存1.4 .DS_Store 二、Git泄露2.1 git知识点2.1 log2.2 stash 三、SVN泄露3.1 SVN简介3.2 SVN的文件3.3 SVN利用 四、Hg泄露 一、备份文件下载 1.1 网站源码 常见的网站源码备份文件后缀: tartar.gz…

中国首个车路云一体化研究中心成立,将如何改变自动驾驶?

图片|electronicsmedia.info ©⾃象限原创 作者丨钱诚 编辑丨程心 自动驾驶正在迎来一场新的变局。 只是这一次,搅动整个产业的,是各种政策的密集落地。 2023年10月,工信部提出要开展城市级“车路云一体化”示范&#x…