音频客观感知MOS对比,对ViSQOL、PESQ、MosNet(神经网络MOS分)和polqa一致性对比和可信度验证

news2025/1/19 17:18:25
原创:转载需附链接:
https://blog.csdn.net/qq_37100442/article/details/132057139?spm=1001.2014.3001.5502
        

一、背景

        Mos分评价音质重要指标,最近也有很多机构和公司在研究适合自己的评价体系。目前Mos分主要分为主观评测和客观感知评价。其中客观感知评价由于方便和节省人力,被大众研究。本文章以标准polqa的mos分为可信前提,验证visqol、pesq、mosnet与polqa的一致性,以及visqol的可信度验证;主要用于 编解码、 降噪、回声消除等算法的感知效果进行打分,从而促进算法的迭代和可信度;

二、评价方式综述

       1、主观评价

               1) 优点主观测试是音频评价的黄金准则,最符合人的实际听感。

               2) 缺点主观评测费时费力,测试者太少、测试者不规范等都会带来测试误差;

               3) 常用方法:AB-TEST, MUSHAR

        2、客观打分

                1) 缺点:不能够完全符合人的听觉感知,存在听感好打分低的情况;

                2) 优点:方便测试和开发人员,快速验证语音的相对质量,方便日常工作,提升开发                         和测试效率;

                3) 常用方案:有参考(POLQA, PESQ, VISQOL)和无参考(ITU-TP.1201传统方法                          和  MOSNET的AI打分)

二、打分维度和一致性对比

         1、打分维度:

           结论:Visqol支持对时间帧和频率轴的各个频带进行打分(如下图所示),并且支持16khz和48khz;pesq只有最后的评分结果,拿不到时间和频率的细节打分,并且仅支持8kh和16khz打分;Mosnet为无参考打分;

2、一致性对比:

         结论:visqol和polqa的一致性更高, pesq颗粒度不够, mosnet(AI无参考模型)表现最差;

注:SMD48和SMD49,SMD50和SMD51,SMD271和SMD272这三对音频各对的音源相同,并且每对的后者都针对前者做了过认证优化。

三、visqol可信度测评

        从一些常见维度对语音进行损伤,测试visqol是否符合听感判断。

1、音量的影响:

        结论:音量差异影响不大,但是当降低-18db开始分数降低;

​​​​2、混响的影响:

        结论:混响音响较大,加入混响分数就开始降低,但是混响大小影响有规律

3、噪音的影响:

      结论:噪音影响很大,加入噪音分数就明显降低,但是不同信噪比变化有规律

4、频带缺失的影响

        结论:频带缺失影响打分较大,但是不同的频带模型还是能够匹配降低不同的分值;

四、总结

        visqol和polqa有较高的一致性(可能有幸存者偏差,但是拿到的数据是我们过认证的随机音频),visqol也存在和听感不符合的打分,例如加入轻微混响和噪音都会对打分有影响;但是混响和噪音的影响随着RT60和SNR的变化是有规律的,如果在降噪和混响模型的测试,也具相对意义,可以进行研发的自测;

参考文献:

       1、 https://github.com/google/visqol

       2、Objective Measure of Perceptual Audio Quality

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/828968.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

黑客学习笔记(网络安全)

一、首先,什么是黑客? 黑客泛指IT技术主攻渗透窃取攻击技术的电脑高手,现阶段黑客所需要掌握的远远不止这些。 以前是完全涉及黑灰产业的反派角色,现在大体指精通各种网络技术的程序人员 二、为什么要学习黑客技术?…

7.数组(一维数组、二维数组、C99中的变长数组、二分查找法)

数组 1.数组的概念2.一维数组2.1 一维数组的创建2.2 一维数组的类型2.3 一维数组的初始化2.4 一维数组的下标2.5 一维数组的输入与输出2.6 一维数组在内存中的存储2.7 利用sizeof()计算数组元素的个数 3.二维数组3.1 二维数组的概念3.2 二维数组的创建3.3 二维数组的初始化3.4 …

探索 GPTCache|GPT-4 将开启多模态 AI 时代,GPTCache + Milvus 带来省钱秘籍

世界正处于数字化的浪潮中,为了更好理解和分析大量数据,人们对于人工智能(AI)解决方案的需求呈爆炸式增长。 此前,OpenAI 推出基于 GPT-3.5 模型的智能对话机器人 ChatGPT,在自然语言处理(NLP&a…

深度学习论文: Towards Total Recall in Industrial Anomaly Detection及其PyTorch实现

深度学习论文: Towards Total Recall in Industrial Anomaly Detection及其PyTorch实现 Towards Total Recall in Industrial Anomaly Detection PDF: https://arxiv.org/pdf/2106.08265.pdf PyTorch代码: https://github.com/shanglianlm0525/CvPytorch PyTorch代码: https://…

burp suite 2023版 模块详解《一》

burp suite2023版 模块详解<一> Brup suite 仪表盘、目标、代理模块详解 dashboard&#xff08;仪表盘&#xff09;&#xff1a; Burp Suite的dashboard是一个总览视图&#xff0c;显示有关目标和代理的重要信息。我们可以在仪表板上查看最近操作的概要、目标的状态和代…

vue 新学习 04 css样式绑定,渲染,key的重要意义

之前的html文件如何去绑定css样式&#xff1f; 01.首先在html文件中&#xff0c;在<head>标签中&#xff0c;用<style>中去写样式&#xff0c;通过html标签(每一个标签都有这样子的属性)中的class或者是id属性来完成<style>中的描绘的样式的用。 例子&#x…

用blender做一层石墨烯

文章目录 1 创建正六边形2 复制正六边形3 阵列4 球棍模型 1 创建正六边形 ShiftA->网格->圆环->左下角出现添加圆环菜单&#xff0c;将顶点设为6&#xff0c;得到一个正六边形。按下tab键进入编辑模式->快捷键F填充&#xff0c;得到下图 2 复制正六边形 首先将轴…

路由器工作原理(第二十九课)

路由器工作原理(第二十九课) 一图胜过千言 1) 路由:数据从一个网络到另外一个网络之间转发数据包的过程称为路由 2) 路由器:连接不同网络,实现不同网段之间的通信 3)路由表:路由器选择数据的传输路径的依据 原始的路由表 Destination/Mask Proto Pre Cost …

服务器数据恢复-raid5同步过程中又有一块磁盘报警的数据恢复案例

服务器数据恢复环境&#xff1a; 某研究院一台DELL存储&#xff0c;15块硬盘搭建的一组RAID5磁盘阵列。 该RAID5阵列只有一个卷组&#xff0c;该卷组占用了阵列的全部空间&#xff1b;该卷组只有一个起始位置为0扇区的XFS裸分区。 服务器故障&初检&分析&#xff1a; 该…

大数据课程E8——Flume的Ganglia

文章作者邮箱&#xff1a;yugongshiyesina.cn 地址&#xff1a;广东惠州 ▲ 本章节目的 ⚪ 了解Ganglia的概念&#xff1b; ⚪ 掌握Ganglia的安装操作&#xff1b; ⚪ 掌握Ganglia的监控Flume操作&#xff1b; 一、概述 1. Ganglia是UC Berkeley发起的一个开源…

LwIP以太网在初始化过程中卡死整个程序的问题排查解决

LwIP以太网在初始化过程中卡死整个程序 问题描述 当有以太网初始化的时候整个程序就有可能卡死&#xff0c;去掉以太网初始化整个程序没有卡死 以太网PHY初始化过程会有自协商过程&#xff0c;时间比较长&#xff0c;所以创建一个线程在线程中初始化。 有时候LwIP初始化不会…

【LeetCode】226.翻转二叉树

题目 给你一棵二叉树的根节点 root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。 示例 1&#xff1a; 输入&#xff1a;root [4,2,7,1,3,6,9] 输出&#xff1a;[4,7,2,9,6,3,1]示例 2&#xff1a; 输入&#xff1a;root [2,1,3] 输出&#xff1a;[2,3,1]示例 3…

qq录屏怎么操作?还有什么好用的录屏方法?

在现在这个信息时代&#xff0c;我们经常需要用到录屏这个功能。比如&#xff0c;我们需要制作教学视频、演示文稿或其他一些需要展示屏幕操作的场合。那么&#xff0c;QQ录屏是一个不错的选择&#xff0c;它可以帮助我们轻松地完成这些任务。 QQ录屏的操作方法 首先&#xff…

C++如何用OpenCV中实现图像的边缘检测和轮廓提取?

最近有个项目需要做细孔定位和孔距测量&#xff0c;需要做边缘检测和轮廓提取&#xff0c;先看初步效果图&#xff1a; 主要实现代码&#xff1a; int MainWindow::Test() {// 2.9 单个像素长度um 5倍double dbUnit 2.9/(1000*5);// 定义显示窗口namedWindow("src"…

控件旋转90度,并跟随大小缩放

控件旋转角度&#xff0c;并跟随缩放改变大小 背景使用控件结果 背景 一个项目需求&#xff0c;需要旋转某个控件90使用&#xff0c;在网上找了很多资料&#xff0c;没有特别合适的&#xff0c;自己试水试了一天半&#xff0c;终于弄了个大概其&#xff0c;特此记录 使用控件…

机器学习笔记之优化算法(七)线搜索方法(步长角度;非精确搜索;Wolfe Condition)

机器学习笔记之优化算法——线搜索方法[步长角度&#xff0c;非精确搜索&#xff0c;Wolfe Condition] 引言回顾&#xff1a; Armijo \text{Armijo} Armijo准则及其弊端 Glodstein \text{Glodstein} Glodstein准则及其弊端 Wolfe Condition \text{Wolfe Condition} Wolfe Condi…

CDH基于Kerberos开启身份验证实践总结

CDH基于Kerberos开启身份验证实践总结 前言简介Kerberos是什么Kerberos解决什么问题 Kerberos基本概念Kerberos认证流程Kerberos基本配置principalkeytabkrb5.confkdc.confkadm5.aclkerberos数据库 访问示例数据库访问信息 其他kerberos常用命令[Git Bash支持make命令](https:/…

在线餐饮油烟实时监测系统的设计与实现

安科瑞 华楠 摘 要&#xff1a;为了解决传统油烟检测方法中成本高、效率低、实时性差等问题&#xff0c;设计开发了一种在线油烟实时监测系统&#xff1b;系统由采集、通讯、服务器和用户交互四个模块组成&#xff1b;采集模块采集油烟数据&#xff0c;通过GPRS通讯技术将数据发…

13.元素尺寸与位置

原理&#xff1a;通过js的方式&#xff0c;得到元素在页面中的位置 13.1 元素尺寸与位置-尺寸 1.获取宽高: ●获取元素的自身宽高、包含元素自身设置的宽高、padding、border ● offsetWidth和offsetHeight ●获取出来的是数值&#xff0c;方便计算 ●注意&#xff1a;获取的…

基于DCT变换和huffman编码的语音压缩算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 多通道滤波 4.2 DCT变换 4.3 量化 4.3 哈夫曼编码 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ................................…