【网易云信】音画同步测试方法的研究与实践

news2024/11/25 17:07:00

概述

随着移动互联网的普及和网络带宽的提高,音视频通话越来越成为人们生活和工作中不可或缺的一部分。音画同步是音视频体验的一个重要指标,在音视频传输过程中,由于不同的传输策略因为网络的干扰,音频和视频往往难以同时到达,即使在网络层面对齐后在设备侧音频播放和视频渲染也存在一定的时间差,从而导致音画同步问题的产生。为了解决这个问题,需要对音画同步进行客观的测试,以便更好地评估音视频通话的质量。

业界方法调研

评价标准

关于音画同步,业界有 3 个标准,其中影响力最大的是 ITU-R BT.1359。

  • ITU-R BT.1359(1998):国际电信联盟标准

  • ATSC IS/191(2003):美国的数字电视国家标准

  • EBU R37(2007):欧洲广播联盟标准

音视频同步评价标准

  • 无法感知:-100ms ~ 25ms

  • 能识别:–125ms & 45ms

  • 不可接受:小于-185ms & 大于 90ms

其中负值表示画前音后;正值表示画后音前。

主观评估

主观评估的主要思想是人工观察和评估音画同步状况,并根据个人主观感受和经验来做出评估。在音视频通话中典型的测试方式是一个人数数,另一个人观察对方的口型和听到的声音是否一致,故音画同步在音视频通话场景又名唇音同步。当然也有改良版本,通过播放一些标准的音画同步测试视频来代替数数,从视频内容的中辅助观察着去尽可能减少和量化个人主观评估影响,参考测试视频可点击观看:https://www.bilibili.com/video/BV1Bk4y1z78S/?spm_id_from=888.80997.embed_other.whitelist&vd_source=579ab4465e31fb6c813e4a0d30e0b197

主观评估方法的优势是相对容易实现和控制,同时可以准确反映用户体验和情感反应。但是其劣势也比较明显,主要包括:

  • 受测试者主观因素的影响,不同的测试者可能会有不同的主观感受和评估标准,导致结果的不一致性和不准确性。

  • 测试可重复性差,主观评估方法往往难以量化和标准化。

  • 测试时间和人力成本高。

客观评估

客观评估方法的核心思维是通过音视频内容识别的技术来定义用户实际看到的和听到的内容,再针对内容进行对齐通过获取到的时间戳的差异来评估客观的音视频同步时延。

关于测试视频的准备音频一般采用信号音,视频图像内容上增加数字标签,两者有做好对应关系维护,以保证发送端是完全同步的,在接收端通过信号音&OCR 识别技术进行音视频的内容判断&对齐。

客观测试组网

应用实践

基于前面的调研,在实验室内部进行了落地,并在落地过程中针对遇到的一些问题进行优化。

测试环境

1. 设备列表

2. 测试组网

优化方案

1. 测试素材制作

困难&优化方案:

  • 传统的信号音方案容易被音频 AI 降噪算法消除,导致在音频特征分析时无法被准确识别。

    优化方案:使用正常的语音替换信号源,优化音频内容识别方案。

  • 视频标签 OCR 识别高分辨率下开销大且会测试干扰内容。

    优化方案一:固化测试环境及视频标签所在位置,对输入视频进行 crop 处理,局限性较大。

    优化方案二:使用二维码替代数字视频标签,实际测试 resize 到 360P 均能正常识别,且不受位置和内容干扰。

2. 音视频时间戳对齐

困难&优化方案:

  • 音视频时延实现逻辑差异,无法正常实现时间戳对齐。

    优化方案:基于发送端时间戳天然对齐的基础,将时延计算基于发送端实现,减少接受端对齐操作。

  • 音视频采集卡采集延时不对等引起测试结果的误差。

    优化方案一:预先评估设备采集误差,处理数据的时候消除该误差。

    优化方案二:将发送端和接受端基于归一到同一个采集卡,多路同时采集,时延计算时误差天然消除。

3. 结果准确度提升

困难&优化方案:

  • 受网络及测试规格的影响,接收端无法保证内容的完整性,经常会出现无法找到音视频的标签对应的点。

    优化方案:增加音频&视频采集时间戳对齐逻辑,同时在时间戳差异较大时增加音视频主动向后查找逻辑。

  • 音频必须持续一段时间才能评估时延,而视频仅需一帧图像即可输出时延。

    优化方案:视频时延增加窗口逻辑,保证和音频统计间隔一致,基于窗口内的数据平衡处理后计划音视频时延。

 

成果

在实验室弱网评测引入音视频同步指标,量化了音视频同步情况,挖掘了多个弱网场景下音画同步明显劣于竞品的问题,在推动内部优化后,目前该指标从明显落后于竞品已初步超越竞品。

竞品对比数据

未来规划

  • 优化现有音视频同步的阈值,音视频通话场景下用户真实体验的容忍度实际比[-90,185](音频-视频)的范围是更高的。

  • 用户综合体验指标研究:评测过程中发现部分场景下竞品会选择适当牺牲音画同步效果,保证音视频的实时性。这种时候单一的评估结论不具备特殊意义,需要通过综合表现来评价最终的用户体验

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/980396.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智能小车—PWM方式实现小车调速和转向

目录 1. 让小车动起来 2. 串口控制小车方向 3. 如何进行小车PWM调速 4. PWM方式实现小车转向 1. 让小车动起来 电机模块开发 L9110s概述 接通VCC,GND 模块电源指示灯亮, 以下资料来源官方,具体根据实际调试 IA1输入高电平&#xff0c…

上海控安SmartRocket系列产品推介(六):SmartRocket PeneX汽车网络安全测试系统

产品概述 上海控安汽车网络安全测试系统PeneX(Penetrator X)是一款支持对整车及车辆零部件及子系统实施网络安全测试的系统,其包含硬件安全、软件系统安全、车内通信及车外通信四大安全测试系统;支持合规性测试,包含国…

《TCP/IP网络编程》阅读笔记--基于 TCP 的半关闭

目录 1--基于TCP的半关闭 1-1--TCP单方面完全断开的问题 1-2--shutdown()函数 1-3--半关闭的必要性 2--基于半关闭的文件传输程序 1--基于TCP的半关闭 1-1--TCP单方面完全断开的问题 Linux 系统中的 close 函数会将 TCP Socket 的连接完全断开,这意味着不能收…

项目(智慧教室)第四部分,页面交互功能

一。页面构思 1.标题栏 大标题:智慧教室管理系统 小标题:灯光,报警,风扇,温度,湿度,光照 2.样式设计 背景设置。字体设置(字体大小,格式,颜色) 3.…

算法之双指针题型:

双指针例题小总结: 力扣27: 移除元素 力扣题目链接 双指针分为: 快慢双指针:同一个起点,同向出发 相向双指针:从两端出发,方向相反,终会相遇 经典的双指针(快慢双指…

ESP32用作经典蓝牙串口透传模块与手机进行串口通信

ESP32用作经典蓝牙串口透传模块与手机进行串口通信 简介ESP32开发板Arduino程序手机与ESP32开发板进行蓝牙串口透传通信总结 简介 ESP32-WROOM-32模组集成了双模蓝牙包括传统蓝牙(BR/EDR)、低功耗蓝牙(BLE)和 Wi-Fi,具…

python实现三维应力云图

要画三维的应力分布云图,包括深度(Z轴)、X轴、Y轴,可以使用Matplotlib库中的mplot3d子库来实现 import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D# 生成示例数据 x np.linspace(0,…

利用细胞流式术测定基因组大小和倍性

在denovo基因组测序中,通常会先预估基因组大小,杂合度等信息,根据基因组大小和复杂度来判断测序数据的深度,组装基因组的难易程度等。 预测基因组大小的方法主要有两种,基于Kmer频率的survey分析和基于流式细胞术&…

“指针跃动”受邀参加全球贸易服务峰会

“指针跃动”受邀参加全球贸易服务峰会 有“服”同享 共赢未来 引子 在全球化日益盛行的今天,贸易不再仅仅是物质的交流,更涉及到服务、理念、文化和科技的共享。中国国际服务贸易交易会全球贸易服务峰会,就是这个趋势的集中体现。在这次峰会…

连接虚拟机报错 Could not connect to ‘192.168.xxx.xxx‘ (port 22): Connection failed.

使用xshell连接虚拟机报错 Connecting to 192.168.204.129:22… Could not connect to ‘192.168.204.129’ (port 22): Connection failed. Type help’ to learn how to use Xshell prompt. 按网上的方法 是否能ping通内外网 ping www.baidu.com防火墙是否关闭 firewal…

数据分析综述

⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者:秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据…

PyCharm 虚拟环境搭建

Anaconda搭建虚拟环境 安装 前往Anaconda官网(https://www.anaconda.com/products/individual),下载适合您操作系统的Anaconda版本,建议下载最新的稳定版。这里可以直接进入这个:https://repo.anaconda.com/archive/ …

【python技巧】替换文件中的某几行

【python技巧】替换文件中的某几行 1. 背景描述2. 单行修改-操作步骤3. 多行修改-操作步骤 1. 背景描述 最近在写一个后端项目,主要的操作就是根据用户的前端数据,在后端打开项目中的代码文件,修改对应位置的参数,因为在目前的后…

Spring高手之路14——深入浅出:SPI机制在JDK与Spring Boot中的应用

文章目录 1. SPI解读:什么是SPI?2. SPI在JDK中的应用示例3. SPI在Spring框架中的应用3.1 传统Spring框架中的SPI思想3.2 Spring Boot中的SPI思想 4. SPI在JDBC驱动加载中的应用5. 如何通过Spring Boot自动配置理解SPI思想6. SPI(Service Provider Inter…

库的相关操作

目录 一、创建数据库 1,创建数据库规则 2、创建案例 二、字符集和校验规则 1、查看系统默认字符集以及校验规则 2、查看数据库支持的字符集以及校验规则 3、校验规则对数据库的影响 三、操纵数据库 1、查看数据库和目前所在数据库 2、显示创建语句 3、修改数据库 4、…

Modbus协议详解2:通信方式、地址规则、主从机通信状态

首先我们要清楚:Modbus是一种串行链路上的主从协议,在通信线路上只能有一个主机存在,不会有多主机存在的情况。虽然主机只有一个,但是从机是可以有多个的。 Modbus的通信过程都是由主机发起的,从机在接收到主机的请求后…

Python Spyder下载、安装和使用教程

Spyder 是一款功能强大的 Python IDE(集成开发环境),集编写、运行、调试 Python 程序于一身,可以安装到多个平台上,包括 Windows、Linux、Mac OS X。 图 1 Spyder Logo Spyder 除了拥有一般 IDE 普遍具有的编辑器、调…

ardupilot 安装gcc-arm-none-eabi编译工具

目录 文章目录 目录摘要0简介1.下载网站2.安装摘要 本节主要记录ardupilot使用的编译器安装过程。 0简介 gcc-arm-none-eabi是GNU项目下的软件,是一个面向裸机arm的编译器。那么说了这么多介绍,它都包含什么具体功能又怎么安装与使用呢,我们继续。 1.下载网站 gcc-arm-n…

随着iPhone 15降临,是时候扔掉所有的Lightning充电器了

自从苹果推出Lightning端口(一直追溯到iPhone 5)十多年后,你可能已经积累了相当多的Lightning电缆和配件。好吧,在下周的苹果活动之前,所有关于iPhone 15的传言都表明你不再需要它们了。 与最好的iPad和最好的MacBook…

防水出色的骨传导耳机,更适合户外运动,南卡Runner Pro 4S体验

已经接近尾声的夏季依然酷热,对于运动爱好者来说,这确实也是锻炼的好时机,无论是一会儿就能大汗淋漓的HIIT,还是是各种清凉的水上运动,在健身的同时,戴上一副耳机享受音乐,都会更加痛快一些。 相…