概述

随着移动互联网的普及和网络带宽的提高，音视频通话越来越成为人们生活和工作中不可或缺的一部分。音画同步是音视频体验的一个重要指标，在音视频传输过程中，由于不同的传输策略因为网络的干扰，音频和视频往往难以同时到达，即使在网络层面对齐后在设备侧音频播放和视频渲染也存在一定的时间差，从而导致音画同步问题的产生。为了解决这个问题，需要对音画同步进行客观的测试，以便更好地评估音视频通话的质量。

业界方法调研

评价标准

关于音画同步，业界有 3 个标准，其中影响力最大的是 ITU-R BT.1359。

ITU-R BT.1359（1998）：国际电信联盟标准
ATSC IS/191（2003）：美国的数字电视国家标准
EBU R37（2007）：欧洲广播联盟标准

音视频同步评价标准

无法感知：-100ms ~ 25ms
能识别：–125ms & 45ms
不可接受：小于-185ms & 大于 90ms

其中负值表示画前音后；正值表示画后音前。

主观评估

主观评估的主要思想是人工观察和评估音画同步状况，并根据个人主观感受和经验来做出评估。在音视频通话中典型的测试方式是一个人数数，另一个人观察对方的口型和听到的声音是否一致，故音画同步在音视频通话场景又名唇音同步。当然也有改良版本，通过播放一些标准的音画同步测试视频来代替数数，从视频内容的中辅助观察着去尽可能减少和量化个人主观评估影响，参考测试视频可点击观看：https://www.bilibili.com/video/BV1Bk4y1z78S/?spm_id_from=888.80997.embed_other.whitelist&vd_source=579ab4465e31fb6c813e4a0d30e0b197

主观评估方法的优势是相对容易实现和控制，同时可以准确反映用户体验和情感反应。但是其劣势也比较明显，主要包括：

受测试者主观因素的影响，不同的测试者可能会有不同的主观感受和评估标准，导致结果的不一致性和不准确性。
测试可重复性差，主观评估方法往往难以量化和标准化。
测试时间和人力成本高。

客观评估

客观评估方法的核心思维是通过音视频内容识别的技术来定义用户实际看到的和听到的内容，再针对内容进行对齐通过获取到的时间戳的差异来评估客观的音视频同步时延。

关于测试视频的准备音频一般采用信号音，视频图像内容上增加数字标签，两者有做好对应关系维护，以保证发送端是完全同步的，在接收端通过信号音&OCR 识别技术进行音视频的内容判断&对齐。

客观测试组网

应用实践

基于前面的调研，在实验室内部进行了落地，并在落地过程中针对遇到的一些问题进行优化。

测试环境

1. 设备列表

2. 测试组网

优化方案

1. 测试素材制作

困难&优化方案：

传统的信号音方案容易被音频 AI 降噪算法消除，导致在音频特征分析时无法被准确识别。

优化方案：使用正常的语音替换信号源，优化音频内容识别方案。
视频标签 OCR 识别高分辨率下开销大且会测试干扰内容。

优化方案一：固化测试环境及视频标签所在位置，对输入视频进行 crop 处理，局限性较大。

优化方案二：使用二维码替代数字视频标签，实际测试 resize 到 360P 均能正常识别，且不受位置和内容干扰。

2. 音视频时间戳对齐

困难&优化方案：

音视频时延实现逻辑差异，无法正常实现时间戳对齐。

优化方案：基于发送端时间戳天然对齐的基础，将时延计算基于发送端实现，减少接受端对齐操作。
音视频采集卡采集延时不对等引起测试结果的误差。

优化方案一：预先评估设备采集误差，处理数据的时候消除该误差。

优化方案二：将发送端和接受端基于归一到同一个采集卡，多路同时采集，时延计算时误差天然消除。

3. 结果准确度提升

困难&优化方案：

受网络及测试规格的影响，接收端无法保证内容的完整性，经常会出现无法找到音视频的标签对应的点。

优化方案：增加音频&视频采集时间戳对齐逻辑，同时在时间戳差异较大时增加音视频主动向后查找逻辑。
音频必须持续一段时间才能评估时延，而视频仅需一帧图像即可输出时延。

优化方案：视频时延增加窗口逻辑，保证和音频统计间隔一致，基于窗口内的数据平衡处理后计划音视频时延。