云端一体助力体验升级和业务创新

随着音视频和AI技术的发展，在满足用户基础体验和需求情况下，更极致的用户体验和更丰富的互动玩法，成为各个平台打造核心竞争力的关键。LiveVideoStackCon 2022 北京站邀请到火山引擎视频云华南区业务负责人——张培垒，基于节跳动音视频业务实践沉淀，介绍音视频云端一体解决方案如何助力用户体验升级和业务创新。

文/张培垒

编辑/LiveVideoStack

大家好，我是火山引擎视频云商业化方向华南区的业务负责人，张培垒。

火山引擎视频云去年发布了音视频云端一体解决方案，来帮助音视频企业一站式构建抖音同款的音视频能力。

传统的视频观看调优场景中，遇到卡顿黑屏等问题，进行线路调整时通常比较粗粒度，比如只能针对云端CDN线路、特定片区或者运营商的线路调整，精度很难把控。我们在集团内部经过长期的经验积累，形成了一整套的云端一体化的联动、协同的体系，它由终端SDK，即埋点技术、策略调度中心、训练引擎，可以针对用户行为进行打标，最终结合A/B实验通道实现。

-01-

行业趋势与挑战

接下来进一步阐述，云端一体化在商业化场景中的实践和具体的优势。

首先，为什么要做云端一体化？

音视频行业随着移动互联网传输的发展，从早期的播放顺畅发展到现在更多的追求极致体验，主要体现在四个方面：

观看顺畅的追求，短视频和直播场景下越来越追求首帧的加载，feed流切换的平滑。我们此前在短视频实践的分享中，100ms以内用户是没什么感知的，到210ms会出现一个拐点，一旦超过300ms用户离开速度会快速增加。
清晰度上的追求，世界杯中抖音也是大面积尝试了超分，并且取得了不错的市场反馈，一旦尝试了超分的视觉体验后，再去看普通的1080P，就会觉得非常寡淡乏味。
互动实时性，在抖音日常进行的赛事直播和互动直播中，我们都大面积的运用了低延时直播和RTC，低延时直播保障了观看的及时性，RTC的互动性，保障了互娱直播间的乐趣。
沉浸，包括声音和视觉两方面，目前各家都在推出自己的VR/AR方案。我们也在PICO中不断优化升级，在RTC场景，如在游戏中感知队友的方位，运用空间音频技术进行定位。

除了行业的方向，不同的业务的发展，也会经历不同的阶段。

针对初创期的业务，人力投入和买量投放是关键阶段，开发人员在此阶段通常面临着多模块之间进行拼凑的难题，比如同时需要RTC、美颜、剪辑，多模块对接时的SDK组合非常复杂，对接周期以月为单位。

一旦业务稳定后，这里的主要目标就会变成体验的优化，抖音内部面临秒开、首帧优化等体验优化的挑战，如何平衡业务体验和业务增长的关系也是重要的课题。

业务发展的成熟期，目标会更多转向降本增效，在降低内部的运营成本，增加日常维护和运维效率的基础上，同时探索新的业务方向。

-02-

云端一体业务实践

为了适配行业和业务的发展发向，如何借助云端一体化构建自己的业务呢？

图中是整个云端一体化的阶段：

针对初创期的业务，也就是从0-1构建业务的阶段，提供了一站式的全链路方案，覆盖内容的生产、服务、消费。

生产端，我们提供基于短视频的拍摄剪辑制作，即抖音剪同款的能力。基于直播的实时音视频采集、推流，以及视频的二次渲染特效，音频的特性能力。最终采集到的音视频被传输到云端
服务端，云端的服务能力分为三个场景：

- RTC场景，将音视频合流录制后进入房间，大大降低用户的使用成本；在一些线教育客户中，将RTC房间的流转推到直播，我们提供服务端的转推场景。针对链路的优化，我们进行了弱网的优化，包括UDP防丢包策略。
- 视频直播场景，可以做到云端的时移、转码、录制，分发一体化
- 点播场景，具备媒资的管理、处理、分发、审核的能力。
消费端，借助抖音集团生态下的播放器能力，嵌入SDK后即可具备秒开，零首帧，超分，265等能力。

除了业务模块的能力以外，结合C端用户的业务场景，提供了丰富的demo，如互动直播、电商直播和远程会议。目的是便于业务方快速集成，开发人员可以基于demo的源码快速构建业务。源码中的api覆盖了几乎所有常见的终端能力，最常见的是RTC和美颜的打通，直接调用美颜的api进行视频采集和二次渲染，极大提升了采集、渲染、传输联动式的一体化效率。整个demo里面把多端的能力融合，包体容量也可以根据需求做最小化的裁剪，帮助业务快速上线、验证。

在业务快速上线后，体验的优化会成为这一阶段的重要目标。此时，需要具备QoS/QoE体系，在我们的整个云+端体系中，对应有完整的数据体系，让业务开发者省去了数据上报、采集、治理的流程。可以直接借助全面的QOS指标来进行A/B实验，比如在点播场景的优化中，上传协议分为A/B采样组，A组使用QUIC，B组使用TCP，端侧实时观测首帧时间以及播放时长的指标情况，最终根据A/B实验结果进行快速策略调整。

同样，在观看直播分辨率的过程中，根据用户观看分辨率的集中性，来针对性修改转码的模版，什么样的终端适配什么样的分辨率等等。这里做的大量的QoS以及QoE的验证，都会沉淀为我们云端的服务策略，最终的体现就是，火山引擎视频云播放的策略、转码策略、存储沉降的策略都会非常适配业务的实际需求场景。