随着音视频和AI技术的发展,在满足用户基础体验和需求情况下,更极致的用户体验和更丰富的互动玩法,成为各个平台打造核心竞争力的关键。LiveVideoStackCon 2022 北京站邀请到火山引擎视频云华南区业务负责人——张培垒,基于节跳动音视频业务实践沉淀,介绍音视频云端一体解决方案如何助力用户体验升级和业务创新。
文/张培垒
编辑/LiveVideoStack
大家好,我是火山引擎视频云商业化方向华南区的业务负责人,张培垒。
火山引擎视频云去年发布了音视频云端一体解决方案,来帮助音视频企业一站式构建抖音同款的音视频能力。
传统的视频观看调优场景中,遇到卡顿黑屏等问题,进行线路调整时通常比较粗粒度,比如只能针对云端CDN线路、特定片区或者运营商的线路调整,精度很难把控。我们在集团内部经过长期的经验积累,形成了一整套的云端一体化的联动、协同的体系,它由终端SDK,即埋点技术、策略调度中心、训练引擎,可以针对用户行为进行打标,最终结合A/B实验通道实现。
-01-
行业趋势与挑战
接下来进一步阐述,云端一体化在商业化场景中的实践和具体的优势。
首先,为什么要做云端一体化?
音视频行业随着移动互联网传输的发展,从早期的播放顺畅发展到现在更多的追求极致体验,主要体现在四个方面:
观看顺畅的追求,短视频和直播场景下越来越追求首帧的加载,feed流切换的平滑。我们此前在短视频实践的分享中,100ms以内用户是没什么感知的,到210ms会出现一个拐点,一旦超过300ms用户离开速度会快速增加。
清晰度上的追求,世界杯中抖音也是大面积尝试了超分,并且取得了不错的市场反馈,一旦尝试了超分的视觉体验后,再去看普通的1080P,就会觉得非常寡淡乏味。
互动实时性,在抖音日常进行的赛事直播和互动直播中,我们都大面积的运用了低延时直播和RTC,低延时直播保障了观看的及时性,RTC的互动性,保障了互娱直播间的乐趣。
沉浸,包括声音和视觉两方面,目前各家都在推出自己的VR/AR方案。我们也在PICO中不断优化升级,在RTC场景,如在游戏中感知队友的方位,运用空间音频技术进行定位。
除了行业的方向,不同的业务的发展,也会经历不同的阶段。
针对初创期的业务,人力投入和买量投放是关键阶段,开发人员在此阶段通常面临着多模块之间进行拼凑的难题,比如同时需要RTC、美颜、剪辑,多模块对接时的SDK组合非常复杂,对接周期以月为单位。
一旦业务稳定后,这里的主要目标就会变成体验的优化,抖音内部面临秒开、首帧优化等体验优化的挑战,如何平衡业务体验和业务增长的关系也是重要的课题。
业务发展的成熟期,目标会更多转向降本增效,在降低内部的运营成本,增加日常维护和运维效率的基础上,同时探索新的业务方向。
-02-
云端一体业务实践
为了适配行业和业务的发展发向,如何借助云端一体化构建自己的业务呢?
图中是整个云端一体化的阶段:
针对初创期的业务,也就是从0-1构建业务的阶段,提供了一站式的全链路方案,覆盖内容的生产、服务、消费。
生产端,我们提供基于短视频的拍摄剪辑制作,即抖音剪同款的能力。基于直播的实时音视频采集、推流,以及视频的二次渲染特效,音频的特性能力。最终采集到的音视频被传输到云端
服务端,云端的服务能力分为三个场景:
-
RTC场景,将音视频合流录制后进入房间,大大降低用户的使用成本;在一些线教育客户中,将RTC房间的流转推到直播,我们提供服务端的转推场景。针对链路的优化,我们进行了弱网的优化,包括UDP防丢包策略。
视频直播场景,可以做到云端的时移、转码、录制,分发一体化
点播场景,具备媒资的管理、处理、分发、审核的能力。
消费端,借助抖音集团生态下的播放器能力,嵌入SDK后即可具备秒开,零首帧,超分,265等能力。
除了业务模块的能力以外,结合C端用户的业务场景,提供了丰富的demo,如互动直播、电商直播和远程会议。目的是便于业务方快速集成,开发人员可以基于demo的源码快速构建业务。源码中的api覆盖了几乎所有常见的终端能力,最常见的是RTC和美颜的打通,直接调用美颜的api进行视频采集和二次渲染,极大提升了采集、渲染、传输联动式的一体化效率。整个demo里面把多端的能力融合,包体容量也可以根据需求做最小化的裁剪,帮助业务快速上线、验证。
在业务快速上线后,体验的优化会成为这一阶段的重要目标。此时,需要具备QoS/QoE体系,在我们的整个云+端体系中,对应有完整的数据体系,让业务开发者省去了数据上报、采集、治理的流程。可以直接借助全面的QOS指标来进行A/B实验,比如在点播场景的优化中,上传协议分为A/B采样组,A组使用QUIC,B组使用TCP,端侧实时观测首帧时间以及播放时长的指标情况,最终根据A/B实验结果进行快速策略调整。
同样,在观看直播分辨率的过程中,根据用户观看分辨率的集中性,来针对性修改转码的模版,什么样的终端适配什么样的分辨率等等。这里做的大量的QoS以及QoE的验证,都会沉淀为我们云端的服务策略,最终的体现就是,火山引擎视频云播放的策略、转码策略、存储沉降的策略都会非常适配业务的实际需求场景。
经过长时间大范围的A/B测试,我们积累了非常丰富的视频体验数据:
直播延迟vs播放时长:直播延迟每增加4s,终端用户的播放时长会下降1个百分点;
画质vs播放时长:开启720P超分后,时长增加2个百分点;
编码优化vs播放时长:在采集、转码、解码全链路使用自研的BVC算法后,播放时长增加了5个百分点;
卡顿率vs播放时长:降低卡顿率带来的播放时长的正向增长;
首帧vs播放时长:短视频的feed流首帧时间在超过210ms以后,用户的留存会快速下降;
成本vs收益:视频渲染,成本增加的同时带来业务增长。
业务发展到成熟阶段,降本增效就会成为主题,我们自己和很多外部客户在这一阶段会经常抱怨,当终端侧用户不断反馈卡顿、黑屏的问题时,我们很难在云端协助排查,最多提供客户端IP和运营商地址信息,很难准确定位到出现问题的播放阶段。
采用云端一体化方案后,很大程度解决了这一问题,将质量平台与终端和告警系统打通,精细化的追踪到生产端、服务端、消费端的指标数据。可以基于用户请求的session粒度追踪到问题存在的阶段,并采取针对性的策略调整,同时解决了质量优化和运维投入的矛盾,提高了问题定位的效率。
下面是几个具体的case:
第一个是在问题排障过程中的智能归因,根据终端播放失败的趋势对比,归因分析到是单用户问题还是聚集性问题,结合云端的线路错误码做进一步的趋势预判,错误的运营商,地区分布等,对比没有云端协调一体化的手段下,极大降低了排障时间,实现分钟级定位。
第二个是单点追查,基于单用户和Session级别的问题定位,追踪到问题环节,每个环节都能够展示较详细的错误信息。进一步细分播放详情,如首屏时长细分为加载数据、预处理、播放器准备耗时、整个播放环节的播发码率和终端的下载速度情况。终端播放时的每次事件记录,以及事件发生的持续时间也都有记录。
最终用户投诉的解决效率提升50%。
效率提升后,另一个课题就是业务创新,我们融合了多种玩法,包括互动特效、AI算法、配套丰富的素材和工具,提升内容创作者的效率和成功率,最直接的体现就是在抖音业务上。
主要有几大模块组成:
视频创作,大家熟知的抖音拍同款、剪同款,各种特效,智能字幕,能够根据视频中说话的声音自动生成字幕并进行多语言翻译、BGM授权,我们购买了丰富的版权方素材,方便智能创作者生成背景音。
算法模块,达到一定的渲染效果需要算法积累,可以基于面部,手势,肢体,甚至是情绪和特征做点位识别,也就是日常大家抖音观看过程中的,给拍摄者增加笑脸,脸萌特效,增加了视频的趣味性,还有渲染模块,包括虚拟形象,AI小游戏等。
最终这些业务运用到不同的创新场景下,比如我们有些客户做医美、微整形的效果体验, 电商场景下的基于人脸点位的AR试妆,在线教育下设计与课程相关的动画、特效,增加趣味互动性,视频直播场景下的视频美化,增加1V1场景中的观看时长。
-03-
音视频云端一体解决方案veVOS
最后基于以上几个阶段的最佳实践,总结一下抖音同款的音视频云端一体化解决方案veVOS。
整体框架由底层的云端服务作为基座,针对RTC场景的下的音视频通话传输网络,视频后处理,弱网优化等,针对直播下的转码、分发录制,针对点播的媒体处理和分发。
客户端打包丰富的SDK套件,包括RTC音视频的采集、播放器、视频制作、特效、直播的SDK等。全链路配备质量平台监控,保障QoS和QoE,底层通过策略平台来进行相对应场景的策略调整。
应用场景从在线音视频到社交娱乐、媒体资讯及在线教育。
通过去年到现在商业化的情况对比,云端一体化方案取得了非常不错的效果,总结主要优势点如下:
一站式方案,简单上手,传统的RTC场景客户对接到上线需要4-7周的时间,而一站式方案从接入到上线业务,时长缩短到2周,SDK的集成更是2天即可完成。
通过完善的质量和体验监控,能够不断优化QoS和QoE,用户在集成方案后,视频秒开率和用户播放时长有了显著提升。
集成很多创新玩法,在云加端的背景下,配合多个SDK孵化出了一起看抖音短剧,配合美颜贴纸,打造了脸萌社交场景,为客户制造很多新的增值服务。
依靠亿级DAU产品,也就是抖音的打磨,不断发现很多未知的问题,机型也做了最大程度的兼容,是业界领先。
最后,希望更多的业务合作伙伴体验云端一体化解决方案,希望抖音集团内部的科技创新能够助力用户体验升级和业务创新。
以上是本次的分享,谢谢!
▲扫描图中二维码或点击“阅读原文” ▲
查看更多LiveVideoStackCon 2023上海站精彩话题