如何把在线K歌“玩起来”——专访撕歌音视频架构师程乐

编者按：在线K歌的业务已经发展了十年，程乐在音视频领域也闯荡了十年，甚至更久。为什么选择在线K歌领域？如何走过“漫长的季节”，迎来新的风景？如何在“在线K歌”这块难啃的骨头里分点肉？在这一连串的问题下面，只有一个简单的答案：兴趣。以下是程乐的讲述——

01 兴趣决定了一切

大概是在上中学的时候，我开始对音视频产生强烈的兴趣。从收音机、磁带机、CD、VCD、DVD、mp3，一直到大学时期开始流行的MP4、平板、相机等等，基本上都是省吃俭用搞回来的，为此也没少跟父母闹过矛盾。

程乐

大学时，相对能折腾的时间比较多，刚好是智能手机爆发前夜，MP4设备比较火爆，那几年基本是卖旧买新，一直跟着最新的设备迭代，从仅支持单一480p Xvid视频格式到720p rmvb再到1080p H264，到生命末期甚至卷到了4K（那时候还是2010年之前）。当时在imp3论坛上也很活跃（现在早已关闭），一起讨论新出的芯片方案解码性能到底咋样，各种编码格式的优缺点；

2018 年 11 月，iMP3正式宣布关站

也蹲各个厂家的评测优惠活动，写写评测，机器就能半价入手。在当时论坛的影响下，我也开始入门烧耳机，哪些耳机能做到低音沉、中音准、高音甜，无损的Ape Flac比WMA MP3能强多少等等，都是涉猎的范畴。

毕业后的第二份工作是做电视盒子，虽然最后的结果不太好，但当时的烦恼很少，日子过得开心、纯粹。那个时候每天考虑的就是本地播放怎么提高兼容性，MP4/flv/mkv/ts这些格式怎么封装，蓝光导航怎么搞，ASS/PGS特效字幕怎么解析渲染，各家的硬件解码器都要怎么适配，网络播放怎么提高稳定性等等。

当时的状态就像重度游戏玩家开始按照自己的意愿开发一款新游戏，从工作体验上来说是比较满足的。

再后来，移动直播、短视频开始兴起，我就用之前积累的音视频经验转做移动端的直播、短视频SDK，当时应该还是有不少客户在用的。再后来就开始做撕歌的实时语聊K歌场景，也是从乙方转做了甲方。

总之毕业后一路走来，工作在自己的兴趣领域也是蛮幸运的事情。回想起来，兴趣对于跨越音视频的门槛来说是非常必要且有效的，所以希望想入这行的同学都能够培养起来对音视频的兴趣。

02 在K歌赛道中，杀出一条血路

下面，让我们来聊聊业务。我是2019年加入帧趣的，之后就开始接手公司内音视频相关的技术以及K歌的整体体验。主要侧重在客户端部分，服务端音视频能力大部分是用第三方服务，自己做的东西会比较少。

那么，与其他大厂相比，我们的技术优势在哪里呢？

首先是我们有一支战斗力强的业务团队，能够快速试错各种新的脑洞玩法，对用户常用常新。撕歌在K歌的玩法上也是做了不少探索，比如最早上线的双人接唱玩法，以及到后来的多人接唱玩法，都是朝着更容易产生社交的方向去努力的。

撕歌的各种玩法基本都戳中了年轻人的兴趣点

对撕歌有了解的人都能看出来，撕歌走的是实时K歌玩法。K歌是一种社交类的破冰游戏，大家有着共同的唱歌爱好，更容易打开话题，沉淀社交关系，有了社交关系之后用户的粘性就比较强了。

其次是K歌体验部分，相比其他主要关注业务的语聊类app，我们有专门的音视频团队，可以自己实现很多需求，不至于第三方没有我们就没得用；另外我们逐步建立起了一套主客观评价机制，可以推动第三方来优化关注点，然后由我们集成优势，灵活地选择最佳的供应商。

前几年，各RTC厂商对泛娱乐K歌场景都缺乏投入，我们的采集渲染方案在低延迟耳返、耳返兼容性、人声伴奏对齐等方面存在优势；AEC以及演唱评分也做过自己的优化，不过随着各家加大资源的投入，差距会缩小。像AEC效果这些，第三方这两年普遍进步很大，这种情况下我们最终会根据整体的主客观评价结果来做调整。

踩坑、成长、一步一步来

技术上的主要困难还是小团队都会面临的全栈要求。由于我自己一直是在做音视频的工程开发，而唱歌体验的好坏也有很大一部分是落在硬核算法上的，像是音效、演唱打分、回声消除效果等等。

演唱打分这块，在19年初还不太能找到合适的第三方技术服务，当时是请兼职帮忙搞了一套算法，不过效果准确性上一直有比较大的问题，这块自己当时花了大半个月的时间啃了四五篇paper，对评分算法做了一个比较大的优化，准确度上也是有了明显的提升，大致能够满足我们娱乐性质演唱的需求。

回声消除这里也做过尝试，当时的教育产业如火如荼，RTC厂商们的重心基本都在会议和教育领域，对我们这类娱乐K歌类产品的需求满足度就比较低。当时的回声消除最明显的问题是双讲场景下对人声的压制非常厉害，人声发闷严重甚至会丢掉一些音节。

这类问题对会议场景来说不是特别严重，能听清楚对方讲的内容就可以，但在K歌场景下人声的这类损伤会导致听感非常差，这时宁愿残留一些伴奏的回声，也要尽量保障对人声细节的保留。这块我们当时也尝试把WebRTC中的AEC算法抽出来，然后在演唱的时候屏蔽掉非线性处理部分，只做线性处理，残留的回声靠伴奏的精准混音来压制掉。

在当时各RTC厂家整体的效果下，这个方案大多数情况下的体验还是会好不少的。当然后来教育被打掉之后，各家开始重视泛娱乐市场，这块的体验才有了质的飞跃，现在我们也是采购了第三方的AI回声消除算法。

目前我们音视频这边跟业务会相对独立，大部分优化迭代可能是跟业务相关性不大的，这些部分会独立发版，然后跟业务侧的版本班车去发。这里有一些是产品提过来的体验问题优化，也有一部分是我们自己综合用户反馈以及统计信息来做的。当然也有一些跟业务强相关的开发内容，类似接唱玩法、一些需要演唱打分的场景等等，这部分会跟业务一起评估需求，纳入业务的项目管理进度中去。

宣发和技术也是我们在发展过程中努力在提升的方向，留住用户更重要的还是产品力，技术也是为产品力服务的，这块我们还是有持续的路要走。

绕不过的降本增效

说到降本增效，其实，作为一个小团队，主要还是发挥自己的优势方向，非优势方向以及成本上无法顾及的方向则想办法找合作方来补齐。比如实时K歌场景下，对用户体验影响较大且我们自己可以做的采集渲染以及机型适配工作，我们从19年开始就一直在积累；而像RTC的传输优化、AEC处理，服务器架设则是建立了一套实验室评价体系，选择效果最好的服务商来满足需求。

成本这块，实时K歌最大头的也就是RTC服务的费用了，我们目前是配合自己的采集渲染来集成各家的RTC服务，这样可以做到最低的切换成本，线上多家RTC同时存在时的体验也是一致的。这种方案下我们会有比较好的议价优势，也能掌握议价的主动权。另外端上对CDN资源的cache机制，对RTC资源的按需使用优化也能降低一部分成本。

03 要在现在，抓住未来

唱歌是人的天性，社交也是天性。特别是年轻一代在自我表现以及社会认同上会有更个性化的需求，他们对在一个虚拟社区中组成团体的认同感以及精力投入上也都更多，基于K歌的社交垂类还是有持续的可挖掘空间的。

我认为，K歌未来的发展方向应该也是朝着更容易沉淀社交关系的方向去走。比如说更精准的匹配推荐策略，让对脾气的用户能高效的认识并沉淀关系；再比如说基于AI的自动改编和自动作曲，让有才华的非专业用户可以高效产生自己的特色作品，低成本地炫出自己的才华；对于音乐领域来说，基于AI的伴奏人声分离技术已经比较成熟，目前的效果基本上能达到实用程度了。

再比如基于AI的回声消除以及降噪，可以达到传统算法无法企及的高度。像我们所在的K歌社交领域，如果能基于AI给歌曲以及用户的演唱做自动分类推荐，则会是一个比较显著的方向。希望未来的技术发展能解决目前实时合唱的延时问题，让远在各地的用户可以轻松和声。

最后，分享下我在这次的LiveVideoStackCon中带来的内容：主要还是分享这几年做撕歌在音视频这块踩过的坑，以Android/iOS移动端的技术为主；也会分享K歌场景下特殊的一些技术点；还会聊聊音视频技术上的优化如何变成老板们能认可的指标，以及语聊场景常见的卡麦问题。

*文章图源：

豆瓣《蜘蛛侠：纵横宇宙》