如何打造“面向体验”的音视频能力——对话火山引擎王悦

news2024/11/15 18:28:18

编者按:随着全行业视频化的演进,我们置身于一个充满创新与变革的时代。在这个数字化的浪潮中,视频已经不再只是传递信息的媒介,更是重塑了我们的交互方式和体验感知。作为字节跳动的“能力溢出”,火山引擎正在飞速奔跑。根据2023《中国视频云市场跟踪,2023上半年》报告显示,在视频云解决方案市场上,火山引擎的市场占有率排在第五位。

从在北京创业时听着路演写代码,到成为火山引擎视频云架构的技术总监,王悦的经历横跨了几代视频编解码标准的长度,而他的每一步都不偏不倚地踩在了视频发展的重要节点。这次的LiveVideoStackCon上,他将带领火山引擎带来「抖音背后的体验增长」的实战揭秘。他所在的火山引擎视频云部门期望借助海量的富媒体内容带来更顺畅的画质体验、更优质的交互体验、更流畅的播放体验和更佳的性能体验,再通过火山,给整个行业去提供整个端到端的视频云的解决方案。以下是LiveVideoStack与王悦的对话——

视频,重塑了我们的生活方式

LiveVideoSatck:2018年加入字节跳动(以下简称字节),如今已经五年了。这五年的时间里,你都经历了哪些变化和成长,其中让你印象最深刻的是什么?

王悦:整体上都是围绕多媒体技术和架构,职责和工作重心随着业务的增长和组织的需求持续有些调整。印象最深刻的应该还是随着公司业务的成长,我们的技术、业务和组织理念逐步实现了一个比较大的转变,从一个偏解决方案、技术支撑的部门角色演进到了围绕云上的商品和服务来建设,因此大家看到了今天的火山引擎,今天的视频云。

LiveVideoStack:过去十年是飞速发展的十年。从传统互联网到移动互联网再到现在一个相对平稳的状态,你怎么总结上个十年的行业的变化,或者说它在你身上产生的投影?

王悦:其实我们可以算一下,你每天刷抖音、短视频多长时间,每天是不是要开几个视频会议,这些典型的场景在行业上又催生出多少个像抖音、腾讯或Zoom这样的公司。从另外一个角度讲,我们每天面对这些太司空见惯了,所以去回顾当时的产品可能没有那么深的感触。但我记得十年前第一次出现 UGC 直播创业的公司、第一次用 Zoom 开会、第一次看到桌面共享居然可以做到这么丝滑。在看到那些场景的时候你会觉得这种创新变革是非常巨大的,那个时候的兴奋感是非常强的。总体来说,视频编解码的标准虽然一直在变,但基本框架这20年来几乎没怎么变过,用户对于超高清、低延时、强交互的体验需求也一直存在,我们也在根据行业和用户场景的需求不断地适应、迭代和改进。

抖音背后,用户体验提升的秘诀

LiveVideoStack:你之前有提到过,目前视频编码的迭代的速度已经追赶不上这个视频数量增长速度,火山引擎是如何解决这一问题的?

王悦简单来讲就是提升算力的密度和规模。在并行计算方面,摩尔定律还没失效,这也是为什么现在NVIDIA还是能持续高速地增长。首先就是挖掘一个场景,在这个场景下,确保算力能够指数级地跟上业务的需求。另外就是专芯专用,就是专用的芯片去做专业的事情。因为通用计算做编解码效率并没有那么高。为什么现在大家都在做专用的视频编码芯片,它就是可以把单位芯片面积的算力发挥到极致。所以综合这两点,一个是这个专业计算,一个是极致密度,我们通过异构计算的矩阵,充分保障了我们视频转码和处理的效率。

LiveVideoStack:提到NVIDIA,你们一同合作的视频处理框架(BMF)在今年8月份正式发布,目前,实践起来情况如何,对抖音、西瓜等带来了怎样的帮助?

王悦:我们与NVIDIA合作的视频处理框架BMF在抖音、西瓜等内部业务上经过了充分应用和验证。对于量更大、处理链路更复杂的点播转码场景,BMF已经全量上线了,包括了视频检测、增强、转码等各个环节,过程中BMF的性能和稳定性,以及对于开发效率的提升已经被充分验证。除此之外,BMF在内部的审核抽帧、云编辑、直播转码、移动端增强等场景都有广泛的应用。我们自己主要的收益点还是提升了开发效率,降低维护成本和出错概率,加快新业务、新功能的接入和上线速度。

LiveVideoStack:拿视频云团队来说,你们对于降本增效有压力吗?

王悦:目前来看的话其实还好,未来多媒体的的增量空间还有多少我们可能都会考虑。现在看来起码两三年内还是比较乐观的,我们自己做ToB虽然很难,但是从0到1还是有很多去发力的空间。对于火山引擎自己的经验来说的话,之前一直要给大家剖析一个非常详细的方法论,这次在深圳站结束之后,我们联合抖音撰写了一份面向体验的白皮书,比如“体验、成本和技术三者的均衡,抖音是怎么做的?火山又是通过什么技术驱动的手段实现的?” 、“沉浸上的体验、画质的体验和交互的体验在点播、RTC和架构上怎样实现的”,以上这些内容我们都会详细阐述。

关于危机、机会和未来

LiveVideoStack:目前,我们能看到的主流的流媒体公司都在增效、减员、压缩。下一个时代看上去是属于人工智能的时代,是不是证明流媒体的时代就结束了,或者说暂时告一段落了?

王悦:首先,我觉得不能叫结束吧,只能说现在整个行业渗透到了一个相对平稳的时期了,但这并不意味着这个行业的人就失业了,只是像十年前那样从0到1 的机会和空间越来越少。但回想我10年前博士毕业的时候,当时的音视频从业者也非常少,我硕士毕业的时候,9个同学有8个去了银行,那个时候做视频编解码的公司几乎没有,只有外企去做标准,国内你会用ffMPEG,会做基本的一些开源方案的使用或维护就够了。现在看我们整个国内的音视频流媒体的从业人员有多少?这其实已经是十年以前不可比拟的。所以从这个角度讲我觉得不能说是停滞了,只是无法保持像上个十年一样的增速。

LiveVideoStack:其实流媒体的从业者,无论从智商还是能力上来讲,都是非常出色的人。你觉得面临人工智能这样的一个新兴的技术革新的危机,我们应该怎么面对或者拥抱它?

王悦:其实我觉得不止流媒体,所有技术人都会面临技术被革新的难题。你需要去学新的语言、新的开发框架。但是未来是否AI就取代了流媒体?我觉得这不是两个冲突的概念。流媒体的本质是帮助我们获取信息、分享信息和传递信息的载体,但AI本身是一个工具,它能做的是帮助我们提升分享内容的效率,或者是提升内容本身的丰富度。我们完全可以用 AI 的工具帮助我们把流媒体这个空间打开的更大一些。因为技术本身是没有边界的,我们做流媒体的人跨界去学点 AI 的东西,完全没有任何问题。

大模型会释放出很多机会,一些偏机械化的开发工作可能不需要人去做,并且整个行业还在持续聚集。马太效应还在一直往前走,就像刚才说的,可能最早做直播的有上百家上千家,但现在会相对更精专化。未来如果持续集中的话,这些底层的技术资源也会相应的集中。

LiveVideoSatck:单个人创造的价值可能会更大。

王悦:是的。

LiveVideoSatck:抛开这种内部的优化升级,你觉得未来新的增量机会在哪?

王悦:虽然整体上大家觉得可能该挖掘的都被挖掘了,但我们还是要保持乐观。10年前甚至20年前,我们第一次用VCD的时候,我们是想象不到会有今天这样一个场景的。目前行业确实比较饱和,大家看不到新的增量空间。但市场是为未来买单的,说不定未来我们还是能挖掘到一些新的场景,能够让我们获取信息或者分享模式上有一些变革。可能我给不出一些明确的答案,但是一定不排除市场上有一些新的创业公司,或者一些新的突发事件能够带给这个行业一些新的变革。

LiveVideoStack:这次11月24-25日的LiveVideoStack Con 大会上,火山引擎会重点分享抖音的体验优化,给我们介绍一下其中的方法吧。

:之前关于体验优化关于这方面已经分享了很多,简单归纳的话,首先明确数据指标,找到指北针,关键的业务目标是什么,要优化的QoE和QoS指标什么,这些指标之间有怎样的量化和內联关系;然后,要让数据体系正向运转起来,需要一套完善、稳定的工程系统和数据工具,如AB test、智能分析工具等;最后,这套优化体系的原动力,还是来自于一系列的算法和策略,如何提升画质、降低延时和卡顿,这就主要依靠技术同学的技术能力和洞察力了。


c89d392fbbd440727c23005978d74f84.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1249810.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网安融合新进展:Check Point+七云网络联合研发,加固大型企业边缘、分支侧安全

AI 爆火、万物互联,底层需要更灵活的网络设施提供支撑。据国际分析机构 Gartner 预测,到 2024 年,SD-WAN(软件定义的广域网)使用率将达到 60%。不过边缘和终端兴起,未经过数据中心的流量也在成为新的安全风…

超声波雪深传感器冬季里的科技魔法

在冬季的某个清晨,当你打开大门,被厚厚的积雪覆盖的大地映入眼帘,你是否曾想过,这片雪地的深度是多少?它又如何影响着我们的生活和环境?今天,我们将为你揭开这个谜团,介绍一款神秘的…

【三极管锯齿波电路】2022-3-23

缘由以晶体管作恒流源的锯齿波电路工作原理? - 24小时必答区

Arduino库之 LedControl 库说明文档

LedControl 库最初是为基于 8 位 AVR 处理器的 Arduino 板编写的。用于通过MAX7219芯片控制LED矩阵和7段数码管。但由于该代码不使用处理器的任何复杂的内部功能,因此具有高度可移植性,并且应该在任何支持 和 功能的 Arduino(类似&#xff09…

nginx知识梳理及配置详解

软件开发全文档获取:点我获取 nginx安装 #nginx安装 yum -y install gcc pcre-devel openssl-devel #依赖包 useradd -s /sbin/nologin nginx ./configure --prefix/usr/local/nginx #指定安装目录 --usernginx #指定用户 --with-http_ss…

城市NOA加速落地,景联文科技高质量数据标注助力感知系统升级

当前,自动驾驶技术的演进正在经历着从基础L2到L3过渡的重要阶段,其中NOA(自动辅助导航驾驶)扮演着至关重要的角色。城市NOA(L2.9)作为城市场景下的NOA,被看作是车企向更高阶自动驾驶迈进的必经之…

常见树种(贵州省):015榧树、秋枫、滇合欢、锥栗、红豆树、刺槐、余甘子、黑荆、槐树、黄檀

摘要:本专栏树种介绍图片来源于PPBC中国植物图像库(下附网址),本文整理仅做交流学习使用,同时便于查找,如有侵权请联系删除。 图片网址:PPBC中国植物图像库——最大的植物分类图片库 一、榧树 …

echart 柱状图在背景颜色后面显示label统计数据

整体思路是:展示背景颜色,统计需要展示的数据,新增一条y或x轴用来展示,放入对应的y或x轴中 series中设置背景颜色展示和背景颜色 series: [{ showBackground: true, backgroundStyle: { color: "rgba(98, 25…

2023人形机器人行业海外科技研究:从谷歌看机器人大模型进展

今天分享的是人形机器人系列深度研究报告:《2023人形机器人行业海外科技研究:从谷歌看机器人大模型进展》。 (报告出品方:华鑫证券) 报告共计:26页 大模型是人形机器人的必备要素 长期来看,人…

【第一部也是唯一一部】3DMAX脚本语言MAXScript 中文帮助

3DMAX我们很多3D设计师和艺术家都在使用这款功能强大的三维软件,但是再强大的工具也不可能包罗万象,无所不能,所以,通常官方努力在功能和性能平衡之间的同时,也提供第三方扩展软件功能的可能—插件开发。 3DMAX插件开发…

YOLOV7主干改进,使用fasternet轻量化改进主干(完整教程)

1,Pconv(来自Fasternet)(可作为模型中的基础卷积模块使用) 论文链接:https://arxiv.org/abs/2303.03667 2,为了大家方便的使用,这里我对原本的PConv的代码做了部分的改动&#xff0…

从0开始学习JavaScript--JavaScript数据类型与数据结构

JavaScript作为一门动态、弱类型的脚本语言,拥有丰富的数据类型和数据结构,这些构建了语言的基础,为开发者提供了灵活性和表达力。本文将深入探讨JavaScript中的各种数据类型,包括基本数据类型和复杂数据类型,并介绍常…

Redis-缓存高可用集群

Redis集群方案比较 哨兵模式 性能和高可用性等各方面表现一般,特别是在主从切换的瞬间存在访问瞬断的情况。另外哨兵模式只有一个主节点对外提供服务,没法支持很高的并发,且单个主节点内存也不宜设置得过大,否则会导致持久化文件过…

武汉数字孪生赋能工业制造,加速推进制造业数字化转型

随着数字孪生技术的不断推进,互联网、物联网、智能传感技术开始应用到数控机床的远程服务,状态监控,故障诊断,维护管理等方面。武汉数字孪生是在虚拟空间中创建物理对象的高保真虚拟模型,以模拟其在现实世界中的行为提…

linux 内存回收mglru算法代码注释2

mglru与原lru算法的兼容 旧的lru算法有active与inactive两代lru,可参考linux 内存回收代码注释(未实现多代lru版本)-CSDN博客 新的算法在引入4代lru的同时,还引入了tier的概念。 新旧算法的切换的实现在lru_gen_change_state&a…

远程网络监控(RMON)

远程网络监控是一个使 IT 团队能够获得远程网络可见性的过程,它涉及主动监控网络以帮助网络无缝运行,这些监控远程网络的系统提供对性能的实时洞察,及时检测问题并在影响最终用户之前解决问题。这样,远程网络虽然相距遥远&#xf…

开源与闭源

我的观点: 开源与闭源软件都有各自的优势和劣势,没有绝对的对错之分。.. 一、开源和闭源的优劣势比较 开源的好处与劣处 优势: 创新与合作:开源软件能够吸引更多的开发者参与到项目中来,促进创新和合作。开放的源代码…

昇腾Atlas 200I DK A2实现安全帽识别

文章目录 环境依赖编译测试总结 环境依赖 软件版本说明获取方式mxVision5.0.RC2mxVision软件包获取方式Ascend-CANN-toolkit6.2.RC2Ascend-cann-toolkit开发套件包获取方式Ubuntu22.04 代码仓库地址: https://gitee.com/ascend/ascend_community_projects/tree/31…

使用 Lhotse 高效管理音频数据集

Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库,它与 k2 一起,构成了下一代 Kaldi 语音处理库的一部分。 主要目标: 1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。 2. 为有经验的 Kaldi 用户提供…

【ELK02】ES的重要核心概念和索引常用操作-索引文档管理、文档搜索

一、ELASTICSEARCH核心概念 1.ES中的重要概念 1.1索引(index) 类似于关系型数据中的库-database,一个es的集群中可以有多个索引,每个索引都是一批独立的存储数据,按照一定的数据结构保存,方便查询. 1.2类型(type) 类似于关系型数据库中的表格-table,一个索引中可以有多个类…