汇聚音视频新能量 探索行业新蓝海

news2025/1/18 20:29:21

视频行业卷成红海,如何突破瓶颈,去探索行业的新蓝海,本次LiveVideoStackCon 2022北京站邀请到快手高级副总裁、研发线负责人于冰,以《汇聚音视频新能量,探索行业新蓝海》为题,从视频行业趋势和痛点出发,结合快手自身的探索、演进历程,分享技术变革和突破的思路,寻求行业新增长点。

文/于冰

编辑/LiveVideoStack

本次分享包括三部分,第一是行业困境,第二是寻求痛点即是寻求机会,第三是探索行业新蓝海。

e5cffe0c386303ed96cf69bfe4955037.jpeg

-01-

行业困境,寒冬尽头未见暖阳

在经历了蓄势、转型、爆发三个阶段后,中国短视频行业发展已进入稳定期。良好的网络设施、移动互联网爆发红利以及PGC转UGC的内容爆发带来的红利,都为音视频行业创造了巨大发展机遇。

第十届中国网络视听大会报告中指出,短视频已经成为用户打开移动手机的第一入口。从技术角度看,音视频行业规模已经迅速发展壮大,五年前从事此行业的人数还比较有限,主要以广电等传统企业提供视频相关技术为主。最近几年,这些人已经快速涌入各个互联网大厂,音视频行业已进入繁荣状态,不断扩大行业规模并提升行业产出。所以,视频化的趋势是不可逆的。

7b3ac984ecaa11300a8871ffcd9e4ccb.jpeg

但也有一些相对不利的情况,2022年手机出货量下降幅度非常大。有些厂商的下降幅度达20%,有些甚至下降了30%。这表明移动互联网的需求已经达到了饱和,抛开经济因素,主要原因是新款手机很难有变革性功能以吸引用户。

246c9ea42580f61091299a60c22ed32c.png

目前移动互联网用户和网络视频的使用率已经非常高,趋于饱和,所以增量市场已经基本没有。

e14d57022667ccfc5d76ca17b022f978.jpeg

几年前,相关数据报告中曾预测VR设备在2020年全球出货量可以达到1600万台,而2023年可以达到2700万,但实际情况是2021年的出货量只有1029万,并且在2022年持续下降。因此可以看出VR设备是否能取得预期的成功还存在较大风险。目前,游戏和社交是VR设备增长的主要原因,节日时人们会将VR设备作为礼物赠送,但距离普遍使用还有很大差距。

c15b4b01bf583d909a44438dc8c9a04b.jpeg

视频的分辨率由1080P发展到2K、4K,越来越高,可以实现的能力也越来越多。然而,问题在于现在的手机屏幕大小已接近极限,除非采用折叠屏,但相关手机销量并不高。而手机屏幕的PPI(即每英寸所拥有的像素数目)也无法让用户明显感知4K和2K之间的差异。有报道称,大多数用户无法区分4K和1080p,这也是需求饱和的风险。

89e03c2b24a408232ad5e7774c6cd0fb.jpeg

toB行业卷成红海,从事toB领域的同学们在过去几年中工作可能并不顺利。如图所示,IDC的报道显示,预计2021年版本中toB预估的增速将超过30%,但实际值仅为19%。因此,它下调了所有预估值。与上文提到的VR相似的是,达成预估值并不容易。此外,传统云厂商、互联网厂商以及运营商都希望在toB市场上分得一定份额。互联网公司凭借技术,运营商依靠资源,各自有增长和溢出的需求。因此,这种增长方式变成存量竞争,但实际上增长并没有那么快。

b107ea00adc9fba0391058aa9e7bdf1c.jpeg

就toC领域而言,2020至2022年整个行业数据表明,头部效应极为强烈。视频行业的GDP明显地聚集在巨头,而创业公司或小型APP的生存环境则不断受到挑战。由于用户更加倾向于使用头部APP,小型APP仅能在有限的用户群体中提高盈利效率,实现自负盈亏。

03e312aab6cf8fee3192d214313ea62c.jpeg

-02-

寻找机会,从行业痛点出发

目前,短视频行业存在三方面机会。视频本身属于重工业。以快手为例,主要致力于两件事情:持续降本并兼顾提升化用户体验。在成本和体验之间存在着方法论。为什么降低成本对快手如此重要?快手需要的计算机资源体量庞大,存储EB级,带宽上百TB,AI算力近1010T FLOPs。AI技术已经越来越多地应用于视频质量评价、增强及压缩。在如此巨大的规模下,每年团队都会被要求成本进一步压缩10%甚至更多。

优化的策略主要在清晰流畅与降低成本之间寻求平衡,这二者是相互矛盾的,因而必须做出取舍。为了实现这样的平衡,可以通过QoS、QoE、大数据、各种AB实验,并对用户进行细分,以达到优化目标。例如,我们会根据用户的爱好、收入水平、所在地域等因素,分析用户对视频需求。此外,我们还发现用户对不同垂类视频的需求也有所区别,对摄影类视频而言,用户更看重清晰度,而对剧情剪辑类视频则不然。

在平衡清晰度和成本之间,有基于ROI的策略可以采取,利用计算资源置换带宽或存储。在视频的不同生命周期,也会有不同的取舍,最终会找到ROI最优点。

ccb0af3fcfc0004e6ef6fcf7a968e35f.jpeg

因此如何进行科学的设定是一个困难的问题,这背后需要一把尺子,而目前行业缺乏好的标准。

另一个机会点在toB服务。近年来,越来越多的互联网公司加入视频行业并积极拥抱视频大趋势。尽管整个行业呈现视频化转型,但我们发现目前一些企业的视频化程度还比较低。由于视频内容的复杂度不同,对应的码率也千差万别,因此如何进行科学的设定是一个复杂的问题,这背后需要一些度量标准。目前,整个行业缺乏可操作的标准,因此我们需要进一步探索。

eb2eb005962c71fe5c9d84e8494fc5c2.jpeg

目前,优质内容的制作效率相对较低,例如制作一部动画往往需要三五年甚至十年,这是由于从创意构思、分镜规划、原画绘制、场景设计、音乐制作到后期制作等,形成了一条非常重的产业链。AIGC技术有可能实现内容大爆发,但这可能并不具备实质价值,因为内容已经呈现过剩趋势,过量生产的作品可能并不能得到用户的关注。然而优质的影视剧仍高度受到用户喜爱,如热剧《狂飙》。这其中最基本的矛盾点在于优质内容的供应依然稀缺,用户反馈视频刷腻了也可间接反映出供给过剩的问题。未来几年,更应该加大对高质量内容的生产投入。

86240dd58bbc0cd25c92e574e9aea311.jpeg

-03-

蓝海显现,激发行业增长点

在蓝海探索的方向上,首先,国内要继续进行基础技术的突破,尤其在音视频方面追求极致。其次,在海外市场,中国工程师研发出的技术具备很高的竞争力。最后,随着AI技术的突破,我们可以抓住技术创新机遇,打造全新的产品和体验,将原有技术提升十倍以上。

564d19f3d07f779c09490de3ebc71622.jpeg

近期,我们重点投入快手视频质量评估(Kuaishou Visual Quality, KVQ)相关工作,这部分很好地体现了快手做视频压缩增强的方法论。在提到音视频时,大家都会非常关注编解码,因为它和体验及成本关系密切。视频的流畅度和清晰度都与成本相关,为了获得更流畅的视频体验,需要进行视频压缩;为了在相同的码率下获得更清晰的视频,就需要采用AI增强的方法。

下图中的闭环部分指的是视频上传后,先进行增强修复,从1080p变成4K,再进行压缩。每进行一次增强,效果相当于提升20%码率,如提升30%,基本就是一代编解码的标准。此外,压缩使用的是私有编解码算法KVC,可以将视频压缩到比HEVC小20-30%。在整个过程中,质量的变化采用KVQ进行监督,从而以衡量端到端的损失。

da19bdb04c34325ae4a5d66ef4008c69.jpeg

快手所采用的是基于transformer模型的数据集,数量达到了千万级,与传统算法的千级数据集在性能上有很大的提升。CVPR2023会议收录了快手音视频论文,在PGC数据集上,我们相较于SOTA的主观相关度提升了5.7%,在UGC数据集上提升了28.7%。传统的SOTA算法主要数据集都集中在PGC内容中。

除此之外,KVQ还可以在哪些应用场景中发挥作用呢?上文提到,简单设置视频码率需要找到RD曲线,进而找到性价比最高的码率点。RD曲线越准确,选择的码率点也就越精准。此外,KVQ还可以衡量增强的收益,KVQ0.1大概相当于20%的码率。可媲美人眼,甚至在和GoldenEye PK时已经超过了他。KVQ已经在快手实现大规模应用落地,从视频推流、直播推流到最终消费策略,能够看到整体视频质量的变化。

428abfdc63b38bf36e5033a567d12949.jpeg

下一个技术突破是PCDN。随着CDN架构的成熟,大家逐渐认识到CDN距离用户越近越好。传统CDN在全网服务器的节点数是数十万起,而整个PCDN会有千万级的节点数。目前PCDN所面临的主要挑战是,由于这些节点和资源的稳定性和带宽质量比原本的骨干网络要差很多,因此需要采用类似Google的方式,把较差的服务器集中在一起做成稳定的集群技术。结合快手端的技术,通过传输和调度,在实现AB实验和QoE指标不掉的前提下,做到大规模扩量。

fd77f8f4bdf18c49d9e6ea4898498fc0.jpeg

目前,快手PCDN占量非常大,因此带宽使用成本大幅降低,让音视频重工业变得更便宜,接近轻工业。有人说,做AI的大模型创业投入非常大,但实际上,做视频的投入会更大,因为视频上传后,带宽的量级通常会达到十亿甚至几十亿级别。我们正在着手将快手的传输协议做成开放标准,快手上传协议为KTP,直播拉流协议为KLP,多码率自适应直播协议为LAS,点播协议为AAS,这些都是领先行业最早提出的标准。现在,我们将这些协议汇总并统称为CMTP,希望能够将其打造为国际标准。未来几年,我们将相关算法整合进大型算法框架中,以解决在推流传输拉流的消费问题。

c1537d8952fc2c801056193d996c159a.jpeg

快手正在重点参与ECM标准的制定,目前数据显示ECM比VVC小30%。

e3445f3dda887824d3ed1f1078d4f401.jpeg

在2022年StreamLake品牌发布会上,我们正式发布SL200芯片,并且今年CCBN展会上也将推出硬件编码器产品。SL200芯片是目前行业中压缩率最高的视频芯片,预计今年进行大规模上线,在视频的直播和短视频场景下带来极致的效率提升。

68b268444b27c0b4ba4cea8439fb61f9.jpeg

除了技术上的突破,我们希望在行业中进行更多开放合作。快手每年在音视频研发工作上投入非常大。而行业内许多中小厂商因为视频渠道和规模不够庞大,在技术投入和深度上较少,但在客户资源生态方面具有很大优势。我们期望更多企业可以与快手技术展开合作,形成优势互补,大家一起将蛋糕做得更大。

333c43a7e302b8bec7ed8641687c7d02.jpeg

关于海外,这里和大家分享一个故事。我的朋友从事数据库相关工作,他说,在为国外客户提供服务时,中国工程师有一个突出的特点——修复bug的速度非常快。在国外,工程师通常按月计算修bug的时间,而中国工程师则按天甚至按小时计算,这也成为了国外客户选择购买中国产品的一个原因。

据下图表数据显示,中国人口从2022年开始不再增长,而世界人口却持续增长。此外,虽然在中国手机出货量大幅下降,但在全球范围内却没有出现下滑。这表明国外市场的发展可能和国内几年前的水平相当。

17ee853f8966b50b6cff4643aababde4.jpeg

bc2891f1b5a8412ea121e062907c7081.jpeg

巴西和印尼网络的发展情况,这是国内几年前的水平。

2948363da2e1703d946908917b6c3d3f.jpeg

综上,我们许多先进的技术可以很好地在海外得到应用。目前,海外处于移动互联网增长的中段,我们可以将国内在短视频领域先进的技术复制到海外市场,让国外享受到我们的技术红利,赋能全球,为海外用户带来更好的服务和体验。

在本次分享中,所有的图片以及背景图都是由AI绘制的。如果采用人工手绘,则可能需要几倍的时间。

0472e2c891144cb109f1447b98be4952.jpeg

日常拍摄一组照片所需的成本包括模特、化妆师、灯光、服装、外景、摄影和后期制作。而现在,通过AI,只需花费几分钟,就能获得一组照片。除了照片,AI还可以合成视频。

52b1d962a0afe0e95028b6f611cb4897.jpeg

62c943b3f38293bc9d753bbf4f247bca.jpeg

装修方面的应用:输入毛坯照片即可获得装修方案

Diffusion技术简单来说,是通过高斯模糊来训练视频生成的能力,可以通过大数据学习画师的技能。这是一项非常先进的技术突破。在2022年,Diffusion的进展非常迅速,从最初能够推理1000步,到现在已经可以推理十几步。它可以与编解码技术很好地结合,编解码本身是压缩和重建的过程。当压缩到极致时,只需要用高维简化的特征就可以生成视频。未来,我们可以期待手机中装载非常大的模型,只需要简单的指令即可重建所需内容。

fb803f4eb727b99dff80f5513a09dfb8.jpeg

通过提取视频的基本轮廓特征,并结合prompt技术,可以生成更加清晰的内容。未来这项技术有望将视频压缩占比相较现在小100倍。

442a216c84ee926c88a9a875c4fb962a.jpeg

55187e584e121e7499d802d22320f650.jpeg

大家都知道热门美剧《硅谷》中最具突破性的技术就是Pied Piper,如果能实现该技术,那么,未来技术的发展必将迎来更大突破。

以上是本次的分享,谢谢!


e5eedd2ff9c1340293deae15c5fed71a.jpeg

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/428011.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

类ChatGPT模型ChatGLM-b6本地部署实践

国外ChatGPT火爆持续,前一段时间百度发布“文心一言”还没有全面放开测试,这不阿里“通义千问”又悄然而至,国内大模型AI产品渐渐浮出水面。早在2022年8月份时候清华大学的对话语言模型ChatGLM-6B就发布并开源,本文简要介绍ChatGL…

flex弹性布局详细介绍

这里提供一个可以边学习边玩的flex学习网站:弹性盒青蛙 目录一、Flex布局是什么?二、属性1. justify-content 属性2. align-items属性3. flex-direction属性4. order属性5. align-self属性6. flex-wrap 属性7. flex-flow属性8. align-content属性三、综合…

测试新人必看,软件测试测试流程

不同类型的软件产品测试的方式和重点不一样,测试流程也会不一样。同样类型的软件产品,不同的公司所制定的测试流程也会不一样。虽然不同软件的详细测试步骤不同,但它们所遵循的最基本的测试流程是一样的。 1分析测试需求 2制定测试计划 3设…

Python opencv 实现图像平移及旋转

Python opencv 实现图像平移及旋转 仿射变换是一种仅在二维平面中发生的几何变形,变换之后的图像仍然可以保持直线的 “平直性” 和 “平行性”,也就是说原来的直线变换之后还是直线,平行线变换之后还是平行线。图像平移和图像旋转是常见的放…

IMX6ULL-IRQ中断之添加中断向量表

一. 中断向量表 中断向量表是存放中断向量的表。中断服务程序的入口地址或存放中断服务程序的首地址成为中断向量,因此中断向量表是一系列中断服务程序入口地址组成的表。当有中断事件发生时,处理器通过中断向量表进入相关的中断服务程序处理事件。 二.…

自动化测试(二):QTP验证点

1 、程序自带验证点 自带验证点:图形界面insert -> checkpoint Standard Checkpoint 标准验证:用于检查测试对象的属性 Text Checkpoint 文本验证:用于检查文本字符串是否在应用程序中的适当位置出现 Text Area Checkpoint文本区域验…

饮用水中的六价铬去除工艺详解

铬是人体必需的微量元素,天然水不含铬,海水中铬的平均浓度为0.05μg/L,饮用水中铬含量更低。 铬在水中主要以三价和六价形式存在,三价的铬是对人体有益的元素,而六价铬是有毒的。由于其毒性之高,已被国家列…

Smith预估器

Smith预估器主要针对存在大滞后的系统,作用延迟和反馈延迟环节的控制,Smith预估器的另一篇文章,请参看下面的博客文章: 博途1200/1500PLC Smith预估器(补偿器)算法实现(FB)_RXXW_Dor的博客-CSDN博客在写这篇文章之前写过一篇"大林控制算法",大家可以参看下面这…

免费的包噪音网站分享

免费的包噪音网站分享 现代生活中,噪音扰人,影响健康和情绪。白噪音可以为人们提供放松心情、提高睡眠质量和专注力的帮助。 现在有很多免费的白噪音网站可以任意使用和分享,包括海浪声、雨声、蝉鸣声等等,非常适合在办公室、家里…

windows 下安装 ffmpeg

介绍一下我的环境及开发软件版本 windows phpstudy php7.3 进入安装步骤 1.下载windows系统的FFMpeg 下载链接: http://ffmpeg.org/download.html ps: 这里有各种版本了 (未使用这个版本)git地址:https://github.com/BtbN/…

数据结构初阶 - 汇总

-0- 数据结构前言 什么是数据结构 什么是算法 数据结构和算法的重要性-1- 时间复杂度和空间复杂度 👉数据结构 -1- 时间复杂度和空间复杂度 | C 算法效率 时间复杂度大O的渐进表示法eg 空间复杂度 常见复杂度对比OJ 消失的数组 轮转数组-2- 顺序表 与 链表 &am…

反射之构造方法和成员变量

什么是反射 反射允许对成员变量,成员方法和构造方法的信息进行编程访问。 Class类中获取构造方法的方法 Constructor getConstructors() Constructor getDeclaredConstructors() Constructor…

[STM32F103C8T6]看门狗

看门狗: 在由单片机构成的微型计算机系统中,由于单片机的工作常常会受到来自外界电磁场的干扰,造 成程序的跑飞,而陷入死循环,程序的正常运行被打断,由单片机控制的系统无法继续工作,会 造成整个…

LeetCode 1206. 设计跳表

LeetCode 1206. 设计跳表 难度:hard\color{red}{hard}hard 题目描述 不使用任何库函数,设计一个 跳表 。 跳表 是在 O(log(n))O(log(n))O(log(n)) 时间内完成增加、删除、搜索操作的数据结构。跳表相比于树堆与红黑树,其功能与性能相当&am…

【区块链】【FISCO】WeIdentity

什么是 WeIdentity? 官方的说法:去中心化身份标识解决方案。其实说白了就是互联网上每个人都拥有自己数字身份,并且这个身份是唯一且不可篡改的。 WeIdentity要解决的问题就是用来解决数字身份验证的问题。传统互联网身份验证的方式通常用账…

将ip地址中的每一个字符串按照分隔符提取

1、算法思想 该题采用 c 中的 string 完成比较方便 对于字符串 string str1“hehehe:hahaha:xixixi:lalala” 定义 int pos 0,记录子串的初始位置 在循环语句中重复执行以下操作: (1)、定义 int ret str1.find(":",…

OpenAI-ChatGPT最新官方接口《聊天交互多轮对话》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(二)(附源码)

目录Chat completions Beta 聊天交互前言Introduction 导言Response format 提示格式Managing tokensCounting tokens for chat API calls 为聊天API调用标记计数Instructing chat models 指导聊天模型Chat vs Completions 聊天与完成FAQ 问与答其它资料下载Chat completions B…

27.Linux网络编程socket变成 tcp 高并发 线程池 udp

好,咱们开始上课了,从今天开始咱们连续讲 8 天的,网络编程这个还是在linux环境下去讲,咱们先看一下咱们这 8 天都讲什么东西,跟大家一块来梳理一下,你先有个大概的印象,这些你也不要记&#xff…

什么是以太坊

以太网是“世界的计算机”,这是以太坊平台的一种常见描述。这是什么意思呢?让我们首先从关注计算机科学的描述开始,然后对以太坊的功能和特性进行更实际的解读,并将其与比特币和其他分布式账本技术(简单起见&#xff0…

【学习笔记】unity脚本学习(三)(向量 Vector3)

目录向量复习高中向量基础【数学】向量的四则运算、点积、叉积、正交基叉乘公式叉乘运算定理向量、坐标系点积叉积Vector3 三维向量静态变量变量变量normalized 与 Normalize() 方法静态方法ClampMagnitudeCrossDistanceDotMoveTowards其他变换类似Lerp 在两个点之间进行线性插…