一文深度解读音视频行业技术发展历程

news2024/11/13 10:13:20

从1948年的香农定律,到音视频的今天。

IMMENSE、36氪|作者

北京时间2月28日凌晨,FIFA年度颁奖典礼在巴黎举行。梅西荣膺年度最佳球员,斯卡洛尼当选年度最佳男足主帅,马丁内斯荣获年度最佳男足门将!阿根廷因此成为FIFA史上首个在同一届颁奖礼上赢得三个最佳评选的国家。毫无疑问,2022卡塔尔世界杯的冠军奖杯为此次评选增添了不少份量。

回望卡塔尔世界杯赛场,观众印象最深的不仅是“诸神黄昏”的老将谢幕、球王梅西的终极加冕,还有无数次比赛结果的逆转,而这些惊天大冷门的“参与者”——VAR,视频助理裁判(Video Assistant Referee)吸引了无数人的目光。

在小组赛第一轮中,VAR将阿根廷的3个进球全部判为无效,致使阿根廷1:2败于沙特阿拉伯,爆出本次世界杯最大冷门,差点在小组赛中淘汰了本届冠军阿根廷。VAR的背后,是12台鹰眼摄像机,捕捉球员身体29个关键点,每秒50次严密追踪,并将这些音视频数据实时发送至云端进行处理

在云计算时代,随着音视频技术的飞速发展,还有更多像VAR这样的新兴应用,既改写着绿茵场上的比赛结果,也改变了我们生活的方方面面。

01 从黑白小电视到超清4K直播

在世界杯举办的近百年历史上,大多数人可以坐在家中,实时观看赛事直播的历史,只是近几十年的事情。

由于摄影摄像、音视频编解码、信号传输等种种技术限制,一直到1954年的瑞士世界杯,人类才在历史上第一次通过电视观看世界杯比赛。在此之前,观众只能通过报纸、广播、甚至口口相传才能得知赛事结果。

央视第一次转播世界杯则是1978年的阿根廷世界杯。然而很少有人知道,彼时,还叫做“北京电视台”的央视,是由足球评论员宋世雄在香港的一间小酒店房间里完成了78年阿根廷世界杯的半决赛和总决赛赛事转播。

几十个球迷围着一台9寸黑白电视,如饥似渴地期待着进球结果,成了那个时代最具特色的一道风景。

那个时候,电视还是个稀缺物件,球迷们被迫盯着屏幕上模糊得连球员五官都看不清楚的超低分辨率画面,忍受着断断续续、时常“雪花”的信号传输。

几十年的人们大概很难想象,2023年的今天,通过云技术处理的比赛转播已经高达8K、60帧,延时缩短至1秒,运动员们纤毫毕现的赛事画面成为了日常,网络传输与边缘云技术的发展,更是让全球亿万观众能够轻松地通过电脑、手机、平板等多种设备流畅无阻地观看赛事。

也许更难想象的是,今天,云端处理的AI语音成为了赛事的播报员、视频技术让VAR成为了赛事结果的改判者,曾经只存在于科幻小说里的“VR看球”更是走进了现实。

正是云计算技术的持续进步,让人类能够不断突破音视频技术的边界,创造出更多超越想象力的全新体验。

02 「4.56亿」背后的技术奇迹

除了世界杯赛场上的种种应用外,各类音视频技术的创新应用,也正改变着我们生活的方方面面。

首先,直播、短视频毫无疑问已经成为了当代生活的重要组成部分。

根据中国互联网络信息中心数据,截至2022年6月,我国网民规模为10.51亿,其中短视频用户规模已经达到了9.62亿,占网民整体的91.5%。

而根据《中国网络表演(直播)行业发展报告(2021-2022)》数据,截至2021年12月,我国网络表演(直播)行业主播账号累计达到近1.4亿个,行业市场规模达1844.42亿元。

十年之前,仅用一台手机就能面向成百上千、甚至上亿人次的流畅无卡顿直播,简直是天方夜谭。当时,视频压缩、编解码、网络传输等诸多技术都严重限制了网络直播的发展,人们大多数还是从电视频道上观看各种大型直播,拥有昂贵设备与卫星转播系统的电视台成为了唯一能够驾驭“亿”这种量级的平台机构。

然而,十年之后的今天,在云、网、边、端技术的共同发展之下,直播从大屏走向小屏,2022年天猫双11预售首日,李佳琦一场直播的观看量就达到了惊人的4.56亿人次,同时接入观看的节点数高达千万级以上。

一方面,如此惊人的高并发流量对网络造成了巨大的压力。如何保证画面清晰、流畅、不卡顿成为了工程师们的最大挑战之一。在直播兴起初期,“卡的宝子退出来重进一下”几乎成了各大平台主播的日常用语。

另一方面,跟传统直播技术的单向传播不同,直播电商对实时互动更高,几秒钟的延时损害的不仅仅是用户体验,还会直接影响交易达成——这可是商家的命脉。

为了降低电商直播端到端的延时,并在超高并发情况下依旧可靠,阿里云与淘宝技术共同攻坚,将传统的CDN内容分发网络进行改造,打造了一张全球实时传输网GRTN(Global Real-Time Transport Network)。而基于这张网的超低延时直播技术RTS(Real-Time Streaming)更是让淘宝直播能够做到千万级大规模并发下,将延时控制在1s以内,做到真正意义上的低延时和沉浸式互动

淘宝直播的技术升级既是一个新时代的典型应用,又是音视频行业技术发展的一个缩影。

回望过去十年间,我们可以看到音视频行业发展的三大趋势:

1)超感体验

毫无疑问,人类对感受与体验的不断追求,正是驱动音视频行业迅猛发展的最大动力。

视觉方面,更快、更清晰、更细腻、更多彩、更流畅的观影体验始终是音视频大厦的根基。产业历经十年从1080P、走到4K、再走到了8K画质,传输数据量越来越大,每一代编码的升级复杂度以百倍计算,视频延时却由30秒急剧下降到10秒、1秒、甚至目前达到的百毫秒以内。

听觉方面,21世纪以来,音频编码技术突飞猛进,英国之宝的联合创始人Bob Stuart所开发出的MQA高格式PCM无损处理和压缩技术让网络流媒体高音频传输成为现实。杜比全景声等技术所覆盖的终端产品越来越广,手机、电脑、平板、电视、音箱、游戏主机……足以以假乱真的超感音频体验让每一个人身临其境。与此同时,DTS也推出下一代音效技术DTS:X,试图凭借这个新一代开放的沉浸式音编解码标准与基于声音对象的多维空间音频技术与老对手杜比平分秋色。

“2009年,你拿着最潮流的诺基亚手机,使用着刚刚普及的3G网络,打开DVD,与家人看一场1080P分辨率的经典大片,这就是幸福。”今天,你在地铁上打开5G手机,一场杜比全景声4K超清音视频盛宴就在眼前。

以体育赛事为例,曾几何时,观众梦想着像“上帝视角”一样对运动员多方位、多角度、自由观看

北京冬奥期间,阿里云与优酷联合,通过在体育场馆内环绕部署多台摄像机,将现场采集的多路视频内容编排整合后回传至中心云或边缘节点,通过中心云或边缘节点部署的算力,将视频流做3D渲染重建,再将渲染后的视频流实时传送给观众。此时,观众就可以像操控游戏角色一样,立体自由360度地观看运动员赛事的精彩瞬间,将直播体验发挥到极致,赋能视频行业突破原有业务边界。

2)极致成本

技术的普及从来都离不开成本的降低。许多前沿音视频技术之所以鲜为人知,不是因为没有发明出来,而是因为它真的——太贵了。

举个例子,2018年,央视宣布开始投建三阶段4K推进计划,其项目总投资85.5亿元,建成后每年运行维护及节目传输投入10.94亿元,每年4K节目制作投入约150亿元(不含人员等经费)。商业需求驱动视频技术极致化发展,也燃动着对成本的极致化追求,而边缘云技术的发展则为这一难题提供了解法。

当前,90%的直播业务已下沉至边缘云,基于广泛覆盖的节点就近分布,边缘云将能力拓延至“最后一公里”,在降低传输与算力延时基础上,以更低的综合成本推动着用户的体验不断升级

想要在保证观看体验的前提下降低成本,一种从人眼视觉模型出发,以“主观体验最好”为目标的编码和传输方式——窄带高清可以实现两者的平衡。

原始视频的数据非常巨大,需要进行编码与压缩才能进行存储与传输。从某种程度来说,编解码技术的发展正是音视频技术的发展。传统云端转码是在用户端形成一个原始视频,经过编码之后以视频流的形式传到服务端,在服务端解码之后做转码,然后再编码通过CDN分发出去。

而窄带高清技术的“窄带”是指让视频经过窄带高清转码之后,对带宽的需求变得更小。同时,“高清”是指经过转码后的画质仍然能够保持高清、丰富的视觉体验。

此外,在算力方面,视频编码与视频处理均为计算密集型场景,如何解决视频云赛道的算力困局,让高压缩率的视频编码算法更加普惠?

更强大、更高效、更多样的云端音视频处理能力离不开底层算力的支持,近年来,云计算厂商纷纷开启了多样的技术架构升级。首先,是依托老牌厂商,不断进行硬件升级。

例如英特尔Data Center GPU Flex解决方案,内置了开源 AV1 编解码器, 显著提高了压缩效率,与AVC 和HEVC相比使带宽增加30%以上,有助于大幅降低总拥有成本, 在不影响视频质量的情况下增加了云服务器支持的视频流密度。

另外一条,即是自研。作为国内云计算产业的领头玩家,阿里云也在2021年的云栖大会上推出了首款自研云原生处理器CPU——倚天710,该芯片针对云场景研发,同时兼顾了性能与易用性

经过一年的业务验证后,基于倚天710的云计算实例在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升30%以上,单位算力功耗(耗电量)降低了60%以上。

3)虚实融合

如果说更清晰、流畅、低成本是音视频行业在过去半个世纪以来永不停歇的不懈追求,那么在最近十年间,一项最具时代特色的音视频体验则非虚实融合莫属。

无论是《雪崩》中的元宇宙社区,还是《头号玩家》中的“绿洲”,人类对于打破虚拟与现实界限的超次元体验始终怀有梦一般的向往。

过去,这种向往只能在科幻作品中实现,然而这十年间,SLAM技术的高速发展让机器能够迅速定位人体位置,光学与现实技术的突飞猛进让更轻、更薄、更逼真的VR/AR头显成为现实,Pancake光学方案、双眼4K屏、90Hz超高刷新率等曾经难以企及的技术更是成为了虚拟现实的标配。

在音视频超感体验的不断发展与边缘云、视频云技术的不断降本增效之下,3D网络购物成为了现实;《黑客帝国》中惊心动魄的“子弹时间”如今可以在云端实时合成;《钢铁侠》中的万能AI管家贾维斯有了自然语言处理能力,我们甚至能够为他配上一张有着细腻喜怒哀乐表情的逼真面庞。

冬奥期间,在演播室里,当谷爱凌在自由式滑雪女子大跳台的决赛中一举夺冠时,AI剪辑系统实时提供谷爱凌精彩动作视频集锦并第一时间成片后,这一视频迅速登上央视频首页推荐焦点位,两小时内播放量超过500万。

除了冬奥赛场上,音视频技术的发展也正不断突破我们日常生活中的体验。VR看球、工业孪生建模、3D全息购物……更多交互维度的虚实融合拓宽着人类感知的边界,引领着一个更有想象力的未来。

而音视频行业之所以能够不断向前发展,衍生出360度自由视角观看、AI剪辑、VR看球等诸多超越想象力的精彩应用,正是由于技术与产业的共同进步。

03 从克劳德·香农到Imagine Computing大赛

1948年,近代最伟大的数学家之一、信息论的创始人、美国天才电子工程师克劳德·香农,以一篇震惊世界的《A Mathematical Theory of Communication》论文,正式拉开了当代信息论的大幕。

此后的几十年间,由信息论衍生出的信道编码、图像/视频压缩、甚至人工智能技术,成为了推动音视频产业进步、甚至大量计算机科学产业突破的底层动力。

是的,任何产业技术领域的突破进展,都离不开产、学、研多方面的共同努力。近年间,人工智能领域最有名的学术大赛当属ImageNet计算机识别挑战赛。在2012年的ImageNet大赛上,日后的“深度学习三巨头”之一、多伦多大学的Geoffrey Hinton教授带领团队首次使用深度学习技术训练人工智能进行图像识别,错误率骤降至15.3%。

而在2015年的ImageNet大赛上,来自微软亚洲研究院的团队更是第一次将错误率压到了3.57%——这意味着,人工智能第一次在图像识别上,超越了人类。这一成果,成为了音视频学科历史上的又一个里程碑式事件。

前沿技术的探索需要学界和产业的共同探索,音视频技术涵盖了编解码、网络调度、人工智能、云端协同等多个技术领域,覆盖面广、技术体系复杂,面对飞速发展的业务需求,往往技术人才的储备和创新实践却显得不足。

去年,阿里云与英特尔联合主办的Imagine Computing创新技术天池大赛以“新算力·新体验”为主题,聚焦音视频与云技术结合的关键领域技术创新。

“新算力”与“新体验”分别指代的是音视频行业发展的两大重要技术基础,也是本次大赛两大赛道的比拼主线。

首先是“新体验”。

体验始终是驱动音视频技术发展的根基。无论是更先进的音视频编码技术让画面更清晰流畅,还是更强大的网络分发技术让用户观看得更低延时、更实时互动,其本质上都是工程师们对于更好、更快的音视频体验的不懈追求。

随着企业数字进程的加速,云上视频算力也从中心逐步延展到网络边缘从而形成新型的边缘基础设施。算力和网络在边缘侧加速融合,而视频应用是否流畅、高清、低延时等这些直观感受已成为用户最为关心的,如何基于边缘云构建实时音视频处理的应用,有效降低计算时延和成本,提升最终用户体验,成为了本次比赛关注的赛道之一。

其次是“新算力”。

众所周知,近半个世纪以来,电子信息科学的进步与芯片算力、云计算架构的发展息息相关。

当前,继公有云、私有云、混合云的不断发展之后,企业对云计算的使用需求愈加多样化,推动云计算服务不断向边缘延伸、下沉,向更加全局化的分布式模式进发,并逐渐形成了涵盖中心云、区域云、边缘云的分布式云形态

其中,由于边缘云可以提供靠近终端用户的、全域覆盖的、弹性分布式算力资源,通过将视频存储和分发、AI计算、智能化数据分析等工作放在边缘处理,构建实时音视频处理,达到降低响应时延、减轻云端压力、降低带宽成本,并供全网调度、算力分发等云服务的目的,而如何准确地预测网民侧的客户体验水平是视频内容分发网络进行节点优化布局、调整流量调度策略、节点软件优化的基础和指南针。基于此,边缘云内容分发网络客户体验预测算法的探索变得至关重要。

此外,如上文所言,音视频的创新和突破不仅需要从云服务层面入手,也需要底层算力的硬件支撑。本次赛事还为参赛者提供了基于英特尔® Data Center GPU Flex 系列GPU产品的解决方案,其标准且灵活的开放软件堆栈和oneAPI、强大的AV1编码器和AI视觉推理能力,有助于减少边缘云使用不同解决方案并管理异构或专有环境的需求,助力参赛选手更好的探索性能加速与低延时命题。

04 结语

从9英寸的黑白世界杯到4亿人次观看的淘宝直播,从1948年的香农定理到2022年的Imagine Computing大赛,随着音视频技术的不断发展与突破,感知与技术的边界也正被不断拓宽,许多曾经以为天方夜谭的新奇应用,正随着人工智能算法、算力、以及网络技术的共同发展,逐步从科幻作品中走进现实。

在1966年的科幻电视剧《星际迷航》中,Kirk船长与企业号船员们常常使用“通用翻译”听懂宇宙各地的外星人语言;

在1968年的科幻电影《2001:太空漫游》中,宇宙飞船上的计算机HAL9000能够直接用AI语音与乘务员进行对话;

而在1992年的科幻小说《雪崩》中,黑客、日本武士兼披萨饼快递员Hiro Protagonist与女孩Y·T一同在元宇宙中制服了雪崩病毒。

今天,它们都成为了现实。

当人类优渥于一种状态,总有想象力来冲破平衡。Cloud Imagine《云想之力》是阿里云联合36氪共同打造的系列报道,旨在探索云计算大背景下爆发的应用场景和新兴技术,以想象的高维碰撞之力,窥探“云”上的无限空间。从9英寸的黑白世界杯到4.56亿人的直播狂欢,从1948年的香农定理到2022年的lmagine Computing的天池大赛,一个超越想象力的崭新纪元,就在眼前。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/378138.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自动售卖机的类型和工作流程分析

线上经济的崛起提高了人们的生活品质,促进了我国市场经济的发展。随着互联网的快速发展,线上经济资源已经饱和,线上和线下资源整合已经成为市场经济发展的方向,而自动售卖机正是线上和线下经济发展的连接纽带。 自动售卖机作为无人…

3.查找算法:顺序查找和二分查找

查找查找,是指在一些数据元素中,通过一定的方法找出与给定关键字相同的数据元素的过程。列表查找(线性表查找):从列表中查找指定元素输入:列表,待查找元素输出:元素下标(…

多线程 随便起的

进程:进程可以看成程序执行的一个实例。进程是系统资源分配的独立实体,每个进程都拥有独立的地址空间。一个进程无法访问另一个进程的变量和数据结构如果想让-一个进程访问另一个进程的资源,需要使用进程间通信,比如管道&#xff…

LAMP项目部署实战1

一、说明: LAMP:Linux Apache MySQL PHP Apache: Apache是世界使用排名第一的Web服务器软件。主要用于接收用户的请求,处理业务逻辑,返回结果给客户端(浏览器)。 PHP:一种专门…

SQL 层功能改进 - lookupJoin 的优化

一、传统 join 算法lookupJoin 是 join 查询的一种,传统 join 算法为:1. 遍历 A 表,读取一条数据 r2. 遍历 B 表,对于每条数据,与 r 进行 join 操作3. 重复 1、2 操作,直到 A 表遍历完所有数据二、lookupJo…

在 WIndows 下安装 Apache Tinkerpop (Gremlin)

一、安装 JDK 首先安装 Java JDK,这个去官网下载即可,我下载安装的 JDK19(jdk-19_windows-x64_bin.msi),细节不赘述。 二、去 Tinkerpop 网站下载 Gremlin 网址:https://tinkerpop.apache.org/ 点击下面…

用cpolar发布本地的论坛网站 1

网页论坛向来是个很神奇的地方,曾经的天涯论坛和各种BBS,大家聚在在一起讨论某个问题,也能通过论坛发布想法,各种思维碰撞在一起,发生很多有趣的故事,也产生了很多流传一时的流行语录。当然,如果…

推荐5款免费无广告的精品软件

检查一下你最近安装的软件,他们是不是都一样无法避免最终被你打入冷宫的命运?我们明明很懂“在精不在多”的道理,却依然让我们的电脑塞满了形形色色无用的软件。你需要知道的是,如何找到一款适合自己且真正实用的电脑软件。 1.多…

元宇宙营业厅,数字技术融合,赋能实体经济

在我国数字经济与虚拟服务市场规模扩大下,元宇宙营业厅强势来袭,从多场景、多内容,深耕高效协同的特色功能,基于多元化、灵活的交互体验,更大程度上解决线上业务办理抽象繁琐,线下业务办理的时空受限、业务…

4.Spring【Java面试第三季】

4.Spring【Java面试第三季】前言推荐4.Spring27_Aop的题目说明要求Spring的AOP顺序AOP常用注解面试题28_spring4下的aop测试案例业务类新建一个切面类MyAspect并为切面类新增两个注解:spring4springboot1.5.9pom测试类29_spring4下的aop测试结果aop正常顺序异常顺序…

求极限方法总结

1.利用四则运算法则求极限 2.利用两个重要极限求极限 //0除以0型 //1的无穷次方型 3.利用等价无穷小替换替换求极限 //在等价替换时注意和差项 4.利用洛必达法则求极限 5.利用夹逼准则求极限 6.利用单调有界数列极限准则求极限 7.利用无穷小的性质求极限 8.利用函数的连续性…

来面试阿里测开工程师,HR问我未来3-5年规划,我给HR画个大饼。

在面试的过程中是不是经常被面试官问未来几年的职业规划?你会答吗?是不是经常脑袋里一片空白,未来规划?我只是想赚更多的钱啊,哈哈哈,今天我来教大家,如何给面试官画一个大饼,让他吃的不亦乐乎…

MySQL高级第二讲

目录 二、MySQL高级02 2.1 触发器 2.1.1 触发器介绍 2.1.2 创建触发器 2.2 MySQL的体系结构 2.3 存储引擎 2.3.1 存储引擎概述 2.3.2 各种存储引擎特性 2.3.3 InnoDB 2.3.4 MyISAM 2.3.5 MEMORY 2.3.6 MERGE 2.3.7 存储引擎的选择 2.4 优化sql 2.4.1 查看sql执行…

二分查找重复情况 找最左边或最右边的位置下标

目录二分找最左边二分找最右边综合应用(剑指offer)二分找最左边 核心思想: 先mid (lr)/2每次向左取整; 然后命中target的时候,右边界逼近到mid; 因为每次mid向左取整,mid命中target时l代替mid位置,则循环迭代最后会卡出重复数字最左侧的位置…

糖化学试剂55520-67-7,5-vinyl-2-deoxyuridine,5-乙烯基-2-脱氧尿苷特点分析说明

5-vinyl-2-deoxyuridine(5-VdU),5-vinyl-2-deoxyuridine,5-Vinyldeoxyuridine5-乙烯基-2-脱氧尿苷 | CAS:55520-67-7 | 纯度:95%试剂信息:CAS:55520-67-7所属类别:糖化学分子量:C11H…

信息系统基本知识(一)

1.1 信息系统与信息化 信息论已发展成为一个内涵非常丰富的学科,与控制论和系统论并称为现代科学的“三论” 1.1.1 信息的基本概念 香农指出:信息是能够用来消除不确定性的东西。信息量的单位:比特 信息的特征 客观性:信息是…

四信塔式起重机监控系统应用方案

方案背景 塔式起重机是当前工业建设进行起重运输作业的重要设备,其设备性能、参数、技术指标的可靠性都关系起重机设备的危险,塔式起重机安全事故关系国计民生、危害面广,给国家财产和生命安全带来严重损失。 目前众多塔式起重机司机虽然有上…

界面开发(1) --- PyQt5环境配置

PyQt5环境配置 第一步:首先安装社区版Pycharm 下载地址:https://www.jetbrains.com/pycharm/download/#sectionwindows 第二步:安装Anaconda3,配置虚拟环境 下载地址:https://www.anaconda.com/ 第三步&#xff1…

win10安装docker

1.win10安装docker,前提必须是要安装WSL2。 现在Docker Desktop默认使用WSL 2来运行,而不是以前的Hyper-V。 WSL2 全称是Windows Subsystem on Linux。意思是,在win10,可以直接启动一个Linux。因为docker依赖Linux内核。 可查看…

洛谷 U91193:棋盘覆盖问题 ← 分治法

【题目来源】https://www.luogu.com.cn/problem/U91193【问题描述】 在一个2^k * 2^k(k≥0)个方格组成的棋盘中,恰有一个方格与其他方格不同,称该方格为一特殊方格。现在用4种不同形状的 L型(占3小格)骨牌覆…