建设元宇宙基础设施——PPIO边缘云在云渲染/云游戏的思考和实践

news2025/1/15 6:33:53

关于“元宇宙”的讨论越发火热,而建设元宇宙不可避免需要布设基础设施,LiveVideoStackCon 2022 北京站邀请到PPIO边缘云联合创始人——王闻宇,同大家探讨元宇宙网络时延的最优解–边缘云基础设施的架构与建设,并介绍PPIO边缘云在泛云游戏领域的一些思考和实践。

文/王闻宇

编辑/LiveVideoStack

6202872af9f5bde137ff78fa2f42a702.png

“元宇宙“源于1992年出版的美国著名科幻小说——《雪崩》(Snow Crash)。

在他的描绘中,所有现实世界中的人在元宇宙中都有一个“网络分身”。数字世界主干道灯火通明,可容纳数百万人的“网络分身”在街上往来穿行。

包括后来的《黑客帝国》《头号玩家》《赛博朋克2077》等所有元宇宙作品,都描述的是在视网膜级视觉体验中,也就是人的视觉完全沉侵在虚拟的计算机世界中。

d5a8e75d5b107cce8567bece6d45796e.png

2014年,Facebook以23亿美元收购了Oculus,并在VR业务上持续投入了大量研发费用。Facebook和Ray-Ban公司研发轻便型AR眼睛——Ray-Ban Stories,并且研发Project Nazare从而实现MR眼镜。

Facebook提炼出了元宇宙的8个特点:

①身临其境感(Feeling of Presence)②虚拟形象(Avatar);

③家庭空间(Home Space)④远距离传输(Teleporting);

⑤互操作性(Interoperability)⑥隐私安全(Privacy and Safety);

⑦虚拟物品(Virtual Goods)⑧自然界面(Natural interfaces)。

第一要素是身临其境感,即完全把人类的视听觉包裹在沉浸世界中

5afa61861e4b7120f92fc273ae4de4d0.png

近期AIGC发展势头很足,包括ChatGPT及AI作图Midjourney等产品的诞生,都彰显着AI已经进入新的高速发展的时代。元宇宙和AI结合的终局会是怎样呢?我设想未来会有一款超级设备,首先用脑机接口从人脑中读取信息,再通过AIGC实时生成完全3D且高清的画面,通过AI设备实时回传到人的神经视觉中,从而实现“所想即所得”的状态,即想到的事情会瞬间反映为所见所听。

a8c5579f3db8046256ba18ae34231875.png

在我看来,不论科幻还是现实,元宇宙终极追求的是,类真实世界的音视频体验。我提出了“视网膜级视觉体验”,那么技术上要如何做到呢?且看下文分享。

5436a905450dee1f19eb1e7249c807cc.png

我是王闻宇,现任PPIO边缘云联合创始人、CTO。我从2004年开始做音视频,当时的网络情况较差,我在学生宿舍写出PPTV第一版,后来主导了PPTV的音视流,P2P/CDN,点播,直播,编解码等,担任PPTV首席架构师。2014年暂时地离开音视频行业,联合创办极豆车联网,服务BBA车厂。2018年与原PPTV创始人姚欣联合创办了PPIO边缘云,发展靠近用户侧的边缘节点,提供边缘的算力,传输,存储业务,主要服务音视频行业。

e38dc68f7be19658c4b7d7ada1f2849a.png

VR的视觉原理是靠双眼产出不同图像后在大脑中产生视觉差,继而大脑通过细微差距计算输出3D效果。也就是说要使人眼产生3D视觉,就必须渲染出两种不同的画面。

310a510bcae524475c215b3000b87958.png

大家可能疑惑多少分辨率才能实现视网膜级体验。图中是人眼结构,PPD是每度像素,FoV是视域/视场角。视网膜屏最初由苹果定义,假设手机屏幕距离人眼40cm,视场角为10度,覆盖640像素,推演得到300PPI,此时的人眼分辨率最精准。iPhone 14的PPI已经提升到了460,这是因为iPhone 14假设屏幕距人眼25cm。根据iPhone 4和14进行倒推,同时我浏览了大量关于人眼精度的测验报告,根据多项实验证明,视网膜分辨率大概是60PPD,即每度60像素。

0cb57e0d911cb913c51d51f649848daa.png

图中数据来自多位科学家的实验结果,既然我们已经知道了PPD是60,那么FoV又是多少?人眼是一个非常精细的器官,中心地带的视觉比较清晰,周围则较模糊。大量资料中提到窄域和宽域,窄域是人眼感知非常精确的部位,视场角大概是60度,宽域是眼球不刻意转动时单眼的视场角,大概是25度,双眼会更高。

为了达到视网膜级视觉体验,元宇宙设备需要覆盖宽域,这是因为戴在眼睛外,需要达到全方位清晰。将124度乘以60PPD,得出7740,由于人眼是球状的,所以分辨率接近7740*7740,计算得出像素在6000万左右

对比当前常见的分辨率,人眼宽域最高精度是单眼超过的8K多一些,也就是说元宇宙设备的分辨率必须达到8K,才能实现视网膜级视觉体验。

15947be8c85214434b841588ac98f5b6.png

图中是当今世界主流VR设备的参数,目前最先进的是Pimax 8K X,分辨率达到单眼3840*2160,当然其价格较贵,(不属于消费级产品,用于工业为主),距离视网膜级视觉体验要求还差3-5倍,所以可能还需5-10年才能出现一款达到要求的设备。

13af5eddaf7b584a2b142498e15f3613.png

AR设备运用了光学反射原理,其FoV难以做高。右侧是市面上所有AR设备的参数,可以推断AR设备达到视网膜级视觉体验至少还需10年。

88661ee208c95ec44742a1aa008744ed.png

另一个概念是刷新率,即达到类真实事件体验时每秒出现的画面帧数,目前没有严格的评测人眼的刷新率。电影界共识是24帧/s可以让人眼感受不到画面晃动。从现在手机/显示器的实际体验来看,60帧基本满足显示效果,120帧完美满足高速动作(一般PFS射击游戏玩家会比较在意),240帧则为发烧级。在后面的测算都采用的60帧。

cf85fa608f804704955561ff9c0d0111.png

那么60帧、8K的画面需要多少码率呢?以上是截止2020年的音视频编解码算法评测数据,其中表现较好的是AV1,即单眼68Mbps的码率。这里差不多,内容不同,会有些差些,我们暂时采纳这个数字来作为测算。

92f235a94af799a61da4dd1d48d4da62.png

449399bb3ec95b4efafc27f5396d3ce5.png

图中总结了目前消费级的能够支持8K分辨率,120Hz的渲染显卡。整体看来,无论是NVIDIA还是AMD,它们的功率基本在350w左右,重量大概为2kg,所以实时渲染8K高清画面的发热量和重量都非常高。

23153b2ca6ff7da1c9e258caa6613b3c.png

我以最新的NVIDA GeForce RTX 4090为样本进行了测算,试想无论是VR或AR设备,在终极状态下,为了实现双眼8K的算力,需要承载两张4090显卡,其发热量相当于一匹空调,重量达到5kg,再加上电磁辐射,结论是不可能在人们的头上戴这样的设备。要解决视网膜级视觉体验,唯一的办法就是引入串流方案。从云端或者局域网,通过串流方式到达VR/AR设备,此时的VR/AR设备仅仅作为渲染和反馈的终端,而非计算终端,这是未来必然的趋势。

94145cf274462c4aea0c102275077497.png

大家可能会说,芯片技术不断发展,也许几年后能够做小做轻。

右侧是iPhone芯片工艺的发展历史,从2007年的90nm到2022年的4nm,其遵循的摩尔定律即将达到极限,1nm相当于3-5个原子紧密排列的长度,若继续压缩,会出现热效应、量子效应、成本及工艺问题,这都意味着其不可能性。

be6a02c8fa89f059df41f072736b65c1.png

从事芯片相关行业的同学可能会提出SIP封装技术,但SIP封装技术只是更高密度的工程优化,并不是纳米技术的本质突破,它可以通过堆叠提高算力,但无法降低重量和发热量。

9cb236b62e34cedb1b68dee2f6403c92.png

前不久可能大家也听说了,量子计算机取得了大的突破,资料显示量子计算机的原理主要包括超导原理和离子阱原理,前者需在超低温下运行,后者在高温下运行,无论如何都无法存在于日常家庭中,即使要用也只可能放在云端机房。

综上,在能预见到的未来,要实现终极的视网膜级视觉体验,是无法摆脱音视频串流技术方案的。

3b33ef5974e7cd92d59101b9f6fe593c.png

提到串流,不得不考虑一个问题:VR设备为什么会导致眩晕?

这是由于大脑感觉“被欺骗”,包括瞳距、景深等问题,但难解决的是M2P时延问题,即运动到光子的时延,当人的头移动后,画面是否能足够低时延地反映效果,若是慢了,大脑会产生“被欺骗”的感觉,从而引发M2P时延。许多评测数据显示,低运动状态下,M2P时延不能高于20ms,高运动状态下,M2P时延不能高于7ms

50852aa8eda926b8918d617342308100.png

在当下的串流方案中,包括编码、解码和传输环节,即使做到极限,也很难达到20ms的响应值,基本在30-100ms之间。最复杂的瓶颈在网络时延环节,因为它和基础设施有关,和非常分散的网络环境部署相关,不是仅仅单方面的努力就能改善的。

143a463e6abd9aa0ac64b01595671f42.png

因此,要用边缘云的方案来解决这样的问题,也就是要将算力放在靠近用户的边缘,在这可以分布式应对高并发、大带宽、能真正地做到低时延。

7615140a346b4f120a7bb498d71de3d8.png

只有将云计算的算力从千里之外放到社区周边,才可能实现超低时延。

图中是我们进行的数据测量,在大流量高负载的传输中评估的(至少是每秒50Mb的传输),即达到城域网级别时,时延可以达到5ms及以下,再结合编解码等其他环节的时延优化,才能控制在20ms以下,达到M2P时延要求,这非常具有挑战性,也是未来需要长期坚持的事。

再推演一下,全国需要多少节点才能实现这件事呢?

城域网节点基本覆盖在县级,全国三大运营商,考虑部分人口密集的城域网要布设多个节点,边缘云差不多要覆盖1w+个节点才能覆盖所有的城域网。

d7abfdad2929f0ba67c28698a2764777.png

PPIO正通过汇聚边缘碎片化算力资源,提供超低时延的边缘计算服务。我们要和中心云形成良好的协同,边缘云并非中心云的替代品,而是起到补足的作用,从而更好地解决客户需求。

11a223210818192e8be7b394c9b9fb5d.png

在我看来,凡是需要边缘节点,利用算力进行实时渲染,通过RTC技术,流媒体方式、端通信技术,统称为“泛云游戏”,包括云游戏、云手机、数字孪生、VR/AR等,泛云游戏可以说是元宇宙的音视频初级形态。

随着未来设备的升级,其终局可能就是视网膜级视觉体验

dc075c481e229140d792cfbebae967a1.png

PPIO也正在建设未来元宇宙的基础设施,应用场景包括长短视频、互动直播、云通讯、云游戏、AR/VR。随着方案的逐步升级,时延会越来越低,这里的时延指的是触控时延

云游戏的时延只要达到50ms就能让玩家获得良好的体验,但VR/AR需要20ms的时延(M2P时延要求),其中AR要求时延更低,因为它存在和现实世界同频的问题。

PPIO边缘云在发展的同时,也在全国高速建设节点,至今已经覆盖了200+个城市,1000+个区县,达到了30T的带宽规模。

376926433b7c42e162a6664043aa9161.png

02e00b573a6621ec7dc6c7ef2a096bdf.png

PPIO服务了云游戏平台及元宇宙场景。前者包括跨端随心玩,支持在移动端、TV端随时随地玩PC端游,让玩家游戏不中断,后者包括元宇宙营销、元宇宙社交、元宇宙空间及元宇宙线上发布会。

2f9c1522d7e7c8ae1ea8214978c9cf54.png

我们也沉淀出了比较完善的云游戏IaaS实践案例,从硬件,基础服务到业务接入一系列的过程。此外还支持X86及ARM,能够在云端运行安卓程序。

14ebc93a88f11471ecb551177695f717.png

在机房部署方面,我们也有完善的云端解决方案,通过控制台引入需求,再通过接口依靠无盘系统,通过高速内网调用周围机器,及RTC转发服务,使用户形成streaming的效果。

d5c82ffdeb13ab362e2b8f36652cd907.png

图中是无盘方案的细节,既能支持游戏下载、镜像存储,还支持回写,将用户存档有区别地保留下来。

6d7b53871571d774adde42e82724edc3.png

PPIO主张高性价比、强大云能力及对游戏体验进行优化。

43d7092bde44ce5ccc9d79ed3556bba8.png

关于元宇宙未来发展趋势的思考,我设计了一个公式:音视频服务用量=使用服务的在线用户数*算力用量=设备数*联网率*平均使用渗透率*算力用量(算力用量包括码流率和渲染/AI算力)。

目前国内视频CDN约500T,70%左右集中在移动设备上,10亿移动用户每人每天上网7~8小时,其中30%时间用于视频。试想,未来实现了视网膜级视觉体验,双8K+分辨率,它所带来的整个音视频服务用量会是现在的几十倍甚至上百倍。虽然短期流量有些波动,但从3~10年是未来看,我相信各位从业者的前景都非常好。

a3fae41a7261876e4253d3eea7f01245.png

我常常会思考宇宙,人类,生命,技术之间的关系,在人类文明诞生以来的5000年中,有谁想过创造宇宙,创造数字生命的事情,而如今这种伟大的事业很有可能在我们这代人就能实现,或许在不久的将来,我们真的能够打造一个充满鲜活生命的“唯心主义世界”,甚至每个人都能“所想即所得”的创造自己的世界。

a09a5acd0b6ac4f30a844faa0986a551.png

当然,无论是创造宇宙还是数字生命,最基础的设施都是算力,需要无穷无尽的算力,所以PPIO边缘云的使命便是汇聚全球计算资源,并未全人类服务。很期待和各位从业者合作,为创造未来贡献力量。

以上是本次的分享,谢谢!


baf38213a22b10fbad1009cde0fc255e.jpeg

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/474640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Kafka Broker是如何基于Reactor模式来处理海量用户请求的?

介绍 https://kafka.apache.org/0110/documentation.html 参数名描述默认值queued.max.requestsbroker全局唯一的请求队列,用来保存请求500num.io.threads用来处理请求的线程数8 参考博客 [1]

Python环境设置

在了解Python语言的历史和介绍之后,要想开始学习Python语言,还需要在计算机中安装Python编译环境,本期就来聊聊怎么在计算机中安装Python环境。 在计算机中添加Python环境的几种选择: 直接安装Python程序,即Python官…

Spring Boot配置文件

日升时奋斗,日落时自省 目录 1、配置文件作用 2、配置文件格式 2.1、使用注意 3、properties配置文件 3.1、注释中文问题 3.2、properties语法格式 3.3、读取配置文件 3.3.1、Value读取 3.3.2、PropertySource读取 3.3.3、原生方式读取配置文件 3.4、pr…

C++-FFmpeg-1-VS2019-x264-fdk_aac-x265-pdb-QT5.14-makefile

1.环境搭建: 1.1VS2019 用的是控制台编译。 1.2.msys2 模拟linux的命令和指令。 2.源码编译与安装: 2.1.x264: ffmpeg :编码用X264 2.2x265: ffmpeg :编码用X265 c写的。msys2编译。 2.3.fdk-aac 音频编码。 2.4 ffmpeg源码4.3: 2.5.SDL2.0 视频渲…

ESP8266_RTOS_SDK之SPIFFS

需要在ESP8266的FLASH中存储一些可变参数,有两种方式,一种是调用SPI Flash API直接指定地址读写FLASH;二是在SPI FLASH上创建一块SPIFFS 分区,以读写文件的形式存取数据。 下面记录第二种方式,使用SPIFFS文件系统存取…

干货 | Elasticsearch 8.X 性能优化实战

Elasticsearch 是实现用户无缝搜索体验的关键工具。它通过提供快速、准确和相关的搜索结果,彻底改变了用户与应用程序的互动方式。然而,要确保 Elasticsearch 部署达到最佳性能,就必须关注关键指标,并对诸如索引、缓存、查询、搜索…

【计算机图形学】课堂习题汇总

在直线的光栅化算法中,如果不考虑最大位移方向则可能得到怎样的直线? A:斜率为1的线 B:总是垂直的 C:离散的点,无法构成直线 D:总是水平的 在直线的改进的Bresenham算法中,每当误…

Qt音视频开发42-网络推流(视频推流/本地摄像头推流/桌面推流/网络摄像头转发推流等)

一、前言 上次实现的文件推流,尽管优点很多,但是只能对现在存在的生成好的音视频文件推流,而现在更多的场景是需要将实时的视频流重新推流分发,用户在很多设备比如手机/平板/网页/电脑/服务器上观看,这样就可以很方便…

IP-GUARD如何通过流量控制策略限制客户端下载文件?

如何通过流量控制策略限制客户端下载文件? 可通过流量控制策略限制接收流量上限速度,实现控制客户端下载文件效果。流量控制支持网络地址和端口范围限制。 网络流量统计能否基于用户进行统计? 目前最新的客户端版本已经支持控制应用程序的网络流量,在应用层实现了控制…

专利进阶(二):专利撰写常用技术及算法汇总(持续更新中)

文章目录 一、前言二、常用技术及算法2.1 区跨链技术2.2 聚类算法2.3 边缘算法2.4 蚁群算法2.4.1 路径构建2.4.2 信息素更新 2.5 哈希算法2.5.1 常见算法 2.6 数字摘要2.72.82.92.10 三、拓展阅读 一、前言 专利撰写过程中使用已有技术或算法解决新问题非常常见,本…

基于SpringBoot的冬奥会科普平台

摘 要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理平台应运而生,各行各业相继进入信息管理时代&…

【五一创作】Scratch资料

Scratch软件是免费的、免费的、免费的。任何需要花钱才能下载Scratch软件的全是骗子。 1、什么是Scratch Scratch是麻省理工学院的“终身幼儿园团队”开发的一种图形化编程工具。是面向青少年的一款模块化,积木化、可视化的编程语言。 什么是模块化、积木化&…

leetcode每日一题【7】

第一题:67. 二进制求和 给你两个二进制字符串 a 和 b ,以二进制字符串的形式返回它们的和。示例 1:输入:a "11", b "1" 输出:"100" 示例 2:输入:a "1010", b …

MyBatis:生命周期、作用域、结果集映射 ResultMap、日志、分页、使用注解开发、Lombok

文章目录 MyBatis:Day 02一、生命周期和作用域二、结果集映射:ResultMap三、日志工厂1. 标准日志:STDOUT_LOGGING2. LOG4J 四、分页五、使用注解开发六、Lombok注意: MyBatis:Day 02 一、生命周期和作用域 理解不同作…

Syncfusion Essential Studio Enterprise 2023.1 Crack

Syncfusion 的所有用户界面、报告、商业智能组件和库都在一个综合套件中。 Syncfusion Essential Studio 企业版包括 1,700 多个组件和框架,适用于 WinForms、WPF、ASP.NET(Web Forms、MVC、Core)、UWP、WinUI、.NET MAUI、Xamarin、Flutter、…

【Linux从入门到精通】Linux中的权限管理(实例+详解)

本篇文章对Linux下的普通用户和超级用户进行了对比详解。同时有添加和删除普通用户的讲解。也详细的解释了普通文件的权限、拥有者、所属组设置方法,和对目录的权限设置方法。根据需求引出粘滞位,对粘滞位进行详细的解释。解释每个要点是都带有实例&…

分享一个可交互的卡片

五一放假了&#xff0c;寻思着来一个应景的玩意&#xff0c;所以它诞生了。 先上效果图&#xff1a; 再上代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><…

给失业的互联网人一个思路:别再苦苦找工作了,要去找门槛低、现金流好、天花板低、资本看不上的创业项目,一年也能几百万!...

失业大潮中的互联网人该何去何从&#xff1f;这大概是许多人在难捱的深夜反复思考的问题。 一位失业很久的网友就在痛苦思索中悟出了适合自己的道路&#xff0c;下面分享给大家&#xff0c;篇幅太长&#xff0c;小编给大家划一下重点。 先说结论&#xff1a;失业的互联网人别再…

MySql数据库的初步安装与数据表结构数据管理

1.数据库的相关了解 1.1 数据库的概念 数据库&#xff08;database&#xff09;是用来组织、存储和管理数据的仓库 数据库管理系统&#xff08;DBMS&#xff09;&#xff1a;是实现对数据有效组织&#xff0c;管理和存取的系统软件。 数据的建立和维护功能&#xff0c;数据定…

【C语言】struct结构体

文章目录 一. 结构体简述二. 结构体的声明和定义1、简单地声明一个结构体和定义结构体变量2、声明结构体的同时也定义结构体变量3、匿名结构体4、配合typedef&#xff0c;声明结构体的同时为结构体取别名5、在声明匿名结构体时&#xff0c;使用typedef给这个匿名结构体取别名 三…