XREAL 联合创始人吴克艰谈AR:下一代计算平台及其关键技术

news2024/11/28 8:26:25

  //  

编者按:一种行业观点是,AR或是未来十年、三十年的革命性技术,是下一代计算平台。近半个世纪,我们总能听到苹果在AR行业的创新动作,开辟了新的硬件范式。AR/VR行业为苹果不断欢呼的同时,激发了人们的好奇心——究竟,人类在戴上AR眼镜的那一瞬间,感知与交互从二维平面延伸到三维空间,科幻片场景触手可及之时,和世界的交互可以是什么样子?今天LiveVideoStack大会邀请到了XREAL的联合创始人吴克艰,为我们分享XREAL在AR行业的发展演进和思考。

(P.S. XREAL是Nreal的新品牌名称,后文统称XREAL)

文|吴克艰

策划、编辑|LiveVideoStack

83cb55c79f48d342d7f0a1de074b3841.png

大家好,我是来自XREAL的吴克艰,今天非常高兴能有机会跟现场音视频社区的专家和从业者们分享关于XREAL在布局增强现实、AR行业产品、技术,以及对应的应用落地等一些探索。

首先给大家分享一张我很喜欢的图片。根据进化论的观点,我们从猿猴往人类进化的过程中,有两件事情非常重要。第一件事情就是人的直立行走,第二件事情就是人对工具的使用。现在大家平常用的最多的工具之一,就是电脑或者手机等设备。

这些设备对于我们个人来说,确实是一个非常强有力的算力平台,给我们带来了各方面的便利和高效。但是我们经常会看到,当大家在用电脑和手机的时候,是处于这样的一个状态:一方面给我们带来了便利,但是另一方面又把人限制在了非常有限的使用方式和使用场景之内。

我们经常会伏在案前去使用电脑,弯腰低头去看手机,这说明人类从直立的状态又开始回到了一个卷曲的状态,这肯定是一种不好的体验。那么下一代应该要解决的问题,就是通过下一代互联网的智能的终端,个人算力平台的终端,让人类重新从弯腰状态直立起来。

一、AR是未来的革命性技术,是下一代计算平台

c5436e70257edf6566083105edc2adcc.png

回顾一下过去的几十年互联网的发展,从最开始的由PC个人电脑作为终端的互联网,它主要解决的是个人算力的问题。

但是我们跟电脑的交互方式,主要是通过屏幕的显示、键盘、鼠标,到了下一个十年,二十年的发展时,我们每个人拥有了自己可移动的一个算力平台,它解决的主要问题就是连接和移动的问题。对于这样的一个平台来说,我们可以非常方便地带着它去任何地方去实现计算和连接。

它主要的交互方式,由于为了移动的便捷性和可携带性,其实牺牲的是屏幕尺寸。通常,我们只能带一个手机,通过点击这个触摸屏的方式,交互方式还比较单一。所以,我们认为应该从体验解放的角度来思考,下一代的互联网对个人计算平台的终端,它应该是什么?

首先,应该是把整个显示和交互的空间,重新以一个有限的2D屏幕去释放到平常所生活的真实物理空间,也就是3D空间,整个3D空间就是显示和交互的一个区域。另外就是它的交互的方式,也不只局限一个小小的屏幕,它应该是一种非常自然的,跟真实的物体或者人交互的方式。

方式通过语言,通过视觉,通过一些手势等,我们觉得下一代的互联网体验,可以把它定义做空间互联网,因为它是整个空间化的一个体现。而它对应的关键的计算的平台又是什么呢?这个东西它最关键的核心技术,就是所谓AR眼镜这样的硬件平台,作为一个它关键的入口。

219bc98257f48a4789b467519c555383.png

看到视频,大家会看到几个特点:首先它的信息显示是3D化的,而不是只局限在一个手机有限的一个框里,它是跟周围的环境自然融合的状态。另外一个很重要的点,就是当你在移动的时候,你会发现这个信息是固定在空间中的。

它与真实的物理环境是有一个绑定的关系,这个也是一个非常重要的点。因为如果要是所有的东西都是随着你移动的状态的话,那这样的信息毕竟还是虚拟的,它无法跟真实的世界产生关系。另外后面这个视频还会给大家演示,它不光是一个简简单单的显示,更重要的是,它要有能力去识别和追踪周围一些关键的物体。

比如说你走进一个商店,看到了一些商品,它能实时的在商品上面叠加显示一些关键的有帮助的信息。比如说你在购物等,这些导航的场景地图,可以有一个非常好的信息的应用。比如说在导航的时候,就再也不用先看手机的地图,再看看真实的世界,还要试图把真实和虚拟的导航给连接起来。

我们把它定义做空间互联网。当然大家可能有更耳熟能详的名字,比如之前比较火的概念就是元宇宙。简单的给大家介绍一下,它的技术架构,是最底层的一个硬件平台,硬件平台包括整个的硬件基础设施。

ccfc070702ae04bab289a237de98a73f.png

这个应用基础设施里面,包括计算的芯片,或传感器、云通信等,在网上跟个人交互的硬件层面,就像现在的电脑和手机,会有整个的交互入口。

再往上,除了这个硬件层,就是这个软件和数据层。软件数据层其实最关键的是包括像操作系统和数据层面的东西。这一套东西和我们所熟悉的电脑也好,手机也好,是很不一样的。因为空间互联网它需要的是一个重新的3D化、空间化的东西。

所以它的底层的操作系统,包括里面所带的空间计算的能力、AI 的能力、交互的能力,都是全新的一些能力。然后再包括上层的一些数据,一些信息的检索,那都是架构在3D的信息显示和交互的方式之上的。

然后,最上面的才是体验层,也包括3D内容的一些开发的平台,分发的平台。再往上才是对于普通用户来说,所能看到的一套体验的这些应用。所以说我们认为空间互联网会是下一代的互联网的发展方向,它主要解决的是体验和效率。

二、3D显示、3D感知、3D交互的标准,应该如何评判?

作为下一代空间互联网,它核心的入口和计算平台,我们认为是这种能实现虚实结合功能的AR眼镜。AR眼镜想要做到这样的一个终端,它有三个非常重要的核心的功能,或者说底层的技术——分别是3D显示、3D感知和3D交互。

首先从这个3D显示上来说,大家可能更熟悉的是手机、电脑、电视等这样的显示屏。大家肯定有一个很直观的感受,就是屏幕越大,看的越爽。

特别是对于程序员来说,那就是屏幕越大,效率越高,所以首先非常重要的一件事情是要提升屏幕的尺寸。传统物理的显示屏,一定是物理显示屏做多大,这个尺寸就是多大。但是AR眼镜能带来的一个核心好处就是,它随着你在空间中移动的时候,到处都可以显示,你的体验仿佛就是整个空间都是你的显示屏。

f3904c565e391d896c12f1a57f9c6418.png

非常重要的一点是,既然是一个AR眼镜这样的可穿戴设备,显示不能是一个非常巨大的物理东西,必须是非常轻薄,不会对人产生任何影响的设备。

目前在整个AR光学这一代,各家都有不同的技术路线,毋庸置疑的是,整个行业都在努力。

eebe3da52e0fb674b520ecfc095de16a.png

另一方面,AR目前的视场角还是比较小的,不过AR整个显示的效果,色彩,还原度还是非常好。

在座有体验过VR的人,会觉得在用VR的时候有一些疲劳。所以我们在做显示的时候,会特别关注舒适度。其实现在行业内也开始出台了一些专门针对AR和VR的护眼标准。

聊完了3D显示,讲一讲3D的感知和3D交互方面的技术。

目前在这个行业,能做到3D场景的交互效果,大家可以思考一下,它需要一些什么样的技术,包括3D空间的定位、感知、识别,交互等。

因为它确实不光是一个纯虚拟,像手机或显示屏这样的交互。聊到交互,大家比较熟悉的是屏幕的显示,手机或者触屏的这种方式。但当你的内容变成一个在空间中的3D的时候,我们怎么交互?这也是AR、VR行业都在探索的一个问题,目前可能还是在探索阶段。

另外,在正常生活中,我们怎么跟挪动的物体去进行交互,包括远处的一些指向交互?

很自然的一个事情,就是直接用我们的手去交互。手势交互是整个AR 、VR行业大家都在做和探索的一个方向。通过计算机视觉的技术,手势的交互已经能实现了。

ef61c1c4222dd72562302617d5b99759.png

当然,技术也不断的在前进和迭代和进步,将来大家可以想象的是,利用手势交互技术,真的就可以像一些科幻电影里面,直接凭空去抓取和指向一些东西。我们就不再需要一个固定的外设,或者比较麻烦的设备。

接下来简单介绍一下,3D感知和交互相关的技术。

从算法角度上来说,其核心技术就是背后的这些功能,由计算机视觉相关的一些算法功能所带来的。我简单的总结了一下在AR、VR行业里面常见的计算机视觉技术。

大概分为以下的几个方向:首先是tracking,也就是运动追踪。运动追踪是负责头显的移动,包括周围物体的移动等识别,这样才能做到跟环境的趋势融合定位的效果。既包括对头显的追踪,也包括对周围场景、物体、人等追踪。

759116f4523d77c0b2a590cd75e3c8a3.png

这是3D感知。从交互来说,既包括像控制器手柄这样的交互研发,也包括像眼动的交互,通过眼动的追踪和交互的技术,我们的眼睛看向哪里,AR就可以通过追踪你的眼睛直接指向哪里,甚至你的手都不用举起来。AR还包括对周围环境的感知和一些语义信息的感知,以及对空间地图的建立和定位使用。

但更重要的,当你有了3D的工具以后,你可以直接通过扫描现实生活中的物体或者人来直接产生数字化身。这样的方式是一种非常好的内容产生的方式。

然后给大家简单的介绍相关的一些技术,首先从头显定位来说,最常用的技术就是视觉惯性SLAM。

17820b0e9761d3c47d3be126d966fc77.png

视觉惯性SLAM就是用眼镜上的摄像头和IMU对眼镜的运动作为一个追踪,当追踪到了运动以后,虚拟的物体会显示在空中。由于IMU和摄像头成本比较低,并且功耗也比较低,非常适合XR在这方面的应用。

像刚才提到的手势追踪,它底层的原理就是通过计算机视觉技术先识别你的手,然后再追踪你的手势。然后追踪完了以后,你可以跟这些虚拟的物体进行交互。当然,这其实也是一个非常有挑战的问题。

因为你只有对周围的环境有了几何和语义层面的感知,才能做到非常好的虚实融合效果。比如说把虚拟的物体跟周围的环境实现遮挡,实现碰撞等。

如图是我们跟合作方在景区博物馆的实验。参观者带上AR眼镜,进入到这个景区的时候,能实时的计算出来在景区3D场景里的位置。

25bcc4fa19deb1b1c70d4e1e85205aaf.png

比如说你走到一个固定的地方前,就会展示这个物品或者这个场景的一些信息叠加,有意思的特效等。

你通过拍几张图片,就可以对图片中的物品做一个很好的3D生成。这是一种非常高效的内容生产的方式,而不是需要专业人员来慢慢做这个3D的模型,包括人体和人脸的一些重建,也是现在比较火的,像数字人等一些技术。

3ac7cde1db9d3870566dbb046bf88b0c.png

最后,提到交互技术,不得不谈一下ChatGPT。

举个例子,这是大家可能都看过的电影,钢铁侠里面有一个非常有名的助手叫J.A.R.V.I.S.。每次这个钢铁侠呼唤助手时候,它就能出来。这个电影里面的技术就是一个除了硬件技术之外,非常好的展示了AR和ChatGPT个人助手的结合。

9c703d084a2842be2ba7c11b358812c8.png

因为通过AR的显示,包括对周围环境的一些识别,就能对周围环境有整个AR化的控制,然后再加上J.A.R.V.I.S. 这样的一个助手,就可以直接跟他对话说,我想要什么东西。

所以,我认为对AR和XR行业来说,真的是一个非常革命性的突破。想象一下, 当我们戴上AR眼镜以后,你马上就可以拥有一个自己的个人助手,他可以根据你的要求,根据你的命令去帮助你。并且如果你需要的话,他可以获得你的语音以及视觉信息,更好的真正成为世界上最了解你的个人的助手。

三、结语

b49ee334dbb7ceed93614dc98bb7724a.png

介绍完了前面的几个关键技术以后,最后简单地给大家分享一下我们在AR行业,产品和落地探索的历程和心得。我们这家公司可以说特别是给消费者端的AR行业带来了一些突破,定义了全球第一款的消费者形态的AR眼镜。

谈到心路历程,我们首先做了一个全功能的AR眼镜。它具有所有3D显示感知和交互的功能。做完了这样一个眼镜以后,我们推到了市场,发现最喜欢这个眼镜的是B端和开发者用户。

那对于绝大多数C端用户来说,他们购买AR眼镜干得最多的是拿来看电影。

因为,从目前整个XR行业来说,除了VR游戏以外,特别是AR,它的内容和应用生态还仅仅是刚刚起步的一个状态。消费者买到以后,他没有感觉到AR内容特别有意思,只能说把手机和电脑上已有的东西投到眼镜上来。

我认为这样的一个需求也是成立的,于是我们推出了第二代叫Air的眼镜。Air眼镜它就不是一个全功能的AR眼镜,只是一个主打3D显示功能的眼镜。

对于这样一代眼镜来说,我们认为C端能够大规模的提升一个商业化的能力,首先非常重要的就是它一定要看起来好看,毕竟是一个可穿戴设备。大家可能见过VR是一个很大的头盔戴在头上。这样的东西你在家里面玩游戏可以,但肯定不会愿意带出门去。

作为AR眼镜,首先它是有能看到外面世界功能的潜力,但是你必须要把它做得足够的轻薄,足够的时尚和好看。

目前这个行业的定位还是存在不标准的情况,各种平台的接口的定义软件和硬件的定义并没有完全拉齐。所以为了让眼镜能去适配各种各样的设备如电脑、手机,游戏主机等,我们也做了非常多的努力,并开发了叫Nebula的一个界面系统。

它会把所有的应用嵌入到这个里面,以多屏的形式去显示。并且在这个里面我们也嵌入了一些非常有意思的小游戏和小应用。也向用户去展示AR眼镜的3D能力。

所以,总结一下,在目前AR行业的内容和生态还没有完全起来的时候,我们认为短期之内像Air这样的主打显示和主打移动数字屏,来取代物理屏的市场是合理并且存在的。

短期之内它会在娱乐,办公等这样的场景里面起到一个体验的升级。从长期来看,我们还是期待整个AR行业有一个真正能力的释放。因为AR的能力,不仅仅是一个显示,它更多的是我们所说的,整个对周围信息的重新的3D化的组织和跟真实世界的结合。

以上就是我跟大家分享的所有内容,谢谢。


b1c7a725e6d63425d6102decd295f6e5.png

扫描图中二维码 

直通LiveVideoStackCon 2023深圳站 9折购票通道

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1008495.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JAVA设计模式8:装饰模式,动态地将责任附加到对象上,扩展对象的功能

作者主页:Designer 小郑 作者简介:3年JAVA全栈开发经验,专注JAVA技术、系统定制、远程指导,致力于企业数字化转型,CSDN博客专家,阿里云社区专家博主,蓝桥云课讲师。 目录 一、什么是装饰模式二、…

linux安装Sentinal1.8.6

前言: 使用docker search sentinel-dashboard命令,发现docker中的镜像版本过低,由于要配合使用1.8.6,所以这里采用java后台运行sentinel1.8.6-jar的方式。 1、官网下载对应版本jar(https://github.com/alibaba/Sentin…

【Unity编辑器扩展】| 自定义窗口和面板

前言【Unity编辑器扩展】| 自定义窗口和面板一、EditorWindow二、ScriptableWizard三、编辑器绘制3.1 文本输入3.2 空行3.3 滑动条、进度条3.4 枚举选择3.5 其他总结前言 前面我们介绍了Unity中编辑器扩展的一些基本概念及基础知识,还有编辑器扩展中用到的相关特性Attribute介…

招募 AIGC 训练营助教 @上海

诚挚邀请对社区活动感兴趣的你,成为我们近期开展的训练营助教。 与我们共同开启这场创新之旅! 助教需要参与: 协助策划和组织训练营活动 协助招募和筛选学员 协助制定训练营的宣传方案 负责协调和组织各项活动 助教可获得: AIGC知…

vue cli 打包、生产环境http-proxy-middleware代理

结构树 版本 1、创建vue.config.js const path require(path); const UglifyJsPlugin require(uglifyjs-webpack-plugin) //压缩 const CompressionWebpackPlugin require(compression-webpack-plugin) const isProduction process.env.NODE_ENV ! development;module.exp…

C#控制台程序中使用log4.net来输出日志

Apache log4net 库是一个帮助程序员将日志语句输出到各种输出目标的工具。log4net 是优秀的 Apache log4j™ 框架到 Microsoft .NE​​T 运行时的端口。 我喜欢他可以自定义输出,区分等级等特点。 导入库 我们在工程里添加NuGet的包。输入名称log4net &#xff0…

【Transformer系列】深入浅出理解Positional Encoding位置编码

一、参考资料 一文教你彻底理解Transformer中Positional Encoding Transformer Architecture: The Positional Encoding The Annotated Transformer Master Positional Encoding: Part I 如何理解Transformer论文中的positional encoding,和三角函数有什么关系&…

05ShardingSphere-JDBC水平分片

1、准备服务器 随着业务的扩大,订单表数据量不断增加,数据库面临存储压力,开始考虑对订单表进行水平分片。 将t_order表扩展为server-order0中的t_order0和t_order1、server-order1中的t_order0和t_order1 服务器规划:使用dock…

使用Python创建音乐播放器

1. 介绍 在本篇博客中,我们将介绍如何使用Python编程语言和wxPython模块创建一个简单的音乐播放器。我们将使用wxPython来构建用户界面,并借助pygame模块来实现音频播放的功能。 C:\pythoncode\new\quickplaywav.py 2. 使用方法 使用我们提供的源代码…

排查disabled问题之谷歌新版本特性

问题复现 最近我突然接手一个后台的bug,这个后台很久没有迭代更新了,我也不熟悉业务,所以只能看一下源码,问题很快就复现,测试的修复操作也很正确,就是因为渲染的input标签中存在disableddisabled’属性导…

2023 年您需要了解哪些类型的数据泄露?

到目前为止,所有公司都应该意识到网络安全威胁是任何企业面临的主要风险之一。其中,那些直接损害敏感数据的行为可能会造成特别严重的破坏。 目前,数据泄露的典型成本已接近 450 万美元(在过去三年中增加了 15%)&…

MySQL内外连接、索引特性

目录 内连接 外连接 索引特性 理解索引 删除索引 MySQL内外连接是一种用于联接两个或多个表的操作。内连接只返回满足连接条件的行,外连接返回满足条件和不满足条件的行。 内连接 SQL如下: SELECT ... FROM t1 INNER JOIN t2 ON 连接条件 [INNER …

使用香橙派 学习Linux的串口开发

串口的回顾 & 硬件接线 关于串口也是之前学习过很多次了,详见: 认识串口 和 蓝牙模块HC08_hc08蓝牙模块_mjmmm的博客-CSDN博客 串口的再认识-CSDN博客 香橙派提供了两路串口,第一路就是在刷机时串口连接的引脚(对应驱动ttyS0&…

input标签,新增那些属性

input标签作为页面与用户交互的重要入口&#xff0c;了解掌握input的属性&#xff0c;至为重要。 type属性 HTML5给input表现的type属性&#xff0c;添加了很多的属性值&#xff0c;用来丰富了文本框类型。比如&#xff1a; <body><input type"email" na…

前端--HTML

文章目录 HTML结构快速生成代码框架HTML常见标签 表格标签 编写简历信息 填写简历信息 Emmet 快捷键 HTML 特殊字符 一、HTML结构 1.认识HTML标签 HTML 代码是由 "标签" 构成的. 形如: <body>hello</body> 标签名 (body) 放到 < > 中 大部分标…

Spring框架中的@Conditional系列注解

目录 1 Contidional 介绍1.1 Condition 接口1.2 Spring Conditional注解实例1.3 Conditional 与Profile 的对比 2 Spring boot 扩展2.1 ConditionalOnClass和ConditionalOnMissingClass注解2.2 ConditionalOnBean 和ConditionalOnMissingBean注解2.3 ConditionalOnProperty注解…

(二十八)大数据实战——Flume数据采集之kafka数据生产与消费集成案例

前言 本节内容我们主要介绍一下flume数据采集和kafka消息中间键的整合。通过flume监听nc端口的数据&#xff0c;将数据发送到kafka消息的first主题中&#xff0c;然后在通过flume消费kafka中的主题消息&#xff0c;将消费到的消息打印到控制台上。集成使用flume作为kafka的生产…

18. 线性代数 - 线性变换

文章目录 线性空间线性变换线性变换的几何意义特征值与特征向量NumPy的矩阵操作Hi, 你好。我是茶桁。 经历了几节线性代数课程之后,终于咱们到了最后一节课了。本节课的内容说多不多,说少也不少。 我们先是要理解一下线性空间和线性变换,并且探讨一下线性变换的几何意义。…

Mapbox加载arcgis的底图

成果图 这种底图基本上都是按照raster来加载的&#xff0c;主要就是知道地址了&#xff0c;拼参数 具体参数请参考官网 https://developers.arcgis.com/rest/services-reference/enterprise/export-map.htm 源码 我的服务列表是这样的 http://XXXX:XXXX/arcgis/rest/services/…

Rsync远程同步inotify监控

Rsync 简介 rsync&#xff08;Remote Sync&#xff0c;远程同步&#xff09; 是一个开源的快速备份工具&#xff0c;可以在不同主机之间镜像同步整个目录树&#xff0c;支持增量备份&#xff0c;并保持链接和权限 在远程同步任务中&#xff0c;负责发起rsync同步操作的客户机…