Vision Pro的发布带来了众多讨论,从交互层面来看,它真正的将AR/VR的首选交互从手柄转移到手势+眼球上面来,此前的AR、VR大部分还是通过手柄来完成交互(HoloLens除外),手势交互是它们的第二选择。
交互方式主要靠眼睛注视(融合手势)的方式自然也会带来一些疑问,比如是否容易造成眼疲劳?围绕这一话题,也有不少开发者、工程师、设计师等展开讨论。
近期,前苹果高级AI和AR设计师Bart Trzynadlowski发表了自己的看法,它在职期间负责了Vision Pro和在保密阶段的AR项目开发工作,虽然不能泄密,但它公开资料中向我们带来更多解读,包括技术、UI、UX等多个方面。
1. 眼球追踪交互的难点
为什么眼球追踪不能转换成精准的输入?这就要说到复杂的人眼运动特性。人眼除了主动移动外,还会存在一些细微的被动运动,如果这些微动作被识别为意图,那么眼球追踪结果很难准确。
因此,眼球追踪系统存在一种叫“Midas Touch”的难题,即人眼常见的眼跳、眨眼等无意的微动作会在交互中产生误操作,就像是传说中的Midas一样,手指点到的任何东西都会变成金子。如果眼球交互的错误率高,那么体验感也不会理想。
此前,Unity高级研发工程师Eric Pvncher曾指出,此前的XR头显不广泛使用眼球输入,原因是很难做到精准,而且过度使用人眼会产生认知负担。比如在一个用注视点控制光标绘画的demo中,可以明显看到眼球输入的笔迹是抖动的,不能很准确的控制光标。
换句话说,现阶段眼球输入并不能达到鼠标点击的精准性和灵敏性,因此在交互设计上,不适合直接借鉴鼠标移动光标的方式。更重要的是,相比于手动操控鼠标,用频繁转动眼球移动光标也会对视力损耗不小。
2. 硬件的改善优化
为了优化眼球交互/输入,苹果从硬件、UI、交互方式等多方面都做出了努力。
硬件方面,AVP的眼球追踪模组(IR相机、LED光源)位于透镜之下,可以更好更全面的捕捉人眼的动作。而Quest Pro则不同,它的IR相机和LED位于透镜外侧,更靠近人眼。
3. 系统和软件的优化
在近眼显示设备中,眼舒适是个永恒的话题,无论是否融合眼球追踪技术,关于显示也同样如此。
而基于眼球追踪的交互必然会造成眼疲劳,这点毋庸置疑。实际上苹果在WWDC23/10078公开课中也明确这一点,同时还提到:需要在系统和软件层面提供“合适的设计”,让眼睛得到休息也是交互中重要的一点。
其中有几个核心设计技巧:
1,视觉中心应该中心,且略靠下位置(也就是视轴方向);
2,眼睛转动优先左右移动,而不是上下或斜向转动;
其中,还明确提到如果眼睛大范围转动是必要交互,也应尽可能减少眼睛大范围的转动,并且考虑让眼睛能够持续交互过程中有片刻休息的“自然断点”,而不是通过给予持续的UI反馈持续吸引眼球。
作为眼球注视+手势的融合交互带来的好处也很明显,就是非常直接,从多位现场体验的媒体来看也的确如此,普遍好评。
为进一步提升注视点预测的准确性,苹果还为Vision Pro搭配了精心设计的UI,可以很好的配合现有的眼球追踪技术,较为准确的识别、过滤用户意图。比如,将可交互的元素设计的比较大,并尽量采用圆润的图形,来增加注视点可停留的区域,从而很好的辅助眼球追踪功能。
目前还不确定Vision Pro是否会从算法上过滤眼球运动数据的噪点(无意识的错误运动),不过对于患有眼球震颤等视力问题的患者,该头显还会提供其他辅助(无需眼球注视)的交互方式。而现阶段,Quest Pro似乎还未提供类似的设计(当然它有手柄),一位眼球震颤患者表示:由于眼球运动频繁,Quest Pro并不能准确识别注视点意图。
4. 侧重识别用户意图
视觉是生活中最重要、最常用的人体功能之一,当你看真实世界时,可能会不断转动眼球,由于我们已经足够熟悉这种交互,很多时候眼球运动都是无意识的。而在注视点追踪系统中,当你主动控制眼球运动,可能容易产生视觉疲劳。
为了让XR头显的眼球交互能像现实生活中一样自然,苹果更侧重于识别用户的注视意图,而不是鼓励用户看向特定的位置。
目前基于键鼠的PC交互实际也结合了注视动作,当你在2D屏幕做选择时首先会不自觉看向目标位置。因此,只要Vision Pro准确、快速的追踪用户的注视意图,理论上就可以很好的较快输入效率,而不需要用户有意识转动眼球选择。
另一方面,针对手部不灵活的用户,Vision Pro也可以只通过眼球动作来辅助交互,比如持续凝视一个位置等。Bart指出,有大量研究和demo显示,主动眼球交互在部分情况下可以做到足够舒适(比如停留、追随移动目标、特定动作姿态等)。
而在2017年时,一家叫Quantum Interface的公司曾展示了一种有趣的头部交互方式,特点是基于头部追踪,你可以通过移动头部来瞄准,或甩头展开选项。同理,眼球输入也可以使用一些简单的姿态,比如反复扫视一个区域。
为了避免第三方App读取注视点等生物信息,只有在手势确认时将注视点信息识别为交互操作,而手势追踪是一种系统级功能,因此第三方App不能直接读取用户实时的注视点方向,避免开发者滥用眼球数据来设计交互。
也就是说,Vision Pro的眼球追踪功能主要用于系统交互和优化,比如根据注视点信息可监控人眼行为,预测大脑生物反馈,并在此基础上可进一步优化UI等等。
Bart表示:我认为,苹果在眼球交互上有很深刻的思考,Vision Pro采用了一种自然、简约的眼球交互设计,相信在足够的硬件和软件支持下,能够为用户在下意识进行输入,而不需要主动付出额外努力。