2023年,Apple Vision Pro的横空出世让人们领略到了3D交互的魅力,商汤绝影通过深厚的技术研发实力和高效的创新迭代效率,带来两大全新座舱3D交互:3D Gaze高精视线交互和3D动态手势交互。
作为全球首创的能够通过视线定位与屏幕图标进行交互的智能座舱技术,商汤绝影的3D Gaze高精视线交互将让用户通过眼神控制中控图标。3D 动态手势交互是行业领先的支持动态手势和手部微动作识别的智能座舱技术,能让用户通过手势“隔空”进行各类座舱交互。
商汤绝影这两个全新的座舱交互功能相互配合,将给智能座舱的交互带来革命性变革。
3D Gaze高精视线交互:“目控一切,所见即所选”
实体物理按键交互已经无法满足人们对更便捷、更高效交互的需求,采用“非接触式”交互已经成为智能座舱交互革命的必然趋势,而视线交互是最为直接和便捷的方案之一。
行业目前普遍能做到的是视线检测功能。现在车辆普遍搭载的驾驶员监测系统(DMS)就是以视线检测技术为基础。视线检测功能作为商汤绝影领先行业的王牌产品,已成功解决了智能座舱场景下的一系列长尾问题,如遮挡、阴阳脸、墨镜等,并量产落地100多个车型。
但DMS通常只能做到分心监测等舱内大面积区域的识别,受困于精度很难通过它进行具体的交互动作。商汤绝影全球首创3D Gaze高精视线交互,通过提升视线的精度,能精准识别到驾驶员注视中控屏或者后排用户看向后排屏幕的具体的某个图标并进行交互,实现“所见即所选”。
(商汤绝影全球首创3D Gaze高精视线交互,实现“所见即所选”)
因为眼球并不是标准的几何球体,它是一个复杂的器官,包括角膜、虹膜、瞳孔、晶状体、玻璃体等多个结构,不能简单使用几何球体的组合来描述眼球模型,而且每个人的眼球形态、大小、角膜曲率都存在生理上的差异,所以商汤绝影开发出了一套“千人千眼”的高精度三维眼球模型。
商汤绝影使用先进的眼动追踪技术和高精度的眼部成像设备,收集并分析驾驶员的眼部数据,精准为每个人的定制个性化的眼球模型,从而提高视线交互的精度和准确性,进一步提升驾驶的安全性和舒适性。
以“千人千眼”的高精度三维眼球模型为基础,结合创新的亚像素级细节定位和信息融合技术,商汤绝影3D Gaze高精视线交互革命性突破了座舱场景下的视线精度难题,配合手势、语音甚至是眨眼等方式,将给用户带来更智能、更个性化的舱内视觉交互体验。
3D动态手势交互:“掌握一切,所选即所得”
3D手势交互是以超高精的三维手部重建为基础,实时捕捉、识别与分析用户的三维手势动作,实现对车辆功能控制的技术,商汤绝影在北京车展首发座舱内3D手势交互,带来高精度、高稳定性、快速响应的全新交互体验。
相对于2D手势识别,得益于三维空间定位,商汤绝影的3D手势交互能更加精确定位手部的移动位置,并对手指细节进行优化,保证了不同手指间相互作用的准确感知,进而可以识别如捏合、拖拽等复杂动作,实现鼠标级的隔空手势交互操作。
(商汤绝影3D手势交互,实现“所选即所得”)
为了打造能够识别动态手势和手部微动作的3D手势交互,商汤绝影构建了超百万级别的数据规模。
在大量采集真人真实数据的基础上,借助渲染算法,对真实采集中缺少的数据维度以及各种极端场景进行渲染补充,确保数据囊括车舱环境下几乎所有场景。以海量的三维数据为基础,商汤绝影实现了技术从2D到3D的迅速突破,为3D手势交互打下坚强基础。
同时,由于手部动作的灵活性与多样性,3D手势定位与识别往往存在自遮挡、遮挡、动态模糊、运动过快等问题。商汤绝影引入了基于大模型的端到端识别网络。相较于传统的人为规则逻辑,端到端神经网络完全依靠海量数据学习到的知识对感知到的手部动作和手指细节进行判断,带来座舱3D手势交互的全新模式。
通过3D手势操作,用户可以更加直接地通过隔空手势控制导航、音乐、空调等功能,做到“所选即所得”,从而解放身体姿势和双手,享受更加舒适和智能化的驾驶体验。
Apple Vision Pro的操作方式就是将3D高精视线交互与3D手势交互相结合,让用户体验到头戴式MR设备的3D交互魅力。3D Gaze 高精视线交互与3D动态手势交互相结合,将进一步变革舱内交互模式。
商汤绝影已经实现这两大舱内3D交互功能相互配合,如同Vision Pro“裸眼上车”,革命性改变了座舱交互的方式,让用户从传统的物理按键和屏幕触控方式中解脱出来,真正做到“所见即所选,所选即所得”,打造更符合人类直觉的自然交互体验。