Meta为全天候AR眼镜设计了AI系统的八大指导方针

news2025/1/1 23:50:17

众所周知,Meta不仅局限在Quest这类VR头显上,同时还在打造更轻量化的AR眼镜,目标就是让产品更好的融入到人们的日常生活中去。除了硬件上轻量化以外,在功能和交互体验上也至关重要,例如自然交互方式,比如手势输入,以及AI视觉助手等,这其中和计算机视觉和AI技术密不可分。

​AI技术将会是AR眼镜的重要组成部分,通过实时给用户提供回答和建议等帮助(例如推荐导航路线、甚至日程、根据喜好推荐菜品等)来提升AR眼镜的实用性,将会成为Meta AR眼镜的卖点之一。尤其是,考虑到Meta近年来在AI技术上的投入,我们完全有理由相信这一点。

​Reality Labs公布了一项研究:XAIR,从中我们可以了解到AR眼镜中AI系统的设计准则。该框架基于可解释人工智能框架(XAI)和人机交互(HCI)等研究,其中内含8大设计准则,可为AR眼镜的AI设计提供有价值的参考。

实验中使用了HoloLens头显

什么是XAI?

​据青亭网了解,XAI(Explainable AI)又称透明AI(Transparent AI),特点是行为容易被人所理解。大多数基于机器学习的AI都是在所谓的黑盒中运行,由于无法提供决策背后的原因和见解,此类AI具有一定风险性,因为不确定它是否可信、可靠,是否存在偏见。

XAI的概念可以追溯到四十多年前,后来随着黑盒AI/ML模型的成功,XAI技术开始受到学术业、监管机构等各行各业关注。研究表明,XAI将有望为用户提供清晰的决策,并建立信任。因此在工业领域,已经开始将XAI应用于日常场景,改善用户体验。

XAI可以服务于不同的目标受众,有各种不同的用途。早期的XAI研究仅关注算法开发者、数据科学家,以及临床医疗等领域的专家,而近年来越来越多的XAI开始面向普通用户,与消费级产品集成,比如在购物网站上显示推荐某产品的原因等等。不过,这目前还在早期阶段。

​XAI的重要性

想要让AI被人类广泛理解,将涉及多学科研究工作。比如,ML研究人员开发了生成透明模型的算法(例如,决策树、贝叶斯模型),或使用事后解释技术(例如,特征重要性、视觉解释)来生成解释。而HCI研究人员,则专注于提高用户信任度,以及对机器生成解释的理解。另一方面,心理学研究人员从更基本的角度研究XAI,研究人们如何生成、交流和理解。

公开透明的AI也很重要,它符合未来其在AR/VR领域的发展策略。在XAIR研究中,XAI的目的是通过生成细节或理由,来帮助用户清楚、容易理解AI的决策和功能。Meta指出,XAI是AI驱动的交互系统的重要组成部分,未来也会在日常AR应用中起重要作用,辅助用户与可视化的智能服务互动。XAI可以让AR智能系统的行为更好理解,避免意外的AI决策,并培养隐私意识,获得用户的信任。

不过,目前Meta面临的一个难题,是为日常AR应用创建有效的XAI体验。大多数现有的XAI研究侧重于将解释类型和生成技术分类,而没有考虑到日常AR场景的特点,比如用户和上下文产生的感知信息,全天候运行,适应能力好等因素。这些因素不仅可以形成更人性化的解释,还会影响解释接口的设计。

因此,Meta提出了XAIR设计框架,该框架描述了何时、如何解释AR中AI的决策。为了构建XAIR框架,还进行了一场500人实验,目的是收集他们对于AR体验设计的偏好。此外,还参考了12位专家对于AR交互的见解。

本次研究的重点,是确定三点问题:

  • AI该何时做出解释;
  • 可以解释什么;
  • 如何解释。

​先前的研究已经探讨了前两个问题,尽管非针对AR,但还是为XAIR的设计提供了一些有用的信息。

XAI设计指南

Meta认为,如果AR眼镜具备智能服务,那么AI将起到重要作用,比如根据AR眼镜传感器捕捉到的信息,为用户提供基于上下文的建议。除此之外,AI与用户交互需要基于有效的XAI设计,以确保AI决策可靠、值得信赖,从而改善用户体验。

与针对电脑、手机上的现有XAI框架不同,AR的XAI设计需要结合更深层、更丰富的上下文信息(甚至还要考虑用户的状态),因此需要为AR专门重新设计。而且,AR的XAI还需要具有3D感知能力、实时在线,才能应用于日常AR场景,将解释内容与物理空间融合。比如,在推荐食谱时,同时突出用户冰箱中的食材,即根据场景上下文来解释决策。而相比之下,市面上已有的XAI框架并不能满足这些需求。

于是,Meta通过用户调查总结了8大设计指南:

  • 1)始终生成AI结果,确保用户在需要时可便捷的访问;
  • 2)不自动触发解释,除非满足2个条件——识别到用户高认知负荷、紧迫感等情况,或是识别到用户惊讶、困惑、不熟悉、不确定等状态;
  • 3)个性化解释内容需考虑三个因素:​系统目标、用户目标和用户画像;
  • 4)在默认状态,优先考虑为什么解释,并选择简明的解释;
  • 5)​始终提供更详细的解释,可以通过小的提示窗口等,让用户根据需求展开;
  • 6)默认情况下,采用与AI输出相同的解释方式(除了触觉、音频),一种模态负载高时,选择另外一种;
  • 7)视觉相关:内容以文字为主,如果是图片也应尽可能简化、让用户易于理解;
  • 8)视觉相关:如主题场景相关可使用隐式提示,例如当你看书时提供推荐和浮动窗口;不相关则则使用显示提示,例如兑换框等。

Meta结合设计指南,开发了一些应用案例并在10名设计师中进行验证,结果设计师认为XAIR可为AR的XAI框架设计提供可用的综合参考或帮助,有助于激发设计师的思维和想象力。参与实验的12名最终用户也反馈,XAIR有出色的可用性。

应用案例

在这项研究中,Meta设计了两个演示案例,感兴趣可以来了解一下:

1)当用户在小路上慢跑时,AR眼镜考虑到当下的季节和风景,便为用户显示出附近的地图,建议绕道去附近的路赏樱花。AI可提供的解释包括:风景更好、路线长度合适、适合用户日程安排。解释形式包括文字、樱花图片等等。

2)AR用户在与邻居讨论园艺后回到家,这时AR眼镜会在周围的植物上显示一个“养护”提示,并为用户提供关于植物施肥的说明。这个建议需要用户手动触发,避免其认为AI侵犯隐私,手动触发可以较好的建立信任。此外,AI还可以提示:经过系统扫描,植物的叶子上有异常斑点,表明可能遭受真菌或细菌感染。解释形式除了文字外,也可以在叶子上用AR来标记异常点(文本为明显提示,AR提示则为隐秘式,与场景融合)。参考:Meta

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/726995.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是人工智能大模型?

目录 1. 人工智能大模型的概述:2. 典型的人工智能大模型:3. 人工智能大模型的应用领域:4. 人工智能大模型的挑战与未来:5. 人工智能大模型的开发和应用:6. 人工智能大模型的学习资源: 人工智能大模型是指具…

MySQL(创建、删除、查询数据库以及依据数据类型建表)

一、 1.创建数据库, mysql> CREATE DATABASE IF NOT EXISTS SECOND_DB; Query OK, 1 row affected (0.01 sec)2.删除数据库, mysql> DROP DATABASE IF EXISTS SECOND_DB; Query OK, 0 rows affected (0.11 sec)3.查询创建数据的语句,…

优化模型案例

案例1 生产决策问题 (一个简单的线性规划问题) 某工厂在计划期内要安排I、II两种产品生产。生产单位产品所需的设备台时,A,B两种原材料的消耗,资源的限制以及单件产品利润如下表所示 问工厂应分别生产多少单位产品I和…

修改开发板内核启动日志输出级别

1.用超级用户权限输入命令 2.将verbosity 1改成7,将console(控制) both 改成 serial(串口控制),然后wq保存退出 3.输入命令sudo reboot 查看启动日志输出级别

华为云CodeArts IDE Online:让你随时随地畅享云端编码乐趣

软件开发是把人类智慧以代码方式表达出来的过程,面对不可预知且快速变化的世界,开发者面临着前所未有的巨大挑战。例如,软件交付周期和迭代速度要求更高、开发者需要快速学习各种新技术、开发时间碎片化严重、分散的交付团队协同困难、开发与…

微信小程序接入第三方后,不能及时发送客服消息

微信小程序接入第三方后,不能及时发送客服消息 1、要把这里关了,后台才能及时收到用户发来的消息

机器学习16:使用 TensorFlow 进行神经网络编程练习

在【机器学习15】中,笔者介绍了神经网络的基本原理。在本篇中,我们使用 TensorFlow 来训练、验证神经网络模型,并探索不同 “层数节点数” 对模型预测效果的影响,以便读者对神经网络模型有一个更加直观的认识。 目录 1.导入依赖…

Dubbo入门详解,API方式与SpringBoot方式

Hi I’m Shendi Dubbo入门详解,API方式与SpringBoot方式 在之前一直使用的自己编写的RPC框架,因为是自己编写的,功能上比不过市面上的开源框架,包括后面Spring Cloud系列,如果还用自己编写的话就需要去做整合之类的&am…

OpenResume一个功能强大的开源简历生成器,太炫了

OpenResume 是一个功能强大的开源简历生成器和简历解析器。目标是为每个人提供免费的现代专业简历设计,让任何人都能充满信心地申请工作。 核心优势 「实时UI更新」:当输入简历信息时,简历 PDF 会实时更新,因此可以轻松查看最终输出。 「现…

LeetCode刷题 | 647. 回文子串、516. 最长回文子序列

647. 回文子串 给你一个字符串 s ,请你统计并返回这个字符串中 回文子串 的数目。 回文字符串 是正着读和倒过来读一样的字符串。 子字符串 是字符串中的由连续字符组成的一个序列。 具有不同开始位置或结束位置的子串,即使是由相同的字符组成&#…

ModaHub魔搭社区:清华开源ChatGLM语言模型一键部署教程

目录 ChatGLM是什么 傻瓜式安装部署 一.下载 二、解压 ChatGLM懒人安装包 ChatGLM是什么 ChatGLM和ChatGPT类似,是由清华大学开发的开源大型语言模型。由于它是开源的,所以带来了很多的可能性,比如可以像Ai绘画一样自己微调模型。 目前…

老板说,给我把这个 JS React 项目迁移到 TypeScript

在我们日益发展的网络开发领域中,JavaScript 长期以来一直是首选的语言。它的多功能性和普及性推动了许多应用和网站取得成功。然而,随着项目规模和复杂性的增长,维护 JavaScript 代码库可能变得具有挑战性、容易出错且难以扩展。 走出来的第…

5-Spring cloud之Feign的使用——服务器上实操

5-Spring cloud之Feign的使用——服务器上实操 1. 前言2. 搭建Feign2.1 添加子模块——dog-api2.1.1 子模块结构2.1.2 pom文件2.1.3 核心接口DogClientApi 2.2 添加子模块——dog-consumer-feign-802.2.1 子模块结构2.2.2 pom文件2.2.3 yml文件2.2.4 主启动类2.2.5 controller …

Linux里git的使用

git的使用 一.前置要求1.git的安装2.注册Gitee并创建仓库 二.git三板斧 一.前置要求 1.git的安装 2.注册Gitee并创建仓库 然后记住下面的网址。 之后将仓库克隆到云服务器里。记得输入gitee的账号和密码。 查看目录,可以发现仓库已经在目录里了。 进入目录&#xf…

python毕设课设大作业《火车票分析助手》程序

在PyCharm中运行《火车票分析助手》即可进入如图1所示的系统主界面。 图1 系统主界面 具体的操作步骤如下: (1)在主界面“车票查询”选项卡中依次输入,出发地、目的地以及出发时间,然后单击“查询”按钮,…

十九、Jenkins版本构建完成,触发自动化测试

十九、Jenkins版本构建完成,触发自动化测试 1.构建后操作-Build other projects 2.关联自动化测试工程 这样版本构建完成,就会执行自动化测试

金九银十跳槽涨薪Java面试题!568页真题+答案解析,大厂都在考

2023年一半又过去了,各大企业的招聘也又开始大量放岗了,各位苟着的小伙伴们要抓住机会了! 但很多小伙伴对面试不够了解,不知道如何准备,对面试环节的设置以及目的不了解,尤其是面试题还很难,有些…

RocketMQ5.0--事务消息

RocketMQ5.0–事务消息 一、事务消息概览 RocketMQ事务消息的实现原理基于两阶段提交和定时事务状态回查来决定消息最终是提交还是回滚,消费者可以消费事务提交的消息,如下图所示。事务消息的作用:确保本地业务与消息在一个事务内&#xff0…

成功解决:java file outside of source root

前言 我复制一个很小项目的代码,然后重新命名后。用IDEA打开,发现.java文件的左下方有个橘色的标志。 1、问题文件 这里显示 Java file outside of source root。 查阅资料发现:这个问题是指Java文件不在源代码根目录之内。这可能会导致…

使用pytest命令行实现环境切换

目录 前言 pytest_addoption(parser, pluginmanager) 在conftest.py文件中定义命令行参数 获取命令行参数 设置不同环境的全局变量 定义测试类及测试方法 测试验证 前言 在自动化测试过程中经常需要在不同的环境下进行测试验证,所以写自动化测试代码时需要考…