前苹果设计总监创办,Humane想用AI+AR界面取代手机

news2024/12/28 21:53:26

在2001年,微软研究院一位工程师Gordon Bell开始了一段长时间的“生活记录”(Lifelogging)之旅,他会在胸前、头顶或是眼镜腿处佩戴相机,每30秒自动拍摄一张照片,以捕捉自己生命中的瞬间,记录下他发表的文章、演讲,以及家庭活动、即时通讯、电话、备忘录等内容。

也许是受到Bell的启发,市面也陆续出现了各种穿戴式相机方案,比如Google Clips、Narrative Clip 2,或是拍照眼镜Spectacles、Ray-Ban Stories等等。

Narritive Clip 2

时至今日,人们依然在探索可穿戴的相机,不同的是,一些方案选择与AR交互界面结合。比如近期,Humane联合创始人Imran Chaudhri公布了一款轻便的穿戴式AR投影仪,特点是搭载了AI驱动的相机和3D深度传感器,可智能感知周围环境,并显示AR界面,支持用空中手势操控。

不同于AR眼镜,穿戴式AR投影仪可将信息直接投影在手掌等任何表面,好处是可减少面部负担,实现一种裸眼AR效果。Humane还支持计算机视觉、AI助手等功能,可通过摄像头识别真实的物体,并与之产生互动。比如在菜单上显示评价、分析食品是否健康等等。交互方式上,除了手势敲击外,还可以通过语音、设备触控等其他方式操控UI。有趣的是,你可以单手操作界面,比如在手掌上用单手指快速播放音乐。

SixthSense

实际上,MIT Media Lab在2009年时就曾提出类似的概念设计:SixthSense,这是一个可穿戴AR手势交互界面,特点是将摄像头与投影仪结合,将AR投影在真实的物体上,并通过手势追踪(SixthSense用标记追踪手势)来实现与AR的交互。SixthSense方案依赖额外的计算模块(比如手机),相比之下Humane为一体式设计,体积可能更小。

接下来我们将详细讲解一下,Humane是一家什么样的公司,它又开发了怎样的产品。

01. 关于Humane

2018年时,前苹果设计总监Imran Chaudhri和软件工程总监Bethany Bongiorno成立了一家创新计算公司Humane,该公司宣称将通过创新计算方式,来探索更理想的人机交互体验,并暗示在开发某种穿戴式AR设备。

Humane创始人

Chaudhri此前曾为iPhone、Mac、Watch、AirPods等产品设计过交互界面。他表示:我们花费了大量时间来重新构想和设计计算机交互,尝试了复杂的语音命令和手势交互,以寻找更自然的人机交互方式。结合AI和AR投影,你可以将周围的环境变成操作系统,不需要再掏手机查询信息。

因此,Humane的宗旨是打造“隐形”的人机界面,只需要将小巧的计算模块戴在胸前,不需要戴眼镜或头显,也能直观、智能的增强人们的日常生活。Chaudhri表示:AI和环境计算可以让这成为现实。Humane不看好AR眼镜,因为AR眼镜具有侵入性,它将屏幕放在离人眼更近的地方,而且外观看起来并不自然,甚至可能干扰人和人面对面互动。相反,其认为应该减少屏幕的干扰,用环境计算来让人与世界更自然的交互。

在今年3月,该公司完成1亿美元C轮融资,本轮融资由Kindred Ventures领投,微软、OpenAI创始人Sam Altman、沃尔沃、LG Technology Ventures、高通、老虎全球管理等参投。截至目前,该公司已累计融资超2.3亿美元。

Humane提出优质AI的指导原则(似乎也暗示了产品将深度绑定用户的生活隐私数据)

Humane还与多家公司达成合作,比如利用微软的云计算服务,并在设备中引入OpenAI技术。随着ChatGPT等技术大受欢迎,未来基于OpenAI技术的穿戴式AR相机也有望受到关注。除此之外,也在和LG、沃尔沃合作,探索AR相机与智能家居、汽车产品的结合。还与韩国SK Networks合作,对产品进行分销。

另有消息表示,苹果公司将不会和Humane展开合作,原因之一是Bongiorno和Chaudhri离开苹果时关系闹的很僵,其中Chaudhri将团队工作成果归功到自己身上。当然,这一消息仍不确定真假​。

02. 穿戴式AR投影仪

在早前申请的专利中,Humane已经描述了某种基于安卓系统的可穿戴AR设备,它的特点是通过基于激光投影,可在任何表面上显示AR图像。还搭载3D摄像头和深度传感器(LiDAR、ToF),可识别空中手势、3D场景。

目前,Humane还未公开首款设备的参数,不过从专利来看,或采用自带光学图像稳定器的180°FOV广角摄像头,生活片段可上云AI实时处理,支持生活记录直播,或者生活片段(记忆)搜索,具有上下文感知能力,看上去像是一个让AI记忆你的生活的设备,兼具直播、实时监测、回忆事件等模式。

该方案可以将AR界面投影到你的手掌上,显示时间/日期、数字键盘、导航、温度/恒温器UI等信息,在你不需要时则停止投影。除此之外,也可以将AR投影到你工作的台面上,协助烹饪、汽车修理等任务,比如标记对象、并提供与对象相关的文本或指令。

简单来讲,可以将它看作是一种全新的可穿戴设备和平台,完全基于AI构建,可模拟人与世界互动的方式,无需再依赖传统屏幕。Chaudhri表示:我们的首台设备将充分利用AI,并将这项技术用于任何场景。

它可以独立运行,无需和智能手机等其他设备配对。考虑到高通为Humane投资方和合作伙伴,其AR设备可能也基于高通芯片。你可以将Humane AR模块别在外套或衬衫上,高度刚好适合将AR显示在你眼前位置。它有有三种固定方式,可根据不同材质的服装采用夹子、胸针或磁吸设计。

专利中还涉及到云计算的用法,比如相机捕捉到的多媒体数据可上传至云端,并通过AI来分析上下文,转化为各种格式,比如图像、视频剪辑、音频剪辑、多媒体演示、图片库等等,并在可穿戴设备上下载和重放。

Humame在专利中指出,尽管移动设备自带摄像头很方便,但它通常不能很快的抓拍精彩瞬间,因为拿出手机打开相机还需要一个过程。相比之下,穿戴式相机可能只需要一个手势就能快速抓拍。不过缺点是,你不能灵敏的控制拍摄角度,这也是此前Google Clips存在的一个问题。

Humane在专利中指出,使用专业摄影图像数据来训练机器学习模型,可以更好的裁剪和编辑照片(还能自动匹配滤镜),从而优化拍摄效果。

据了解,Google Clips也是类似的穿戴式相机,卖点是可以自动选择场景,帮你按快门,Humane的区别是结合了AR显示。不过这样的穿戴式相机可能会被认为是侵犯隐私。而且训练AI算法也需要大量数据。

03. 应用场景

Humane可以像手机一样支持多种功能,区别是它将屏幕显示改为AR投影,省去了屏幕意味着整机尺寸更小。此外,Humane结合AI来优化UI,可以更智能的根据上下文调用不同的功能,比如在公交卡上显示余额等。在专利中,Humane还设想用AR将数字键投影在手掌上,并用另一只手触摸拨号的场景。

在近期举行的TEDTalk2023演讲中,Chaudhri展示了Humane AR模块在接打电话、信息提示、实时翻译、会议记录、备忘录、日历、导航等场景的应用,都是一些比较实用的场景。

理论上,Humane的AR投影方案还可以用来看电影,不过现阶段在清晰度、色彩、图像扭曲等方面依然有局限,虽然可以将电影投影在手掌上观看,但效果显然不如手机理想。

​在生活记录方面,Humane可结合AI来剪辑成不同的风格(纪录片、生活方式、抓拍、新闻摄影、体育、街头),或是用于直播、远程监控等等。

Humane表示:将AR和AI应用于生活,用来增强人类,在AI、ML和CV推动下,带领人类走进计算的下一个阶段。更重要的是,通过这种方式让计算界面变得“不可见”,更融入周围的环境,不干扰人与自然的互动,“让科技回归幕后”,让人类找回原本的生活方式。

接下来,Humane计划在今年发布首款产品,Chaudhri承诺会在未来几个月内公布更多细节。

参考:TheVerge,VRScout,xrgoespop,daringfireball

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/464986.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数字化转型导师坚鹏:金融科技与保险公司转型

金融科技与保险公司转型 课程背景: 数字化背景下,很多保险公司存在以下问题: 不了解保险公司数转型现状、困惑与成功方法? 不清楚金融科技如何赋能保险公司数字化转型? 不了解保险公司数字化转型标杆企业成功案…

Linux系统上C程序的编译与调试

gcc分布编译链接: 预处理(Pre-Processing)编译(Compiling)汇编(Assembling)链接(Linking) gcc -E hello.c -o hello.i #预处理 gcc -S hello.i -o hello.s #编译 gcc -c…

ThingsBoard教程更新通知,规则节点全解析系列更新

前言 自从 《ThingsBoard系列教程》 专栏上线,我收到了很多读者的认同和肯定,这是我一直坚持分享的理由之一,做有价值的事,帮助他人。前段时间因为写书和学习的原因,ThingsBoard专栏已经4个月没更新。这就导致一些读者…

【点击查看】讯飞星火正在回答···

Hi,开发者: 关于世界,你有过什么样的疑问?每一次的提问,都代表着我们在关注什么,思考什么,好奇什么。世界的每一次更新,都始于一个新的提问。 我是讯飞星火认知大模型,…

【爆肝更新】第二章:Python基础语法——保姆级,超万字!

这一章我们开始学习Python的基础语法,包含字面量,运算符,变量,字符串格式化,input函数等,这一章是为整个Python体系学习打好基础,所以一定要重视起来。 习惯看视频的同学可以看这个免费教程&am…

面试题30天打卡-day13

1、Linux 中的硬链接和软连接是什么,二者有什么区别? 在Linux系统下,有两种链接文件,一种是硬链接(Hard Link),一种是软链接,也称为符号链接(Symbolic Link)…

Linux-使用mobaxterm连接虚拟机ubuntu

一、准备工作 VMware:16.0.0 Ubuntu:18.4 MobaxTerm:链接:https://pan.baidu.com/s/1dNsahe9wO5KrWlWXtNqT0A?pwdaz39 提取码:az39 二、实操 1.检查系统是否安装ssh service sshd status 如果显示未安装&#xff0…

Notes/Domino的未来在于

大家好,才是真的好。 很多企业不谈论应用程序,让Domino的平台价值和市场前景变得有些黯淡。 毕竟作为全球第一款企业级的邮箱平台,过去大部分企业和组织都在使用Notes/Domino。而从10来年前,很多企业开始大规模地由Notes/Domino…

GPT-3.5 生成 Fabric Cypher

GPT-3.5 生成 Fabric Cypher GPT-3.5 生成 Fabric CypherFabric 架构图数据库节点设计图数据模型设计Fabric 快速开始指南下载必要资源配置 构建数据在graph-node-1节点构建股票图谱在graph-node-2节点构建高管图谱 GPT-3.5 生成 Fabric Cypher Here’s the table of contents:…

【Java】『蓝桥杯』10道编程题及答案(四)

系列文章 【Java】『蓝桥杯』10道编程题及答案(一) 本文链接:https://blog.csdn.net/youcheng_ge/article/details/130223115 【Java】『蓝桥杯』10道编程题及答案(二) 本文链接:https://blog.csdn.net/y…

五种PDF转Word免费的软件!(附带转换效果对比!)

本文将介绍种PDF转Word免费软件,让您快速将PDF文件转换为可编辑的Word文件。 随着现代科学技术的飞速发展,PDF格式已经成为我们工作和生活中常用的文档格式之一。PDF文件的格式是固定的,不容易被篡改,因此经常被用来制作各种关键文…

1691_python学习笔记之week3_递归

全部学习汇总: GreyZhang/python_basic: My learning notes about python. (github.com) 最初接触递归的时候觉得这个有点不好理解,怎么能够有这种思维方式?这完全不同于之前自己所能够了解的那种一加一等于二的方式。相对于能够看得见的那种…

企业采购都在用什么系统管理采购流程?ERP够用了吗?

ERP(企业资源计划)和采购管理系统都是企业信息化系统的一部分,它们在企业中扮演着不同的角色。下面是它们之间的区别:区别 功能不同:ERP系统是一个综合性的企业管理系统,覆盖范围广,包括财务、人…

Android12 material you 动态配色

动态配色功能是 Material You 设计的核心 一、完整的动态配色流程包括四个步骤,如下所示: 用户通过 OEM 选择器更改壁纸或主题。AOSP 逻辑会自动从所选壁纸中提取单一源颜色。将源颜色扩展到颜色API,AOSP 将单一源颜色扩展为 5 ,…

JS实现拼音(字母)匹配(搜索)汉字(姓名)

这就是个模糊查询,我们平常做的都是直接输入汉字去把对应的值过滤出来,但我还真是第一次通过拼音去查询(当然不只是拼音,汉字也是可以的),以前还真没注意这个。唉,这可咋搞,我怎么知…

python:面向对象编程(知识点+代码)

文章目录 一、类和对象1、对象属性的默认值设置2、对象属性的添加、修改与删除3 、类属性 二、类的继承 引言:面向对象编程时一门编程语言重要的功能,我们之前所学的 c,java都为面向对象编程语言,这里给大家拓展一下,…

getaddrinfo调用crash 的debug过程

前两天,产线报一例crash问题。拿到core文件后,栈展开信息: (gdb) bt #0 0x00007f64a3651aff in raise () from /lib64/libc.so.6 #1 0x00007f64a3624ea5 in abort () from /lib64/libc.so.6 #2 0x00007f64a3694097 in __libc_message () …

【论文阅读-ICSE2023】预训练目标对代码相关任务的影响

目录 简介有哪些预训练预训练的影响回答RQ1回答RQ2 总结 简介 Title: Automating Code-Related Tasks Through Transformers: The Impact of Pre-training1 Author: Rosalia Tufano, Luca Pascarella, Gabriele Bavota Published: ICSE2023 Abstract: 尽管现在很多研究能够证…

OSS的STS模式授权案例

OSS的STS模式授权 某云提供的权限管理系统主要包含两部分,RAM(资源访问管理)和STS(安全认证服务),以满足不暴露主账号AK\SK的情况下安全的授权别人访问的需求,STS提供的是一种临时访问授权。通…

XSS知识总结

XSS基础 跨站脚本(英语:Cross-site scripting,通常简称为:XSS)是一种网站应用程序的安全漏洞攻击,是代码注入的一种。它允许恶意用户将代码注入到网页上,其他用户在观看网页时就会受到影响。这…