微软 AI 研究团队推出 SIGMA:一个开源研究平台,旨在推动混合现实与人工智能交叉领域的研究与创新

news2025/1/11 22:44:35

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

生成式 AI、超大型语言模型、视觉模型和多模态模型的突破,为开放领域知识、推理和生成能力奠定了基础,能够支持开放式任务辅助场景。这不仅包括生成相关指令和内容,还为构建能与人类在现实世界中合作的 AI 系统提供了起点。这类应用包括混合现实任务助手、交互机器人、智能制造工厂、自动驾驶车辆等。

为了与人类无缝合作,AI 系统必须能够在多模态流中持续感知和推理其周围环境。这一要求不仅限于目标检测和追踪。为了实现有效的团队合作,所有参与者都必须了解物体的潜在功能、它们之间的关系、空间限制,以及这些因素随时间的变化。

这些系统不仅需要对物理世界进行推理,还需要理解人类行为。推理中应包括对实时协作行为的认知状态和社会规范的判断,并且还需涵盖对身体姿势、声音和动作的低级判断。

借助混合现实和 AI 技术(如大型语言和视觉模型)的组合,微软研究院推出了 SIGMA。这款互动程序可使用 HoloLens 2 指导用户完成流程任务。任务可以由大型语言模型(如 GPT-4)或任务库中手动定义的阶段动态生成。当用户在互动过程中提出开放式问题时,SIGMA 可以利用其强大的语言模型提供答案。此外,SIGMA 可以利用 Detic 和 SEEM 等视觉模型,在用户视野中定位并突出显示与任务相关的物体。

SIGMA 选择了几种设计方式来实现其研究目标。一个例子是客户端-服务器架构。HoloLens 2 设备运行轻量级客户端应用程序,将多个多模态数据流传输到更强大的桌面服务器。这些数据流包括 RGB(红、绿、蓝)、深度、音频、头部、手部和视线追踪信息。桌面服务器将数据和指令传送给客户端应用程序,以便在设备上显示内容,并执行应用程序的基本功能。通过这种设计,研究人员能够超越头戴设备当前的计算限制,并为将该程序扩展到其他混合现实设备打开了可能性。

SIGMA 的基础是名为 Platform for Situated Intelligence(psi)的开源架构,该架构支持多模态综合性 AI 系统的开发和研究。psi 框架提供高性能流媒体和日志基础设施,并允许快速原型制作。数据重放基础设施使数据驱动的应用级开发和调试成为可能。Platform for Situated Intelligence Studio 提供了丰富的可视化、调试、优化和维护支持。

虽然 SIGMA 目前的功能还不够完善,但它为未来混合现实与人工智能融合的研究奠定了基础。许多研究主题,特别是感知,可以使用收集的数据集进行探索,这些问题包括计算机视觉和语音识别。

SIGMA 是微软对该领域持续投入的一个例子,也是该公司探索新型人工智能和混合现实技术的代表。Dynamics 365 Guides 是微软为一线员工提供的另一款企业级混合现实解决方案。客户可以在 Copilot in Dynamics 365 Guides 中使用私有预览功能,获得逐步操作指导和工作流程相关信息。AI 和混合现实相结合,让这成为可能。Dynamics 365 Guides 为一线员工提供了强大的工具,可以在复杂操作中受益。

通过公开该系统,研究人员希望能帮助其他研究者解决构建全栈交互应用的基础工程任务负担,以便他们能够专注于本领域的新兴研究。

SIGMA: An open-source mixed-reality system for research on physical task assistance - Microsoft Research

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1651007.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YzmCMS 7.0任意函数调用RCE 漏洞研究分析

YzmCMS是一款基于YZMPHP开发的一套轻量级开源内容管理系统,YzmCMS简洁、安全、开源、免费,可运行在Linux、Windows、MacOSX、Solaris等各种平台上,专注为公司企业、个人站长快速建站提供解决方案。 YzmCMS 某些接口调用了 db_pdo类的where方法 导致了远程命令执行漏洞&#xf…

PLC学习笔记

PLC学习笔记 前言一、一些基操知识二、GX works2编程2.1 位逻辑1.2 中间寄存器1.3 PLC的扫描方式 总结 前言 我这个人真的是太渴望知识了~ 一、一些基操知识 一般X表示输入,Y表示输出。一般八个为一组X0~X7M表示中间寄存器,M0~M7时间T、计数C 二、GX …

操作系统:线程相关知识

目录 1.生产消费者模型 1.1.概念引入 1.2.基于阻塞队列的生产消费模型 1.3.POSIX信号量 1.3.1.再识信号量 1.3.2.信号量接口的学习 1.4.基于环行队列的生产消费模型 1.5.深刻理解生产消费模型 2.可重入函数与线程安全 1.生产消费者模型 1.1.概念引入 生产者-消费者模型…

AI换脸免费软件Rope中文汉化蓝宝石版本全新UI界面,修复部分已知错误【附下载地址与详细使用教程】

rope蓝宝石版:点击下载 注意:此版本支持N卡、A卡、CPU,且建议使用中高端显卡,系统要求win10及以上。 Rope-蓝宝石 更新内容: 0214版更新: ①(已修复)恢复到以前的模型荷载参数。有…

Hadoop3:HDFS的架构组成

一、官方文档 我这里学习的是Hadoop3.1.3版本,所以,查看的也是3.1.3版本的文档 Architecture模块最下面 二、HDFS架构介绍 HDFS架构的主要组成部分,是一下四个部分 1、NameNode(NN) 就是Master节点,它是集群管理者。 1、管…

Stack数据结构设计模板

第三章 栈、队列、数组 1.栈 1.1 顺序栈 #define MaxSize 20 typedef int ElemType; //顺序栈的定义 typedef struct {ElemType data[MaxSize];int top; }SqStack; // 初始化顺序栈 void InitSqStack(SqStack &S){S.top -1; }; // 入栈(增) bool Push(SqStack &S,El…

RabbitMQ之消费者并发消费

为什么要引入消费者的并发消费? 当生产者的推送速度是远远超过消费者的能力的,可以提高消费者的消费速度。比如在java中我们可以启动多个 JVM 进程,实现多进程的并发消费,从而加速消费的速度,在mq中也可以通过设置配置…

Git系列:Git Stash临时保存与恢复工作进度

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

python从0开始学习(五)

目录 前言 1、顺序结构 2、选择结构 2.1双分支结构 2.2多分枝结构 2.3嵌套使用 2.4多个条件的链接 总结 前言 在上篇文章中,我们学习了python中的运算符,本篇文章继续往下讲解。本篇文章主要讲解程序的组织结构。 1、顺序结构 顺序结构是程序按照…

UDP通讯的demo

udp通讯的demo,这个只是简单的实现。 后面我还会加入udp组播功能。 因为懒,所以我自己发,自己接收了。 经过测试,可以看到,发送消息和接收消息功能都没问题。 广播: 这个是点对点的通过对方的ip和端口发…

设计模式学习笔记 - 回顾总结:在实际软件开发中常用的设计思想、原则和模式

概述 本章,先来回顾下整个专栏的知识体系,主要包括面向对象、设计原则、编码规范、重构技巧、设计模式五个部分。 面向对象 相对于面向过程、函数式编程,面向对象是现在最主流的编程范式。纯面向过程的编程方法,现在已经不多见了…

网络网络层之(4)IPv4协议

网络网络层之(1)IPv4协议 Author: Once Day Date: 2024年4月4日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文档可参考专栏:通信网络技术_Once-Day的…

设置 kafka offset 消费者位移

文章目录 1.重设kafka消费者位移2.示例2.1 通过 offset 位置2.2 通过时间2.3 设置到最早 1.重设kafka消费者位移 维度策略含义位移Earliest把位移调整到当前最早位移处位移Latest把位移调整到当前最新位移处位移Current把位移调整到当前最新提交位移处位移Specified-Offset把位…

奥威-金蝶BI现金流量表模板,可借鉴、可套用

企业现金流一旦出了问题都是大问题,会直接影响到企业的日常运作,甚至直接关系到企业能不能继续存活,因此现金流量表是企业财务分析中重要报表之一,也是企业监控财务监控情况的重要手段之一。那么这么重要的一份现金流量表该怎么做…

Angular中创建和使用服务

Angular中的服务 文章目录 Angular中的服务前言一、创建服务二、使用服务 前言 Angular 服务是 Angular 应用程序中用于封装可重用逻辑的类。服务在应用程序的多个组件之间共享数据和功能,而不依赖于应用程序的UI。服务可以用于诸如数据处理、与后端通信、用户身份…

Verilog中4位数值比较器电路

某4位数值比较器的功能表如下。 请用Verilog语言采用门级描述方式,实现此4位数值比较器 参考代码如下: (CSDN代码块不支持Verilog,代码复制到notepad编辑器中,语言选择Verilog,看得更清楚) t…

芸众商城电商专业版400+插件源码+搭建教程

介绍: 芸众商城社交电商系统SAAS平台前端基于vue开发,后端基于研发积分商城系统源码 php,本文安装芸众商城全插件(400多个)商业版平台源码,可同时支持多端口部署运行;使用宝塔面板一键部署的形…

Linux:进程等待 进程替换

Linux:进程等待 & 进程替换 进程等待wait接口statuswaitpid接口 进程替换exec系列接口 当一个进程死亡后,会变成僵尸进程,此时进程的PCB被保留,等待父进程将该PCB回收。那么父进程要如何回收这个僵尸进程的PCB呢?父…

bfs之八数码

文章目录 八数码解题思路图解举例算法思路 代码CPP代码Java代码 八数码 在一个 33的网格中,1∼8这 8个数字和一个 x 恰好不重不漏地分布在这 33 的网格中。 例如: 1 2 3 x 4 6 7 5 8在游戏过程中,可以把 x 与其上、下、左、右四个方向之一…

学成在线 - 第3章任务补偿机制实现 + 分块文件清理

7.9 额外实现 7.9.1 任务补偿机制 问题:如果有线程抢占了某个视频的处理任务,如果线程处理过程中挂掉了,该视频的状态将会一直是处理中,其它线程将无法处理,这个问题需要用补偿机制。 单独启动一个任务找到待处理任…