脑机接口、嵌入式 AI 、工业级 MR、空间视频和下一代 XR 浏览器丨RTE2024 空间计算和新硬件专场回顾

news2024/11/18 21:32:59

在这里插入图片描述

这一轮硬件创新由 AI 引爆,或许最大受益者仍是 AI,因为只有硬件才能为 AI 直接获取最真实世界的数据。

在人工智能与硬件融合的新时代,实时互动技术正迎来前所未有的创新浪潮。从嵌入式系统到混合现实,从空间视频到脑机接口,这些前沿领域正以惊人的速度推进,为未来的人机交互描绘出令人振奋的蓝图。在本届 RTE2024 大会上,来自产业界和学术界的多位专家深入探讨了这些技术的最新进展及其潜在应用。

闪极科技 CTO 周万程、声网视频工程师许振明、萤火空间创始人邵鹏、姬械机科技联合创始人卢树强以及 Rokid 前端工程师刘亚中等分享了他们在各自领域的研究成果和独到见解。

果壳创始人、未来光锥基金创始合伙人姬十三主持了主题分享和圆桌讨论环节。

周万程:有限硬件资源下嵌入式系统的 AI 实时音频算法

在这里插入图片描述

闪极科技 CTO 周万程 在分享中深入探讨了在嵌入式系统中实现 AI 实时音频算法的挑战与解决方案。他结合自己在电路与系统领域的背景,生动阐述了 「没有嵌入式,AI 则无翅」 这一观点。

随着 AI 技术的爆发式发展,如何将先进的 AI 功能部署到轻量级的边缘计算平台上,成为提升用户体验的关键技术。然而,嵌入式系统面临着处理能力、内存和功耗等硬件资源的严格限制。

针对这些限制,周万程提出了三个优化方向:

1、降低算法复杂度: 通过量化、减枝和低秩近似等技术,显著降低计算量。

2、数据优化: 利用多级缓存、数据预取和动态缓存等策略,提高数据访问效率。

3、硬件支持: 充分利用 DSP、ASIC 和 FPGA 等硬件加速单元。

展望未来,周万程认为 NPUFPGA 的可重构特性将为嵌入式 AI 带来巨大机遇。他强调,嵌入式系统中的机器学习将成为推动 AI 发展的重要力量,因为它们能直接接触到真实世界的数据。

在这里插入图片描述

许振明:空间视频在 RTC 直播中的应用探索

在这里插入图片描述

许振明 分享了声网团队在空间视频技术方面的最新探索,重点介绍了如何将空间视频应用于实时互动直播中。

要在 RTC 中实现空间视频,必须解决三个关键问题:3D 内容的生产、传输和渲染显示。

在内容生产方面,iPhone 15 Pro 的双摄像头设计使得消费级设备能够采集空间视频成为可能。此外,AI 生成的视频,如 SORA,也可以通过时间偏移技术模拟双目效果。

在传输方面,采用 Multi-view 编码技术可以节省超过30%的码率。与此同时,还需要考虑网络抖动、FEC 保护等 RTC 特有的问题。

渲染显示 是最具挑战的环节。为了实现流畅的空间视频体验,每只眼睛至少需要 1080p 30fps,理想情况下是 4K 60fps。这对渲染性能和系统调度精度提出了很高要求。声网通过多种优化手段来保证渲染质量。

许振明表示,声网提供了灵活的 API,开发者可以根据需求选择使用声网的采集、编解码、传输等能力。除了空间视频,声网还提供 空间音频、AI 降噪、Persona 等多项技术,支持更沉浸式的 RTC 体验。

在这里插入图片描述

邵鹏:混合现实 MR 和空间计算的未来与挑战

在这里插入图片描述

苏州萤火空间创始人兼 CTO 邵鹏 首先介绍了混合现实(MR)的概念,称其为增强现实(AR)的升级分支。MR 设备可以让用户同时看到真实世界和虚拟内容,并实现虚拟与现实的无缝融合和交互。他进一步详细解释了空间计算的不同层次,从 0 自由度(DOF)到 6DOF 再到 SLAM,每一层级都要求更复杂的硬件和算法支持。

在技术细节方面,邵鹏强调了实现高质量 MR 体验所面临的挑战,包括 稳定的空间算法、明亮的实景显示、清晰的 RGB 显示以及较大的视场角(FOV)。他预测,真正的消费级 MR 眼镜可能要到 2030 至 2035 年才能问世,这将需要在重量、续航、建模能力等多个方面达到高水平。

面对这些挑战,邵鹏提出了将计算任务上云的解决方案,认为这一策略可以使本地设备更加轻便,并大大延长续航时间。然而,他也指出,这种趋势可能对国内硬件厂商构成威胁,并呼吁加强对 SLAM空间计算的研究,以在未来的技术浪潮中保持竞争力。

最后,邵鹏展示了萤火空间的产品,介绍了其能够实时快速建立空间模型,并支持远程专家进行空间标注和指导的功能。他认为这种技术在远程协作培训等领域具有广阔的应用前景。

在这里插入图片描述

卢树强:脑机接口与俱身智能计算体系的前沿探索

在这里插入图片描述

姬械机科技联合创始人卢树强开门见山地解释道,「脑机接口本质上属于智能硬件,它是对大脑信号的采集与计算,并通过与外界设备或环境的交互来实现功能。」他进一步将脑机接口技术分为两类:侵入式(需要开颅)和非侵入式(皮肤外接触)。虽然这项技术在日常生活中尚不普及,但其巨大的潜力令人期待。

俱身智能 的主要体系可以分为两大类:一类是通过视觉传感器进行环境理解和任务执行;另一类是通过智能穿戴设备(包括脑机接口)来捕捉人体信息,用于训练人形机器人。

在介绍计算体系时,卢树强详细阐述了从数据采集、处理到重建、生成的完整流程。「与 VR、XR 技术不同,我们面对的是 多元高维度的数据,」他强调道,「这就要求我们具备高精度、高采样率的传感器,以及复杂的降噪和特征识别算法。」

在这里插入图片描述

刘亚中:多维沉浸,探索 XR 中的 Web 内容新体验

在这里插入图片描述

Rokid 前端工程师刘亚中介绍了 JSAR——一个创新的 Web XR 运行时与浏览器,旨在解决当前 Web XR 内容在 XR 空间中面临的两大挑战:

应用形态的限制: 目前,Web XR 内容在 XR 设备上只能选择呈现为平面网页或独占的 3D 场景,无法同时存在,这大大限制了 Web XR 的使用场景和体验。

3D 场景中的 UI 开发复杂性: 与传统的 2D 网页相比,在 Web XR 中开发简单的 UI 组件需要大量代码,这对开发者非常不友好。

**为了解决这两个问题,刘亚中和团队开发了 JSAR。**JSAR 使得 Web XR 应用能够与其他 2D 和 3D 应用并存,并简化了 3D 场景中的 UI 开发。通过深度缓冲等技术,JSAR 实现了 Web XR 内容与 Unity 等游戏引擎渲染的无缝集成。

JSAR 的架构设计: 每个 Web XR 应用都是一个独立进程,通过客户端与 Unity 进程通信。这不仅实现了多个应用的共存,还引入了空间音频等优势。

未来展望:JSAR 将扩展更多功能,包括支持运行 HTML、传统 2D 网页等,成为真正的下一代 XR 浏览器。

在这里插入图片描述

圆桌讨论:下一代计算平台的模样

在这里插入图片描述
在这里插入图片描述

在主题是「下一代计算平台的模样」的圆桌讨论中,来自「未来光锥前沿基金」的姬十三担任主持人,参与讨论的嘉宾包括周万程、许振明、邵鹏、卢树强和刘亚中。

谈及 Apple Vision Pro 的未来, 嘉宾们普遍认为尽管存在一些局限性,但这款产品为整个行业树立了新的标杆。卢树强观察到 Vision Pro 在游戏开发和个人使用方面的需求正在增长。许振明补充道,即便 Vision Pro 停产,它对行业的影响也已经深远。

在 AI 与硬件结合的话题上, 周万程强调了 反思型 AI 的重要性,认为未来 AI 应该能够根据用户的反馈不断改进。邵鹏从混合现实的角度出发,指出大语言模型、图像识别和 3D 模型理解将极大提升 MR 设备 的交互能力和应用场景。卢树强则预测,AI 在未来两三年内将主要提供基础信息服务,而在更远的未来,可能会实现 任务和操作 层面的服务。刘亚中则提出,大语言模型使得用户 不再依赖传统的网址输入 ,而是通过 AI 自动为其选择和提供相应服务,极大提升了使用体验。

关于下一代计算平台 , 专家们提出了多元化的观点。卢树强认为 人形机器人 可能成为重要的计算平台,预计在十年内可能出现雏形。许振明则看好 汽车作为潜在的计算中心 ,特别是在自动驾驶领域。邵鹏坚持认为 云计算 仍将是主要的计算平台,但 AR/MR/VR 设备可能成为重要的人机交互界面。周万程提出 未来的计算可能是分布式的, 利用闲置的设备资源进行边缘计算。刘亚中则认为,AI 可能会引发硬件革命,用户们将能够 自行开发新的硬件 来满足他们的需求。
在这里插入图片描述

「无所不在的计算:空间计算和新硬件」技术专场由 RTE 开发者社区和未来光锥前沿基金联合出品。
在这里插入图片描述

RTE 开发者社区是聚焦实时互动领域的开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。这里你将遇见一群致力于改变人和人、人和世界,以及人和 AI 连接方式的开发者。
在这里插入图片描述

「未来光锥」是由果壳发起的科创品牌,致力于推动科研端与产业端相互融合,促进科技成果的高效转化。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2243027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python爬虫下载新闻,Flask展现新闻(2)

上篇讲了用Python从新闻网站上下载新闻,本篇讲用Flask展现新闻。关于Flask安装网上好多教程,不赘述。下面主要讲 HTML-Flask-数据 的关系。 简洁版 如图,页面简单,主要显示新闻标题。 分页,使用最简单的分页技术&…

Linux下编译MFEM

本文记录在Linux下编译MFEM的过程。 零、环境 操作系统Ubuntu 22.04.4 LTSVS Code1.92.1Git2.34.1GCC11.4.0CMake3.22.1Boost1.74.0oneAPI2024.2.1 一、安装依赖 二、编译代码 附录I: CMakeUserPresets.json {"version": 4,"configurePresets": [{&quo…

Win10/11 安装使用 Neo4j Community Edition

如果你下载的是 Neo4j Community Edition 的压缩包,意味着你需要手动解压并配置 Neo4j。以下是详细的使用步骤: 0. 下载压缩包 访问Neo4j官网,找到 Community Edition 版本并选择 4.x 或者 5.x 下载:https://neo4j.com/deployme…

Spring Boot教程之Spring Boot简介

Spring Boot 简介 接下来一段时间,我会持续发布并完成Spring Boot教程 Spring 被广泛用于创建可扩展的应用程序。对于 Web 应用程序,Spring 提供了 Spring MVC,它是 Spring 的一个广泛使用的模块,用于创建可扩展的 Web 应用程序。…

基于java+SpringBoot+Vue的智能物流管理系统设计与实现

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: Springboot mybatis Maven mysql5.7或8.0等等组成&#x…

智能零售柜商品识别

项目源码获取方式见文章末尾! 600多个深度学习项目资料,快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【基于CNN-RNN的影像报告生成】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实现…

【Mysql】Mysql函数(上)

1、概述 在Mysql中,为了提高代码重用性和隐藏实现细节,Mysql提供了很多函数。函数可以理解为封装好的模块代码。 2、分类 在Mysql中,函数非常多,主要可以分为以下几类: (1)聚合函数 &#xf…

sql数据库-分页查询-DQL

目录 语法 注意 举例 语法 select 字段列表 from 表名 limit 起始索引,查询记录数; 注意 起始索引:即从第几条数据开始分页,简单理解为起始索引(查询页码-1)* 每页显示数据 分页查询在不同的数据库中有不同的方法。 查询第一页…

vue使用List.reduce实现统计

需要对集合的某些元素的值进行计算时,可以在计算属性中使用forEach方法 1.语法:集合.reduce ( ( 定义阶段性累加后的结果 , 定义遍历的每一项 ) > 定义每一项求和逻辑执行后的返回结果 , 定义起始值 ) 2、简单使用场景:例如下面…

CVE-2024-2961漏洞的简单学习

简单介绍 PHP利用glibc iconv()中的一个缓冲区溢出漏洞,实现将文件读取提升为任意命令执行漏洞 在php读取文件的时候可以使用 php://filter伪协议利用 iconv 函数, 从而可以利用该漏洞进行 RCE 漏洞的利用场景 PHP的所有标准文件读取操作都受到了影响&#xff1…

关系型数据库和非关系型数据库详解

文章目录 关系型数据库和非关系型数据库详解一、引言二、关系型数据库1、关系型数据库简介1.1、SQL语言 2、关系型数据库的实际应用3、关系型数据库的优点4、关系型数据库的缺点 三、非关系型数据库1、非关系型数据库简介1.1、灵活性示例 2、非关系型数据库的分类3、非关系型数…

STM32设计井下瓦斯检测联网WIFI加Zigbee多路节点协调器传输

目录 目录 前言 一、本设计主要实现哪些很“开门”功能? 二、电路设计原理图 1.电路图采用Altium Designer进行设计: 2.实物展示图片 三、程序源代码设计 四、获取资料内容 前言 本系统基于STM32微控制器和Zigbee无线通信技术,设计了…

前端搭建低代码平台,微前端如何选型?

目录 背景 一、微前端是什么? 二、三大特性 三、现有微前端解决方案 1、iframe 2、Web Components 3、ESM 4、EMP 5、Fronts 6、无界(文档) 7、qiankun 四、我们选择的方案 引入qiankun并使用(src外层作为主应用) 主应…

前端 - 使用uniapp+vue搭建前端项目(app端)

文章目录 前提概要项目搭建1、打开HBuilder工具,选择文件->新建->项目2、下载依赖,需要先手动创建package.json文件,在自定义文件的最外层3、创建文件夹4、创建忽略文件 .gitignore5、创建vue.config.js文件 ,解决跨域问题&…

【IC每日一题:IC常用模块--RR/handshake/gray2bin】

IC每日一题:IC常用模块--RR/handshake/gray2bin 1 RR仲裁器2 异步握手信号处理3 格雷码和二进制相互转换 1 RR仲裁器 应用:在多个FIFO请求pop时存在仲裁策略,还有比如多master申请总线控制权的仲裁等这些应用场合;假如当前是最高…

2024 - 超火的多模态深度学习公共数据纯生信5+思路分享

超火的多模态深度学习公共数据纯生信5思路分享 多模态深度学习具有处理和整合多种类型信息的优势,特别是在预测患者预后方面能够结合不同类型的生物医学数据,如临床数据、基因表达数据、蛋白质组学数据、成像数据等,进而提高预后预测的准确性…

抽象java入门1.5.3.1——类的进阶

前言:在研究神技代码Hello word的时候,发现了一个重大公式bug,在代码溯源中,我发现了一个奇怪的东西,就是OUT不是类中类(不是常规类的写法) 内容总结: 代码运行的顺序复习 正片开始…

k8clone二进制工具迁移k8s中的无状态应用

1 概述 k8clone是一个简便的Kubernetes元数据克隆工具,它可以将Kubernetes元数据(对象)保存为本地压缩包,在恢复时可将这些元数据恢复到目标集群中(已存在的资源不会被覆盖)。它不依赖远程存储&#xff0c…

HelloMeme 上手即用教程

HelloMeme是一个集成空间编织注意力的扩散模型,用于生成高保真图像和视频。它提供了一个代码库,包含实验代码和预训练模型,支持PyTorch和FFmpeg。用户可以通过简单的命令行操作来生成图像和视频。 本文将详细介绍,如何在GPU算力租…

Chrome 浏览器开启打印模式

打开开发者工具ctrl shift p输入print 找到 Emulate CSS print media type