让机器人懂得人类“常识”,3D语义地图能做到吗?

news2025/2/25 17:17:52

机器人需要一张保姆级地图。

图片来自网络

随着机器人的智能化技术不断迭代,对于复杂的行为决策、人机交互等任务仅感知环境的空间几何信息已无法满足要求,它需要让机器人能够像人一样,懂得环境中的物体类别及其位置,即环境的语义信息。以扫地机器人为例,一个清扫餐桌底部的任务便要求它需要知道目标的类别和位置。然而目前主流的传统2D栅格地图、拓扑地图虽然能够描述环境中存在的障碍物几何特征及其环境结构信息,但却缺乏机器人用于理解环境、人机/物机交互等业务逻辑的高层次语义信息,相反,3D语义地图不仅包含物体及环境的结构信息,还有物体类别、功能属性等“常识”性信息,可以说是机器人的保姆级地图。

从技术角度而言,3D语义地图的地图模型是针对真实场景的三维环境重构,包含区域性场景信息及场景中每个独立物体的属性、空间中的三维模型、位姿信息等,使机器人在语义层次上理解环境信息,模仿人类大脑对环境理解的方式,从而为实现更高层次的智能化操作提供信息支持。

如何构建3D语义地图?

要构建3D语义地图,前提是需要提取出你所需要的物体特征,并进行语义切割。INDEMIND在实现构建3D语义地图中,采用了立体视觉技术路线,通过对双目视觉传感器获取到3D视觉点云信息进行点云聚类,并结合边缘端的嵌入式深度学习和VSLAM算法,输出个体性物体语义和区域性场景语义,从而实现3D语义地图构建。

在真实场景中,无论是家庭、公司还是超市,大多拥有着3个及3个以上的细分场景,且这些场景大多有着相似性,当机器人收到指定房间作业任务后如何快速准确地理解房间的功能属性,找到对应房间,并能根据不同房间的功能属性进行个性化作业还需要极高的场景理解准确度。

因此,INDEMIND是根据输出的区域性场景语义和个体性物体语义二者融合的方式实现场景理解。首先,根据获取到的区域性场景语义信息,进行整体特征识别;其次,会根据个体性物体语义识别,对场景中一系列独立个体信息进行识别,并作为场景特征标志,最终通过二相叠加判断,实现准确稳定地场景理解。

在实际表现中,应用3D语义地图的机器人,结合INDEMIND VSLAM算法和智能决策引擎,在AI识别、智能避障、指令智能作业、人机/物机交互等方面均有优异表现。

在AI识别和避障方面,基于3D语义地图,能够快速提取环境中各类图像特征,结合深度学习可立体识别行人、动物、固定/移动物体等个体性障碍物,以及楼梯、自动扶梯等危险场景,避免危险情况发生,这种结合物体3D信息的识别和避障效果的稳定性、准确率都得到显著提升。同时,通过识别到与显示匹配的障碍物3D信息,机器人还可做出类似人类规避动作的精细化操作,能够让机器人有预判、有策略的实现主动避障。

障碍物检测示意

在交互和智能作业方面,3D语义地图通过对场景中独立个体、房间信息做语义识别及物体分割,机器人懂得人类“常识”后,便能实现高层次的交互逻辑,配合INDEMIND自研的自然语言交互技术,可通过语音、手势、动作等指令,命令机器人进行安全、搜寻、跟随、自主寻路、定向清扫等多种智能作业逻辑。以定向清扫为例,发布语音命令:“清扫一下卧室”可被识别为针对地图上识别到的卧室区域进行一次规划清扫,告别粗糙的交互体验。

目前,3D语义地图技术已应用到INDMEIND推出的家用机器人导航方案「家用机器人AI Kit」和商用机器人导航方案「商用机器人AI Kit」中,两种方案的市场表现均得到了客户的广泛认可。

值得一提的是,两种方案由于采用视觉技术路线,在成本方面相对于竞品均有着明显优势。「家用机器人AI Kit」在实现同等水平的技术效果的同时,成本只有激光雷达融合方案的1/3,且激光视觉融合方案虽然也能获取到场景中的语义信息,但受限于传感器限制,事实上只能识别到物体的二维信息,无法构建3D语义地图。「商用机器人AI Kit」相比激光雷达方案,成本下降了60-80%,机器人开发成本最低可以下探到2千元以内,包含导航和电池的完整底盘成本则可以下探到5千元以内,显著降低机器人的开发成本和周期。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/863038.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

字节跳动基于火山引擎DataLeap的一站式数据治理架构实践

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 在7月22日举行的 ArchSummit 全球架构师峰会(深圳站)上,来自火山引擎DataLeap的技术专家为大家带来了字节跳动基于火山引擎DataL…

day16:static、final、常量(static final)、

一、static 特点:属于类 、存储在方法去、只有一份或者只执行一次、随类运行执行 可以修饰静态变量 、静态方法 、静态代码块 静态变量能否继承? 静态变量属于类,是共享的资源,不认为是被继承的 静态变量不可以定义在静态方法中…

数据库数据恢复-Oracle数据库数据恢复案例

数据库数据恢复环境: Oracle数据库ASM磁盘组有4块成员盘。 数据库故障&分析: Oracle数据库ASM磁盘组掉线 ,ASM实例无法挂载,用户联系我们要求恢复oracle数据库。 数据库数据恢复工程师拿到磁盘后,先将所有磁盘以只…

批量翻译多个文件夹,让你的文件管理更智能高效!

大家好!对于经常需要管理大量文件夹的你来说,每次手动逐个改名实在是一项繁琐且易出错的工作。现在,我们为你带来一款强大的文件夹批量改名工具,让你能够轻松实现多个文件夹的批量翻译,让你的文件管理更智能高效 第一…

学会烟感监控有多重要?办公楼真的有必要吗?

随着城市化和建筑规模的不断扩大,火灾风险也日益凸显。为了保障员工和财产的安全,以及及时应对潜在的火灾威胁,办公楼需要采取积极的预防措施。 因此,在这一背景下,安装有效的烟感监控系统变得至关重要。 客户案例 ​…

AI抢饭碗!多部由Midjourney+Runway,制作的电影火了!丨IDCF

ChatGPT等生成式AI正在重塑各个行业的工作模式,尤其是影视领域。最近,多部由MidjourneyRunway生成式AI制作的电影预告片在社交平台上火了。 一部名叫的《芭本海默》的电影从对白、场景、人物、切镜完全由生成式AI制作完成并受到了用户的好评。该片结合了…

PHP 之房贷计算器、组合贷

一、等额本金 // (等额本金) //$loanAmount>贷款金额 //$loanPeriod>贷款年限 //$interestRate>贷款利息 function calculateEqualPrincipalPayment($loanAmount, $loanPeriod, $interestRate) {$monthlyPrincipal $loanAmount / ($loanPerio…

C#引用Web Service 类型方法,添加搜索本地服务器Web Service 接口调用方法

首先保证现在网络能调用web service接口,右键项目添加服务引用 ![![在这里插入图片描述](https://img-blog.csdnimg.cn/555ba4fa5e2a418f8f85539a9406bcd6.png) 点击高级 添加web服务 输入搜索的服务器接口,选中你要添加调用的方法即可 添加完成调用方…

性能优化-react阻止子组件重渲染

因为父组件的状态变更会触发子组件的渲染,可以用shouldComponentUpdate或memo来阻止。下面就来介绍这两种方法。 类组件-shouldComponentUpdate 注:变化需要在render中打印,在component中检测不到 核心代码: 子组件中用shouldComponentUpda…

[保研/考研机试] KY87 鸡兔同笼 北京大学复试上机题 C++实现

描述 一个笼子里面关了鸡和兔子(鸡有2只脚,兔子有4只脚,没有例外)。已经知道了笼子里面脚的总数a,问笼子里面至少有多少只动物,至多有多少只动物。 输入描述: 每组测试数据占1行,…

互联网企业帮助中心,普遍都会有的痛点与挑战!

互联网企业不乏在线创意软件工具的“学习、帮助和支持”内容,但他们知道,他们增长最快的细分市场——新手用户——很难找到看似简单的问题的答案,例如“我如何裁剪这张照片”?等等常见问题,一时难觅。自然而然&#xf…

【MySQL】InnoDB存储引擎详解

InnoDB引擎是MySQL5.5版本之后默认的存储引擎 逻辑存储结构 首先是表空间Tablespace(ibd文件):一个mysql实力可以对应多个表空间,用于存储及记录,索引等数据 这些存储记录,索引等数据中是用段(Segment)来…

使用KETTLE工具在Oracle和Dm8之间迁移数据

oracle 代码测试数据 CREATE TABLE PRODUCT_CATEGORY ( PRODUCT_CATEGORYID NUMBER(11,0) NOT NULL , NAME VARCHAR2(255) NOT NULL ENABLE, PRIMARY KEY (PRODUCT_CATEGORYID) )INSERT ALL into PRODUCT_CATEGORY(PRODUCT_CATEGORYID, NAME)VALUES(2,国学) into PRODUCT_CATEG…

可以重复烧写的语音ic有哪些特征和优势

目录 一、简介可擦写的语音芯片,其实就是MCUflash的架构,无其他说法,就这一种说法。这个就是它最大的特征尤其是SOP8的封装类型的芯片,是区别于OTP类型的另一个品类,基本上OTP的语音芯片适用的场景。他都可以满足和替代…

【冒泡排序及其优化】

冒泡排序及其优化 冒泡排序核心思想 冒泡排序的核⼼思想就是:两两相邻的元素进⾏⽐较 1题目举例 给出一个倒序数组:arr[10]{9,8,7,6,5,4,3,2,1,0} 请排序按小到大输出 1.1题目分析 这是一个完全倒序的数组,所以确定冒泡排序的趟数&#xff0…

机器学习笔记之优化算法(十三)关于二次上界引理

机器学习笔记之优化算法——关于二次上界引理 引言回顾:利普希兹连续梯度下降法介绍 二次上界引理:介绍与作用二次上界与最优步长之间的关系二次上界引理证明过程 引言 本节将介绍二次上界的具体作用以及它的证明过程。 回顾: 利普希兹连续…

svg圆形进度条

css3实现的圆形进度条较复杂&#xff0c;代码量较多&#xff0c;本文稍微讲解下如何使用svg实现圆形进度条。 svg实现一个圆用<circle>元素&#xff1a; <svg viewBox"0 0 100 100" xmlns"http://www.w3.org/2000/svg"><circle cx"50…

腾讯云服务器CPU标准型S5/S6/SA3/SR1/SA2处理器大全

腾讯云服务器CVM标准型CPU处理器大全&#xff0c;包括标准型S6、SA3、SR1、S5、S5se、SA2、S4、SN3ne、S3、SA1、S2ne实例CPU处理器型号大全&#xff0c;标准型S6云服务器CPU采用Intel Ice Lake(2.7GHz/3.3GHz)&#xff0c;标准型S5采用Intel Xeon Cascade Lake 8255C/Intel Xe…

day4 USART串口的应用

同步和异步通信 通信&#xff0c;最少要有两个对象&#xff0c;一个收&#xff0c;一个发。 同步通信&#xff1a;一般情况下同步通信指的是通信双方根据同步信号进行通信的方式。比如通信双方有一个共同的时钟信号&#xff0c;大家根据时钟信号的变化进行通信。 异步通信&…

Stable Diffusion - 幻想 (Fantasy) 风格与糖果世界 (Candy Land) 人物提示词配置

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://spike.blog.csdn.net/article/details/132212193 图像由 DreamShaper8 模型生成&#xff0c;融合糖果世界。 幻想 (Fantasy) 风格图像是一种以想象力为主导的艺术形式&#xff0c;创造了…