机器人视觉梳理(下)

news2024/10/5 14:24:27

原创 | 文 BFT机器人 

03 

机器人3D视觉应用案例

1.波士顿动力Atlas

Atlas 使用 TOF 深度相机以每秒 15 帧的速度生成环境的点云,点云是测距的大规模集合。Atlas 的感知软件使用一种名为多平面分割的算法从点云中提取平面。多平面分割算法的输入馈入到一个映射系统中,该系统为 Atlas 通过相机看到的各种不同对象构建模型。

下图显示了 Atlas 的视觉以及如何使用这种视觉感知来规划行为。左上角是深度相机拍摄的红外图像。主图像中的白点形成点云。橙色轮廓标记了检测到的跑酷障碍物的矩形面,随着时间的推移从传感器观察结果中对其进行跟踪。然后将这些检测到的对象用于规划特定行为。例如,绿色的脚步代表下一步要跳到哪里。

图:TOF视觉的深度感知与决策

2.特斯拉OPTIMUS

由于在电动车FSD积累的成熟的视觉感知技术,特斯拉机器人的 3D传感模块以多目视觉为主,使用三颗Autopilot摄像头作为感知系统,在采集信息后,通过强大的神经网络处理和识别不同任务,依靠其胸腔内部搭载的 FSD 全套计算机完成。

图:特斯拉的三颗Autopilot摄像头画面

3.小米CyberOne

CyberOne搭载的Mi-Sense深度视觉模组是由小米设计,欧菲光协同开发完成。由于Mi-Sense深度视觉模组的相关资料不多,所以可以从欧菲光自研的机器视觉深度相机模块进行观察。该模块主要由iToF模组、RGB模组、可选的IMU模块组成,产品在测量范围内精度高达1%,应用场景十分广泛,可通过第三方实验室IEC 60825-1认证,满足激光安全Class1标准。

图:CyberOne传感器模块

4.优必选WALKER X

优必选WALKER X采用基于多目视觉传感器的三维立体视觉定位,采用Coarse-to-fine的多层规划算法,第一视角实景AR导航交互及2.5D立体避障技术,实现动态场景下全局最优路径自主导航。WALKER应用视觉SLAM算法,视觉定位技术已经达到商用水平。

图:优必选WALKER的视觉应用

04

 多模态GPT+机器人视觉,开启无限可能

在ChatGPT和GPT-4发布后,全球对于OpenAI的关注度持续提升。

GPT-4具备强大的文本和图像处理功能,而未来的GPT-5将在多模态理解方面表现更加出色,甚至能加入音频和视频的处理服务。未来多模态有望在机器人视觉领域得到广泛应用,输入输出将包括3D模型,有望赋能机器人感知、规控和仿真能力,也有望提高3D模型生产效率,助力游戏内容与元宇宙构造。

多模态AI模型有望具备与真实世界所有输入交互的能力,极大提升人形机器人的能力,加速人形机器人加速普及。

目前,虽然多模态GPT还未完全研发和应用,但类似的多模态大模型已经初显威力,吹响了多模态GPT的号角。

1.Meta SAM

Meta发布AI图像分割模型Segment Anything Model,该模型将自然语言处理领域的prompt范式引入计算机视觉领域,可以通过点击、框选和自动识别三种交互方式,实现精准的图像分割,突破性地提升了图像分割的效率。

英伟达人工智能科学家 Jim Fan 表示:「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和模棱两可的情况下也能进行很好的图像分割。最重要的是,模型和数据都是开源的。恕我直言,Segment-Anything 已经把所有事情(分割)都做的很好了。」

所以,SAM证明了多模态技术及其泛化能力,也为未来GPT向多模态方向发展提供指引。

图:SAM的图形切割

2.微软 KOSMOS-1

微软推出多模态大语言模型 KOSMOS-1,印证大语言模型能力可延伸至 NLP 外领域。

该模型采用多模态数据训练,可感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生成回答的能力。

经过测试比较,KOSMOS 在语言理解、语言生成、无 OCR 文本分类、常识推理、IQ 测试、图像描述、零样本图像分类等任务上都取得了相比之前其他单模态模型更好的效果。

专家测试了 KOSMOS-1 的不同能力,并分别与其他 AI 模型进行了对比,包括:

  • 语言任务:语言理解、语言生成、无 OCR 文本分类(不依赖光学字符识别直接理解图中文本)

  • 跨模态迁移:常识推理(如提问物体的颜色,问两个物体比大小,将 KOSMOS-1 和单模态的大语言模型比较,发现 KOSMOS-1 受益于视觉知识能完成更准确推理)

  • 非语言推理:IQ 测试(如图中的图形推理)

  • 感知-语言任务:图像描述生成、图像问答、网页问答

  • 视觉任务:零样本图像分类、带描述的零样本图像分类(如图中的鸟类识别问题)

图:KOSMOS-1 的多种能力展示,包括:(1-2)视觉解释(3-4)视觉问答(5)网页问题解答(6)简单数学方程(7-8)数字识别

05 

机器人视觉与多模态GPT之间的交互关系

1.机器人视觉为多模态GPT提供大量训练样本

由于GPT是大规模模型,模型的训练需要很大数量的样本,而四处活动的机器人可以获取大量图片、视频等信息,可以作为GPT的训练样本。

特斯拉的Optimus机器人在训练视觉算法时,采用的数据集来自于特斯拉自动驾驶电动车采集的大量图像信息,这些自动驾驶带来的样本量远大于人工采集的样本量。同理,训练GPT模型时,可以使用高度自动化的机器人采集的各种情形下的图像信息作为训练样本,满足GPT模型对大规模数据量的需求。

2.GPT为机器人提供与人类交互的能力,间接带动机器人视觉产品的起量

GPT为机器人带来的最核心的进化是对话理解能力,具备多模态思维链能力的GPT-4模型具有一定逻辑分析能力,已不再是传统意义上的词汇概率逼近模型。

机器人接入GPT的可以粗略分为L0~L2三个级别:

  • L0是仅接入大模型官方API,几乎没有做二次开发,难度系数较低;

  • L1是在接入大模型的基础上,结合场景理解满足需求做产品开发,这才达到及格线;

  • L2则是接入大模型的机器人企业基于本地知识做二次开发,甚至得到自己的(半)自研大模型(平民化大模型),解决场景问题,产品能做出来、卖出去,这才达到优秀线。

图:接入GPT的Ameca机器人的情绪表达

用好GPT只是技术的一部分,更大的难度在于机器人本身。

如果机器人本身的传感器不能获取最准确的语音、图片、视频等信息,接入的GPT模型就很难达到期望的效果。虽然接入GPT应用的接口只是一瞬间的事,但打好机器人“身体底子”、进一步叠技能却仍是一件难度较高的事,不是人人都具备“入场券”,能推出最先进的机器人视觉产品的厂商将在新机器人市场取得主动权。

文章参考:热点投研

编辑:BFT机器人

更多精彩内容请关注公众号:BFT机器人
本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/652723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux运维监控学习笔记3

通过Zabbix-agent监控远程主机 1、在agent1上安装abbix-agent包: yum install -y zabbix-agent 2、配置zabbix-agent端的配置文件,启动服务器并进行开机自启动配置: vim /etc/zabbix/zabbix-agentd.confServer192.168.17.11 # 被动模式s…

【数据分析】如何使用docker部署程序并移植(算法、接口)

原文作者:我辈李想 版权声明:文章原创,转载时请务必加上原文超链接、作者信息和本声明。 文章目录 前言一、Docker的基本使用1.安装Docker2.列出本地镜像3.获取镜像,创建本地ubuntu:13.10镜像4.查找镜像5.删除本地镜像6.创建自定义镜像7.镜像…

数学专业毕业生做高性能计算工程师合适吗?

一般人看到数学专业都会很奇怪,学数学有什么用呢,能就业吗?其实不然。像数学、应用数学、物理、地球物理、化工等传统工科专业,在当今形式多变的就业环境下,反而是通用的香饽饽。 拿数学专业来举例,就有有许…

MATLAB | 如何使用MATLAB获取顶刊cell全部绘图(附带近3年全部图像)

众所周知,学习科研绘图、配色最好的办法就是去观摩顶级期刊上的作图,本来想着收集各个顶级期刊绘图提供给大家,但是每年的图像加起来大约3-5G,撑死也就能提供三四年的图像,再多内存可能不太够了,于是我写了…

【python】pandas-DataFrame类型数据重命名列表头

目录 0.环境 1.将DataFrame类型数据某一列重命名 0.环境 windows jupyter notebook python 使用场景: 在处理数据对齐的问题时,两个表格的对齐列名不相同(一个数据集是DataFrame类型,一个数据集是geopandas类型)&…

加速金融营销科技价值发现,神策数据双引擎赋能数字化客户经营

6 月 9 日,「开放融合,引领营销 5.0 新纪元——暨 2023 年金融营销科技价值发现论坛」在中国杭州成功举办。 神策数据创始人 & CEO 桑文锋发表了《双引擎赋能数字化客户经营》的主题演讲,并与数十位来自银行、证券、保险、互联网金融等领…

基于Eclipse+Java+Swing+Mysql实现进销存管理系统

基于EclipseJavaSwingMysql实现进销存管理系统 一、系统介绍二、功能展示1.登陆2.商品列表3.购买清单4.个人中心5.商品采购6、采购记录7、商品预警 三、数据库四、其它1.其他系统实现五.获取源码 一、系统介绍 用户:商品列表、购买清单、个人中心 管理员&#xff1…

腾讯安全升级三大原子能力,助力企业构建数字安全免疫力

数字化时代,企业如何治好“发展”与“安全”失调症?近日,腾讯安全、IDC、腾讯研究院等联合举办研讨论坛,发布“数字安全免疫力”模型框架,提出用免疫思维应对新时期下安全建设与企业发展难以协同的挑战。 (腾讯安全联合IDC发布“…

Redis入门 - Redis概念和基础

原文首更地址,阅读效果更佳!Redis入门 - Redis概念和基础 https://www.codermast.com/database/redis/introduce-redis.html 什么是NoSQL NoSQL,泛指非关系型的数据库。NoSQL最常见的解释是 "non-relational", 很多人…

Spring Boot整合Redis

文章目录 一、Redis概述二、使用Spring Boot 整合 Redis(一)搭建Redis环境(二)下载和安装Redis可视化管理工具(三)创建Spring Boot项目RedisDemo(四)创建实体类1、创建地址实体类 - …

建立和使用Python自定义模块

文章目录 (一)现状以及问题(二)Python模块(2.1)包的结构(2.2)包的位置(2.2.1)site-packages目录(2.2.2)dist-packages目录 &#xff0…

更新阅读量时的常见错误:脏读

最近在对开发完的项目进行测试,于是用到了Jmeter来进行压力测试…… 这里准备压测的是一个获取详情的方法,在获取详情的通知更新阅读量! 上图中代码的逻辑是: 1. 根据ID获取实体 2. 判断实体是否存在 3. 使用三目运算获…

【c++11】c++1特性

c11 c11简介列表初始化std::initializer_list autodecltypenullptr 结语 c11简介 从C0x到C11,C标准10年磨一剑,第二个真正意义上的标准珊珊来迟。相比于C98/03,C11则带来了数量可观的变化,其中包含了约140个新特性,以…

datax-web

【DataX-Web的搭建(Windows/Linux环境)_datax源码部署_zxj19880502的博客-CSDN博客 mirrors / WeiYe-Jing / datax-web GitCode https://github.com/WeiYe-Jing/datax-web/blob/master/userGuid.md 安装使用 这里只记录关键点 1、先安装datax、参考…

LED太阳能感应庭院灯开发方案

在庭院装修的时候,常会使用一些外部美观的照明灯,提供户外照明。为此,宇凡微推出了LED太阳能感应庭院灯方案,庭院灯控制芯片采用宇凡微YF单片机。 一、LED太阳能感应庭院灯方案的原理 太阳能感应庭院灯根据不同的设计需求&#xf…

dp算法篇Day4

"我把每一天都当做新开始&#xff0c;新革命。" 16、买卖股票的最佳时机含手续费 (1) 题目分析 完成一笔交易才算达成交易。但其实你可以将手续费加在任意一处上。 (2) 算法原理 class Solution { public:int maxProfit(vector<int>& prices, int fee)…

从敏捷到精益-漫谈敏捷实践

敏捷宣言与12条原则 让我们一起来回顾一下敏捷宣言和12条原则&#xff0c;不了解这些&#xff0c;怎么进行实践呢。 敏捷宣言&#xff1a; 个体与交互 胜过 过程与工具 可以工作的软件 胜过 面面俱到的文档 客户协作 胜过 合同谈判 响应变化 胜过 遵循计划 敏捷12条原则 1、…

Python学习49:词频统计

类型&#xff1a;文件‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬ 描述‪‬‪‬…

WPS表格:使用技巧

文章目录 1、时间1&#xff09;调整时间格式① 连接符② 将“常规、短日期、长日期”格式下的时间调整为自定格式③出现“数字”的情况④ 日期格式方便筛选、统计&#xff1b;转换格式&#xff1b;计算⑤出现#的几种情况⑥ 用“数据---分列”统一变成日期格式 2&#xff09;计算…

SpringBatch从入门到实战(三):作业参数

一&#xff1a;JobParameters传参 api获取 Spring Batch认为一个Job的唯一依据是 job_name hash(JobParameters) 作为联合主键盘 &#xff0c;所以每次执行都会传入一个唯一变动的参数&#xff0c;spring batch 就会认为这是不同的job&#xff0c;就可以重复执行同一个job。 …