具身智能火了,但规模落地还需时间

news2024/9/24 6:11:32

作者 | 辰纹

来源 | 洞见新研社

“人工智能下一个浪潮是具身智能,即能理解、推理并与物理世界互动的智能系统”, 英伟达CEO黄仁勋去年在ITF World 2023半导体大会上的预测正在成为现实。

5月份,日本横滨召开的国际顶级机器人学术会议(ICRA2024)上,人形机器人扎堆亮相。

7月份,上海世界人工智能大会(WAIC 2024)展出人形机器人“十八金刚”是整个大会“最靓的仔”。

8月份,在北京闭幕的世界机器人大会中,人形机器人成为当之无愧的“C位”主角,官方表示,这是人形机器人数量最多的一届大会,并且,现场有超过一半的观众都集中在人形机器人公司的展台。

很显然,和大模型一样,作为具身智能最重要的实体形态,人形机器人正在走向人工智能的舞台中央。

以上展出的各类机器人“能文能武”,会写字,会洗衣,做家务更是十项全能;能打咏春,能做拳击陪练,也能成为贴身保镖。

从场面上看,很热闹,但深入内里,这么火的具身智能,亦或是人形机器人,距离“凭本事吃饭”还有多远呢?

01 大模型带火机器人

在进行我们的讨论之前,首先要明确,什么是具身智能?

根据具身智能的英文翻译(Embodied artificial intelligence,EAI)可以发现,“本体”和“智能体”是两个非常重要的构成,具有“感知决策、物理实体、环境交互”的特征。

直白一点的理解就是,具身智能可以感知并理解周围环境,在物理环境中执行具体任务。

事实上,早在60多年前,自动化技术的先驱者欧姆龙公司就提出了“机器能做的事情让机器去做,人类应该从事富有创造性的活动”的观点,但终因技术尚未成熟,空有美好想法却难以落地。

从2022年开始,具身智能迎来了新一轮的发展期,背后的核心变量是大模型的发展。

8月2日,初创公司Figure AI发布人形机器人Figure02,在与OpenAI合作开发的AI模型的支持下,Figure02的对话交互更具实时性、常识推理能力也更加到位。

很显然,大模型技术为人形机器人实现更优的感知、决策、交互能力提供了技术基础,同样也为机器人实现大脑感知决策,小脑运动控制的泛化性带来了非常大的想象空间。

另外一面,人形机器人的硬件技术方面也有了长足的进步,2023年末特斯拉发布的Optimus Gen2搭载自研执行器,足部采用铰链式连接并配备力传感器,使得Gen2的行走速度较Gen1提升30%并具备更好的平衡性。

更加重要的是,特斯拉发布Optimus后,带动公司股价连续11个交易日收高,马斯克的身价也在这段期间膨胀了约670亿美元,进一步验证了市场对人形机器人商业化的前景,从而将科技圈的关注焦点又重新拉回到具身智能。

这里主要体现在三个方面。

一是全国各国政府在政策层面的引导。

其中,中国政策的短期目标在于实现核心零部件的技术突破,长期目标在于丰富产业应用和生态;海外的政策更多集中在前沿技术的攻关以及重要场景的落地等方面。

图片

中国人形机器人重要政策梳理  资料来源:各政府网站,中金公司研究部

二是下场的玩家多元,且竞争愈发激烈。

除了像优必选、波士顿动力、傅里叶智能这类以做本体、硬件见长的老牌机器人公司和一批近期涌现专注机器人产业的初创公司,比如智元机器人、银河通用机器人、星动纪元、逐际动力等之外,还有两派玩家。

其一是以科大讯飞、百度、腾讯、谷歌等为代表的科技大厂携带着感知认知的算法优势而来;其二则是以小鹏汽车、小米、追觅、特斯拉这类为代表的跨界厂商,这类玩家往往拥有比较确定的应用场景,以及可以共享的产业链。

三是资本对具身智能赛道的热情,毕竟真金白银投出去是为了有更多的回报。

据不完全统计,2023年国内有9家人形机器人企业获得累计超19亿元融资,今年上半年,国内有13家人形机器人企业融资总金额超25亿元,成立仅一年的银河通用机器人,在 6 月甚至获得超7亿人民币天使轮融资,估值达到数十亿人民币,被称为“年度最大天使轮”。

而以“先进制造-机器人”为标签,截至今年8月初,则发生了135笔融资。

02 机器人的手和脚,人类都还没“想”好

虽然行业很热闹,但是在研发和应用层面,人形机器人还是有诸多问题待解。

首当其冲的就是技术路线的收敛。

北航机器人研究所名誉所长,中关村智友研究院院长王田苗在“2024世界机器人大会”期间发表观点时就表示,“当前人形机器人还面临两大难点,一是机器人目前的‘软’件端,适合机器人的通用大模型和垂直专业模型,还在攻坚阶段;此外,灵巧手目前在技术和成本上都有需要攻克的难点。”

所谓的“软件“,指的是将复杂任务拆分为无数个子任务,各种子任务在现实的物理空间中相融合,其中就需要大模型技术的赋能,从而实现人机交互。

通俗的说,就是要让机器人拥有泛化能力,比如,家庭服务机器人,不用主人发号指令,就能主动安排自己的工作,将房屋清扫、做饭炒菜、物品收纳等家务能够按照轻重缓急的顺序逐一完成。

行业普遍认为,人形机器人在硬件上不存在壁垒,虽然目前不同厂商之间机器人在移动速度、负载能力等机械性能上存在不小的差距,但是这些差距并非不可逾越,时间和成本最终会抹平一切。

最终决定人形机器人能力高低的还是以软件为基础的泛化能力,只有拥有强大的泛化能力,人形机器人才能适应各种任务场景,才具备真正的“可用性“。

由机器人的泛化能力进行延伸,机器人的本体形态,末端执行器的选择,也就是人形机器人的脚和手的技术方向,行业的技术路线尚未有比较统一的共识。

关于机器人的移动能力,行业的主要分歧为双足和非双足的区分。

如果执着于具身智能所强调的“人形“,双足是不二之选,可是在当前的技术条件下,双足机器人的实用性、稳定性和开发成本等方面都要弱于轮式底盘为主的非双足方案。

两种方案都有各自的簇拥,前者认为,就像L4级自动驾驶一样,双足就是人形机器人的最终形态,从长远来看,双足的算法研究意义重大;后者认为,从商业化落地的视角来看,非双足方案的适用性更强,也符合“沿途下蛋“的思维。

相于脚的选择,手指方案的选择就更多了。

有的企业选择“一步到位“,对照着人类在机器人身上也安上了五根手指,如戴盟机器人的 Sparky 1 配备基于光学触觉传感器的五指灵巧手。

有的企业则先从二指夹爪、三指手出发,如星尘智能S1的双机械臂搭配二指夹爪,银河通用G1采用右夹爪和左吸盘组合,以及 UniX AI 家庭场景机器人 Wanda 的三指手。

技术路线之所以会出现百花齐放的现象,很大一个原因就是在没有形成统一标准之前,厂商们都想自己来定义这项技术。

事实上,相比手和脚的选择,更让人形机器人厂商们头疼的是数据的收集问题。

提升机器人的“软件”泛化能力,是需要训练数据的。

自动驾驶采集数据,只需在测试车辆上安装传感器就好了,机器人的训练数据,更多要采集人类的行为数据,这也是说,需要在从事具体工作的人类身上或者工作场景中安装传感器,当需要人类参与到数据收集时,这个事情就变得复杂了。

智元机器人公布了公司的数据采集计划,预计9月底建成一个有100台左右机器人的采样厂,对应150个工人,其目标是一个工人生产1000条数据/天,将数据采集的效率如何放在一旁先不谈,这种数据采集的模式是否可行,还有待后续观察。

03 人形机器人如何赚钱?

一个值得关注的细节,目前很多人形机器人企业已经进入到小批量量产阶段,部分产品的价格也被厂商们打到了10万以内。

例如,宇树科技G1人形机器人自5月发布以来,9.9万元定价引发热议。在2024世界机器人大会上,宇树科技宣布G1迎来量产版,设计更适应大规模生产。

智元机器人合伙人兼营销服副总裁姜青松在接受媒体采访时表示,智元双足人形机器人今年10月份开始量产,后期预计一个月生产100台,今年预计出货量200台左右,轮式机器人预计出货100台左右。

此外,EX机器人CEO李博阳向媒体透露,公司已实现量产盈利,今年内会有500台左右的生产数量,明年的出货量将进一步增加。

特斯拉方面也透露,明年将小批量生产人形机器人,计划在工厂部署超千台以辅助工作。

好消息很多,可是人形机器人距离真正的商业落地还是很远。

王田苗表示,现阶段无论15万还是10万或更便宜,主要还是面向科研平台展示,类似于自动驾驶行业中的线控底盘,目前的人形机器人产品更多是行业内的内部消化,同行们买来进行相关研发来用。

有行业人士分析表示,对应着自动驾驶的商业机会,具身智能,也就是人形机器人的发展过程中也有着三类机遇。

首先是像L4级自动驾驶一样,机器人本地的开发,瞄准人形机器人的终局提前占位,只要能够熬到具身智能时代的真正到来,自然能够爽吃一把。

其次是像自动驾驶在矿山、封闭园区、环卫清扫这样的特定场景中的应用,人形机器人的场景开发也有不少机会,只是现在阶段行业的探索尚未有明确的结果。

最后是上下游的产业机会,有时候卖铲子远比挖矿更赚钱。这里的上游包括智算中心的建设、算力芯片和端侧模型等方面的关键技术;下游则涉及到各种传感器、关节模组等,类似于自动驾驶中的各种雷达、智能座舱等。

对照着以上,人形机器人产业的发展路径其实已经非常清晰了。

虽然目前行业对于人形机器人在智能机器人领域的占比有不同观点,乐观派认为人形机器人的市场份额最高将超过60%。

另一部分产业观察者则认为,人形机器人只解决了一部分需求,而其他类型的机器人,如臂式、轮式、履带式等机器人的适用场景更加丰富,因而人形机器人只会占据30%左右的市场份额。

真正的市场竞争与坐在办公室里的“兵棋推演”还是会有不同,人形机器人的具体形态取决于应用场景和客户需求,取决于客户愿意为哪种服务成本和产品功能买单,最终还是要看技术的创新能力和发展程度。

来自国际机器人协会预测显示,2021年至2030年,全球人形机器人市场规模年复合增长率将高达71%。中国电子学会数据则称,到2030年,我国人形机器人市场规模有望达到约8700亿元。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2159617.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

专业120+总分400+中国科学技术大学843信号与系统考研经验中科大电子信息通信工程,生物医学工程,苏医工,真题,大纲,参考书。

经过将近一年的复习备考,专业843信号与系统120,总分400,顺利上岸朝思暮想的中科大。总结一些自己的备考经验,希望能给大家一些参考,少走弯路。首先讲一下大家最关注的专业课:843信号与系统 中科大843专业课…

动态规划算法:10.路径问题_地下城游戏_C++

目录 题目链接:174. 地下城游戏 - 力扣(LeetCode) 一、题目解析 题目:​编辑 解析: 二、算法原理 1、状态表示 2、状态转移方程 状态转移方程推理: 3、初始化 dp表初始化: 特殊位置初始化&#…

Vue学习(五)生命周期、组件

生命周期 生命周期,又名生命周期回调函数、生命周期函数、生命周期钩子。 生命周期是Vue在关键时刻帮我们调用的一些特殊名称的函数。 生命周期函数的名字不可更改,但是函数的具体内容是程序员根据需求写的。 生命周期中的this指向的是vm或者组件实例…

NFTScan | 09.16~09.23 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。 周期:2024.09.16~ 2024.09.22 NFT Hot News 01/ ​DeGods 推出代币 DEGOD,用户可通过 DeGods、y00ts 或 DUST 进行转换 9 月 16 日,Solana NFT 项目 DeGods 推出代币…

综合题第二题(路由器的配置)

题目 如何计算子网掩码 我们可以观察到上图的IP地址后面有“/26”、“30”。我们都知道子网掩码是由多个连续“1”和多个连续“0”组成的,“、26”表示子网掩码的二进制表达中有26个1。 例如:156.95.9.128/26 1111 1111.1111 1111.1111 1111.1100 0000…

idea插件开发系列1-环境搭建

前言 还记着10多年前有幸接触了eclipse插件开发,10多年后的今天有开发了idea的插件,真是一个轮回! 为什么要学习idea插件开发呢? 目前公司使用自己的MVC框架,没有相应的idea插件支持(如类似mybatis插件可…

基于51单片机智能家居监控系统设计

文章目录 前言资料获取设计介绍功能介绍设计程序具体实现截图设计获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对…

计算机毕业设计hadoop+hive航班预测系统 飞机票航班数据分析可视化大屏 机票预测 机票爬虫 飞机票推荐系统 大数据毕业设计

《HadoopHive航班预测系统》开题报告 一、课题背景与意义 随着全球航空业的快速发展,航班数据呈现出爆炸性增长的趋势。这些数据包含了航班时间、航线、价格、乘客量、天气条件等多种信息,对于航空公司来说,如何高效处理和分析这些数据&…

大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲

LLaMA-Factory ——一个高效、易用的大模型训练与微调平台。它支持多种预训练模型,并且提供了丰富的训练算法,包括增量预训练、多模态指令监督微调、奖励模型训练等。 LLaMA-Factory的优势在于其简单易用的界面和强大的功能。用户可以在不编写任何代码的…

高校大数据实训管理平台怎么选择?

泰迪智能科技大数据实训管理平台分为多个方向包括:人工智能方向、大数据方向、商务数据分析方向,不同高校可以结合高校情况选择合适自己院校的相关产品平台。 高校实训管理平台是实验室模块的核心母平台,对实验室的所有课程及实训资源进行统…

【题解】CF2013A

首先抽自己一巴掌,A题自信提交直接WA,故写此题解警示一下(顺便水一水)。 翻译 原题链接 思路 显然,若搅拌机单位时间能处理的水果数 x x x小于人每次丢进去的数量 y y y,那人只需要一直扔进去就好了&…

【d48】【Java】【力扣】LCR 123. 图书整理 I

思路 方法1:放进list,将list倒置,利用stream,将list改为int类型 方法2:递归:递归通用思路;明确每一层做什么确定返回值确定什么地方接收下层的返回值 每一层:调用下层,然后把自己…

护理陪护小程序|陪护系统||陪护系统开发

在当今社会,随着人口老龄化的加剧和家庭结构的变化,护理与陪护服务的需求日益增长。为了更好地满足这一市场需求,并提升服务效率与质量,护理陪护小程序应运而生。这类小程序不仅为用户提供了便捷、高效的服务预约与管理平台&#…

DANN GRL

域自适应是指在目标域与源域的数据分布不同但任务相同下的迁移学习,从而将模型在源域上的良好性能迁移到目标域上,极大地缓解目标域标签缺失严重导致模型性能受损的问题。 介绍一篇经典工作 DANN : 模型结构 在训练阶段需要预测如下两个任务…

Redis:持久化

1. Redis持久化机制 Redis 支持 RDB 和 AOF 两种持久化机制,持久化功能有效地避免因进程退出造成数据丢失问题, 当下次重启时利⽤之前持久化的文件即可实现数据恢复。 2.RDB RDB 持久化是把当前进程数据⽣成快照保存到硬盘的过程,触发 RDB…

【第十一章:Sentosa_DSML社区版-机器学习之分类】

目录 11.1 逻辑回归分类 11.2 决策树分类 11.3 梯度提升决策树分类 11.4 XGBoost分类 11.5 随机森林分类 11.6 朴素贝叶斯分类 11.7 支持向量机分类 11.8 多层感知机分类 11.9 LightGBM分类 11.10 因子分解机分类 11.11 AdaBoost分类 11.12 KNN分类 【第十一章&…

Rustrover2024.2 正式发布:个人非商用免费,泰裤辣

如果这个世界本身 已经足够荒唐 那究竟什么才能算是疯狂 爱情就是这样 一旦错过了 就会有另一个人代替 我们知道 jetbrains 在今年的早些时候正式为 rust 语言发布了专用的 IDE ,也就是 rustrover。如今 rustrover 也正式跻身为 jetbrains IDE 系列的一员猛将。…

Dynamic Connected Networks for Chinese Spelling Check(ACL2021)

Dynamic Connected Networks for Chinese Spelling Check(ACL2021) 一.概述 文中认为基于bert的非自回归语言模型依赖于输出独立性假设。不适当的独立性假设阻碍了基于bert的模型学习目标token之间的依赖关系,从而导致了不连贯的问题。为些&#xff0c…

如何使用GLib的单向链表GSList

单向链表是一种基础的数据结构,也是一种简单而灵活的数据结构,本文讨论单向链表的基本概念及实现方法,并着重介绍使用GLib的GList实现单向链表的方法及步骤,本文给出了多个实际范例源代码,旨在帮助学习基于GLib编程的读…

docker如何升级MySQL为最新版本

今天安全扫描发现MySQL存在漏洞,不用想别的升级到最新版。本篇文章有两个目的,1)为自己做一个记录,下次升级的时候不用再浪费时间查资料;2)给大家一点帮助; 因为我是docker部署,所以…