走出实验室的人形机器人,将复刻ChatGPT之路?

news2025/1/20 4:11:06

1月7日,在2025年CES电子展现场,黄仁勋不仅展示了他全新的皮衣和采用Blackwell架构的RTX 50系列显卡,更进一步展现了他对于机器人技术领域,特别是人形机器人和通用机器人技术的笃信。黄仁勋认为机器人即将迎来ChatGPT般的突破,有望成为世界上规模最大的技术产业。

我们知道,人形机器人的技术难度和门槛颇高,很多人认为人形机器人从走出实验室到落地之路必然艰辛。但事实上,近两年,随着通用大模型的发展,人形机器人被赋予了强大的泛化能力,吸引了特斯拉、Open AI、英伟达、三星等科技巨头纷纷布局。这些公司的入局不仅加速了人形机器人的技术落地,也推动了其商业化进程。

今天为大家分析的这份报告便对人形机器人的现状、技术市场等进行了分析,深度剖析了构成人形机器人的执行系统、感知系统和控制系统。

2025,人形机器人元年

如今我们谈及人形机器人似乎早习以为常,但是人形机器人真正的发展其实也只是进入21世纪之后的事情。在早期发展阶段,人形机器人的研究主要集中在高校和科研机构。

1963年,NASA造出了一个名为“机动多关节假人”的机器人,能够模拟35种基本人类动作,这也被认为是人形机器人的鼻祖之一。1973年,日本早稻田大学的加藤一郎团队推出了世界上首个全尺寸人形智能机器人WABOT-1,这也启发了诸多的文艺作品和后续研究。

而中国的人形机器人研究最早可能要追溯到1985年,哈尔滨工业大学首次开启二足步行机器人的相关研究,这也标志着国内人形机器人探索的开启。而进入新世纪以来,人形机器人的研究开始高度集成发展。2000年,本田推出了身高一米二、可用双脚流畅直立行走的Asimo。2005年,本田对Asimo进行了升级改造,实现了人形机器人的奔跑,速度达到6km/h。这一时期,人形机器人在运动能力和智能化方面取得了显著进步,但距离商业化应用仍有较大差距。

真正让人形机器人走进普通人视野的,应该是2016年由波士顿动力打造的Atlas,其拥有运动平衡能力震惊世界。同年,540台优必选Alpha机器人亮相央视春晚,这也展示了人形机器人在娱乐领域的应用潜力。而从2021年开始,人形机器人进入了商业化落地的初级阶段。2021年8月,特斯拉在AI Day上首次发布人形机器人Optimus概念,并于2023年末发布Optimus-Gen2,在感知、大脑、运控能力方面有显著提升。此外,国内如小米、华为等,国外的OpenAI、英伟达、三星等巨头也在纷纷入局,全面推动人形机器人的商业化落地。

那么,为什么巨头们会偏爱人形机器人呢?首先,人形意味着能够很好地适应人类设计的工作和生活场景,无需改变现有设施。其次则是人形机器人在交互过程中更容易被人接受,具有更高的情感价值。但是,人形机器人的主要问题集中于成本和技术两个方面的挑战。例如,波士顿动力的Atlas和本田的Asimo成本均达到了百万美元以上,且在软件的适应性、交互能力、运控平衡能力,以及硬件的续航能力、执行器的精度和功率密度等方面仍有待提升。

那么为什么会判定2025年会是人形机器人元年呢?这主要是从技术发展、商业化落地和政策扶持三个角度所作出的判断。首先,伴随过去几年通用大模型的发展,人形机器人被赋予了强大的泛化能力,使之能够适应更多复杂场景,而且非专业人员无需编程即可实现操作,极大地推动了人形机器人的商业化进程。“具身智能”的机器人不再是机械式地完成单一任务,而是能够基于感知到的任务和环境进行自主规划、决策、行动和执行的新个体,语言交互、智能决策、自主学习、多模态感知等能力全面提升。

其次,科技巨头的加速入局为人形机器人的发展注入动力。除了前文介绍的特斯拉外,OpenAI投资了挪威人形机器人公司1X Technologies,并重启机器人团队;英伟达发布了人形机器人大模型Project GR00T,成立通用具身智能体研究部门。巨头开卷,必然会使这个行业成为“风口上的猪”。而且,人形机器人的应用场景也在从工厂逐步扩展到制造业、商业服务,最终有望进入家庭。报告中预估,至2030年全球人形机器人需求有望达200万台,对应市场空间超5700亿元。

最后,政策层面的支持为人形机器人的发展铺平了道路。2023年,工信部发布的《人形机器人创新发展指导意见》提出人形机器人有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,并明确了人形机器人2025年实现量产、2027年深度应用的发展目标。

人形机器人的技术组成

人形机器人的技术难点不仅仅是AI发展水平,还有大量的硬件系统和零部件等。从大的方向来看,人形机器人主要由执行系统、感知系统和控制系统三个部分构成,这部分在报告中占比较高且涉及大量的产业链相关信息,笔者仅对其中关键价值进行阐述,不做过多参数分析。

执行系统

执行系统是人形机器人的运动基础,决定了其运动的灵活性和精度。其关键部件包括电机、丝杠、减速器、灵活手等。

  • 无框力矩电机:主要用于人形机器人的线性关节和旋转关节,提供高精度和高效率的运动控制,是实现复杂动作的关键部件。其能够直接集成到转轴元件上,降低系统惯量,提高运动和稳定时间,增加系统带宽,从而提高整体效率。
  • 减速器:精密减速器主要包括3种类型,RV减速器可以提供稳定的机械支撑,确保机器人在高负载下的精度和稳定性;谐波减速器适用于需要高精度控制的关节,提供精细的运动控制;行星减速器适用于需要较高承载能力的关节,确保机器人的稳定性和可靠性。
  • 丝杠:人形机器人线性执行器的重要组成部分,是将旋转运动变成直线运动的传动附件。根据摩擦特性可分为滑动丝杠、滚动丝杠和静压丝杠三类。其中,行星滚柱式丝杠负载高、寿命长、速度大,更适用于人形机器人场景,只不过其生产工艺难度较大,门槛较高,但相应的未来发展空间也较为广阔。
  • 灵巧手:灵巧手是人形机器人的末端执行器,具备高精度、多功能性和良好的人机交互能力。通过微特电机和多种传动方式的结合,灵巧手能够执行复杂的任务,适应不同的工作场景。其关键技术包括空心杯电机、无刷有齿槽电机、线绳传动、齿轮传动、连杆传动、差速器机构、机械自适应和微型丝杠等,这些技术共同确保了灵巧手的高性能和可靠性。灵巧手在工业制造、医疗领域、服务机器人和特种作业等场景中具有广泛的应用前景。

感知系统

感知系统是人形机器人与环境交互的媒介,其核心就是各类传感器,包括力矩传感器、视觉传感器、触觉传感器和编码器等。

  • 力矩传感器:力矩传感器用于检测机器人关节上的扭矩,将扭力的物理变化转化为精确的电信号,为机械臂提供实时的力和力矩信息,从而协助机械臂完成精细和智能的操作任务。在人形机器人中,在对柔顺控制要求高的手腕和脚踝有望使用六维力矩传感器,而身体的其他关节将使用单维的关节扭矩传感器。相比之下,多维力矩传感器工艺要求高且成本较高,但属于未来的发展趋势。
  • 视觉传感器:视觉感知系统是机器人的“智慧之眼”,赋予机器人观察世界、规划执行的能力,结合当前技术发展的多模态感知能力和AI算法,能够实现环境理解、任务执行、安全和避障等功能,其也是人形机器人实现人机交互的关键。不过,由于不同传感器在不同环境下的检测能力和可靠性受到限制,因此多传感器融合是当前发展的主要趋势,其可以提高目标检测和识别的准确性。
  • 触觉传感器:能够使机器人感知与外界环境接触时的温度、湿度、压力和振动等物理量,以及目标物体材质的软硬程度、物体形状和结构大小等,从而实现对物体的精准定位以及执行各种操作任务。触觉传感器按照原理主要分为电容式、压阻式、压电式、磁敏式、光纤式,其中前三者更为常见,未来主要的发展趋势为大阵列、柔性化、多功能化、多维度、自供电等是触觉传感器的重要发展趋势。
  • 编码器:一种用于运动控制的传感器,利用光电、电磁、电容或电感等感应原理检测物体的机械位置及其变化,并将此信息转换为电信号,再将电信号转换为可传输和存储的信号形式,最后反馈给各种运动控制装置。伴随着工业自动化的发展,编码器未来的国产化占比有望进一步提升。

控制系统

主要是指运动控制系统,其主要充当了人形机器人的“小脑”职责,对机械运动部件的位置、速度、方向等进行实时控制,使其按照预期的运动轨迹和规定的运动参数进行运动。控制系统一般包括控制器、执行器和传感器,其性能直接影响机器人的运动精度、稳定性和响应速度。

控制系统的控制器能够接收操作指令后进行运动轨迹规划,为电机或其他动力和执行装置提供正确的控制信号;执行器和传感器上文已经谈及则不再赘述。一般来讲,控制系统的难点在于通信、算力和软件三个部分。

  • 通信:众多伺服关节需解决高速同步通信难点,走线要求高。
  • 算力:计算复杂度随着自由度的增加而显著增加,算法也需要适应不同工作环境,对控制器的算力要求高。
  • 软件:控制系统需提供实时运行框架满足不同运行周期的算法APP实时计算的要求。

机器人控制系统按照控制方式可分为集中控制、主从控制和分布式控制人形机器人一般采用分布式控制,其通常有数十个关节自由度,而采用分布式控制有利于系统功能的并行执行、缩短响应时间,即每个关节配置一个控制器、胸腔配置总控制器,这也将大幅增加控制器需求。

站在2025年的开端总体来看,人形机器人在过去的几年里有了长足的发展,尤其是大模型等技术的落地为人形机器人商业化链路的构建提供了更好的模板。而伴随各大企业和政策扶持的加码,人形机器人元年的大幕有望展开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2279185.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙动态路由实现方案

背景 随着CSDN 鸿蒙APP 业务功能的增加,以及为了与iOS、Android 端统一页面跳转路由,以及动态下发路由链接,路由重定向等功能。鸿蒙动态路由方案的实现迫在眉睫。 实现方案 鸿蒙版本动态路由的实现原理,类似于 iOS与Android的实…

左神算法基础提升--3

文章目录 Manacher 算法经典算法Manacher算法原理 单调栈或单调队列 Manacher 算法 经典算法 在每学习Manacher算法之前我们可能会使用一种比较经典暴力的算法:遍历str字符串,将字符串中的每个字符作为对称点,向两边扩散找到回文字段&#x…

usb通过hdc连接鸿蒙next的常用指令

参考官方 注册报名https://www.hiascend.com/developer/activities/details/44de441ef599450596131c8cb52f7f8c/signup?channelCodeS1&recommended496144 hdc-调试命令-调测调优-系统 - 华为HarmonyOS开发者https://developer.huawei.com/consumer/cn/doc/harmonyos-guid…

windows远程桌面连接限定ip

1,Windows防火墙->高级设置->远程桌面 - 用户模式(TCP-In)->作用域->远程IP地址 2,启用规则

ASP.NET Core - 配置系统之自定义配置提供程序

ASP.NET Core - 配置系统之自定义配置提供程序 4. 自定义配置提供程序IConfigurationSourceIConfigurationProvider 4. 自定义配置提供程序 在 .NET Core 配置系统中封装一个配置提供程序关键在于提供相应的 IconfigurationSource 实现和 IConfigurationProvider 接口实现&…

光谱相机如何还原色彩

多光谱通道采集 光谱相机设有多个不同波段的光谱通道,可精确记录每个波长的光强信息。如 8 到 16 个甚至更多的光谱通道,每个通道负责特定波长范围的光信息记录。这使得相机能分辨出不同光谱组合产生的相同颜色感知,而传统相机的传感器通常只…

论文速读|NoteLLM: A Retrievable Large Language Model for Note Recommendation.WWW24

论文地址:https://arxiv.org/abs/2403.01744 bib引用: misc{zhang2024notellmretrievablelargelanguage,title{NoteLLM: A Retrievable Large Language Model for Note Recommendation}, author{Chao Zhang and Shiwei Wu and Haoxin Zhang and Tong Xu…

【跟着官网学技术系列之MySQL】第7天之创建和使用数据库1

前言 在当今信息爆炸的时代,拥有信息检索的能力很重要。 作为一名软件工程师,遇到问题,你会怎么办?带着问题去搜索引擎寻找答案?亦或是去技术官网,技术社区去寻找? 根据个人经验,一…

ComfyUI 矩阵测试指南:用三种方法,速优项目效果

在ComfyUI中,矩阵测试也叫xyz图表测试,作用是通过控制变量的方式来对Lora模型以及各种参数开展测试,并进行有效区分。其中测试方法有很多种,可以通过借助插件也可以自行搭建工作流实现,下面介绍3种方式: 1…

Day 9 卡玛笔记

这是基于代码随想录的每日打卡 151. 反转字符串中的单词 给你一个字符串 s ,请你反转字符串中 单词 的顺序。 单词 是由非空格字符组成的字符串。s 中使用至少一个空格将字符串中的 单词 分隔开。 返回 单词 顺序颠倒且 单词 之间用单个空格连接的结果字符串。 **…

音视频入门基础:RTP专题(4)——FFmpeg源码中,判断某文件是否为SDP文件的实现

一、引言 执行《音视频入门基础:RTP专题(2)——使用FFmpeg命令生成RTP流》中的“媒体文件转推RTP的FFmpeg命令”会生成一个SDP文件,该文件内容如下: v0 o- 0 0 IN IP4 127.0.0.1 sNo Name t0 0 atool:libavformat 61…

数据结构——队列和栈的面试题分析

之前我们写过了有效括号的分析了,接下来,我们继续来学习一下,有关栈和队列之间的相关转换的题目吧。 栈实现队列 232. 用栈实现队列 - 力扣(LeetCode) 这里我们使用c语言的形式来写,所以我们先自己模拟一…

消息队列实战指南:三大MQ 与 Kafka 适用场景全解析

前言:在当今数字化时代,分布式系统和大数据处理变得愈发普遍,消息队列作为其中的关键组件,承担着系统解耦、异步通信、流量削峰等重要职责。ActiveMQ、RabbitMQ、RocketMQ 和 Kafka 作为市场上极具代表性的消息队列产品&#xff0…

Web前端------表单标签

一.表单标签介绍 1.认识表单 表单---类似于日常生活中的申请单 都是去填写一些信息去申请某个功能&#xff0c;例如&#xff1a;账号密码昵称&#xff0c;登陆网站 2.常见标签 常见的标签 <form></form> 表单标签&#xff0c;所有表单信息都包含在这个标签内…

20250118-读取并显示彩色图像以及提取彩色图像的 R、G、B 分量

读取并显示彩色图像以及提取彩色图像的 R、G、B 分量 import cv2 #彩图R、G、B的提取 import torch from PIL import Image from matplotlib import pyplot as plt import numpy as np读取并显示彩色图像的三种方法&#xff1a; img_path "./data/yndx"1.1 使用 …

下定决心不去读研了。。。

大家好&#xff0c;我是苍何。 之前发表过一篇文章&#xff0c;表达了自己读研的困惑和纠结&#xff0c;得到了大家很多的建议&#xff0c;也引起了很多人的共鸣&#xff0c;在留言区分享了自己的故事&#xff0c;看着这些故事&#xff0c;我觉得都够苍何写一部小说了。 可惜苍…

单链表的新建、查找

10.3 头插法新建链表实战 10.3.1 流程图 10.3.1.1 整体的流程图 10.3.1.2 循环的流程图 10.3.2 代码 !!!头指针始终指向头结点&#xff01;&#xff01;&#xff01;头插法&#xff1a;实则就是不断地插元素插在头结点的后面最初要先给头结点的指针域赋值为NULL #include &…

【unity进阶篇】向量插值运算Vector3.Lerp和Vector3.Slerp

考虑到每个人基础可能不一样&#xff0c;且并不是所有人都有同时做2D、3D开发的需求&#xff0c;所以我把 【零基础入门unity游戏开发】 分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。 【C#篇】&#xff1a;主要讲解C#的基础语法&#xff0c;包括变量、数据类型、运算符、…

CSS 的基础知识及应用

前言 CSS&#xff08;层叠样式表&#xff09;是网页设计和开发中不可或缺的一部分。它用于描述网页的视觉表现&#xff0c;使页面不仅实现功能&#xff0c;还能提供吸引人的用户体验。本文将介绍 CSS 的基本概念、语法、选择器及其在提升网页美观性方面的重要性。 什么是 CSS&…

怎么投稿各大媒体网站?如何快速辨别一家媒体是否适合自己?

在做软文营销时&#xff0c;除去在官号和子账号上投稿外&#xff0c;怎么投稿各大媒体网站是困扰中小企业主的一大难题。没有多余账号、运营成本太高&#xff0c;让不少想做全平台推广的朋友止步于此。为了解决这些问题&#xff0c;今天就让小编来分享一下&#xff0c;怎么在各…