化茧成蝶 | 继HuggingFace首家落地大模型具身智能场景

news2024/11/18 22:43:51

关于具身智能的起源

近年来,大语言模型(LLMs)的兴起给机器人领域带来了革命性的改变,大模型赋予了传统机器人理解和推理的能力,让具身智能这一概念再度出现在大众的视角中。OpenCSG 作为国内 AI 开源社区的先锋,对标国外 HuggingFace 平台,对 HuggingFace 的首席科学官(CSO)发起的基于 dora-rs 开源框架的具身智能机器人进行落地实现和开源分享(https://huggingface.co/posts/thomwolf/809364796644704?image-viewer=809364796644704-3234DF5C5B4FF12A512F5D1B04325DF820919CB3)

OpenCSG 打造中国本土化 Huggingface plus 开源社区 开放传神 OpenCSG 传神社区 官网icon-default.png?t=N7T8https://opencsg.com/

该机器人搭载了最新的大模型并基于最新的计算框架,展现出来卓越的语言理解和生成能力,并凭借其物理形态实现了与现实世界的无缝互动,展现出一流的机器智能化水准。下面就让我们来看一下一个可以理解你、回应你、并与环境互动的智能伙伴是如何实现的吧!

1. 具身智能:AI领域的新兴热点

近年来,随着大语言模型(LLM)技术的飞速发展,具身智能领域取得了令人瞩目的进展。业界和学术界都在该领域上取得了显著的成果,不仅推动了技术的创新发展,也吸引了大量的资本的关注和投资。在业界,大批科创公司投身于此,带来了一批又一批令人耳目一新的具身智能AI产品。比如:

在今年 3 月份,知名 AI 机器人创业公司 Covariant 推出机器人基础模型 RFM-1(Robot Foundation Model-1)是世界上首个基于真实任务数据训练的最接近于解决真实世界任务的机器人大模型。RFM-1 模型是一个基于真实世界的文本、图像、视频、机器人动作以及一系列传感器读数综合训练得到的多模态大模型,通过接受初始图像和机器人动作的输入,预测接下来视频帧的变化,从而让搭载该模型的机器人可以像人一样对真实世界进行推理和预测。

还是今年 3 月份,谷歌 RT 机器人在之前的版本上再一次进化,引入了行动层级(action hierarchy),将复杂的任务分解为简单的语言动作,再转化为机器人动作,充分利用大语言模型的能力,从而提高机器人完成任务的准确性和学习效率。

学术界的研究者也在积极探索具身智能的各种可能。在上个月(5.13-5.17)国际顶级机器人学术会议 ICRA(IEEE International Conference on Robotics and Automation)中,论文的提交数量相较于去年上涨了 25.88%,论文主题覆盖了如双足机器人、人体检测和跟踪、人机交互、机器人学习、安全和监控机器人系统、3D重建、无人机系统、人工智能、农业自动化、行为树和大数据分析等领域。

与此同时,资本也开始大量涌入到具身智能行业。就在 5 月 31 号,前阿里达摩院机器人实验室负责人陈俊波创立的“有鹿机器人”,刚刚宣布完成了超1亿元融资,投资方包括创新工场、元璟资本、百度风投等。最著名的当属华为天才少年“稚晖君”辞职后创立的“智元机器人”,仅仅一年的时间,“智元机器人”的估值已经飙升至 70 亿元。根据Markets and Markets的预测,全球具身智能市场预计2028年将达到138亿美元。Nvidia、OpenAI、三星、微软等世界巨头公司也都纷纷进场,投资押注国外炙手可热的具身智能公司1X Technologies和Figure AI。工业界、学术界和资本的不断支持下,具身智能正在不断突破边界,将科幻带进现实。

2. 小型语言模型SLMs:为智能机器的发展注入新动能

在大型语言模型(LLM)备受瞩目时,一股来自小型语言模型(SLMs)的新风正在悄然兴起,为人工智能领域注入新的动力。相比大型语言模型,SLMs只需要较少的内存和处理能力,使其非常适合基于设备和本地部署。SLMs有着参数小易于部署的特点,展现出媲美大型语言模型的强大实力。

SLMs是一种生成式人工智能模型,通过精简模型结构、优化算法和参数压缩等技术手段,小语言模型实现了在参数数量、模型大小和训练数据量上的“小”化,从而减少了计算资源需求。最著名的当属微软公司开发的Phi-3 模型。其作为微软对无障碍人工智能的持续承诺的一部分,在语言处理,编码,数学推理等任务中具有极其优越的性能,可以做到在大部分领域的性能远超同等参数的语言模型。

在 SLMs 打破次元壁,展现出无限的可能的同时,苹果、谷歌等世界巨头公司也都纷纷推出自家的 SLMs 的落地项目。比如这个月苹果公司在 WWDC 中花费一半的时间介绍的基于 SLMs 的全生态 AI 能力(Apple Intelligence),充分地将 SLMs 和苹果已经建立的完整的硬软件生态系统相结合,让 AI 更好地融入每个人的生活。联想集团大举进军 AIPC 行业,在去年十月份的联想科技创新科技大会(Lenovo Tech World 2023)上展示了联想首款 AIPC,大模型压缩技术等一系列 SLMs 应用创新科技成果,为智能终端的产业发展助力。

OpenCSG 算法团队在国内首次使用自研悟空系列多模态大模型如 csg-wukong-1B-VL、opencsg-bunny-v0.1-3B 等实现具身智能项目,充分展示 SLMs 在具身智能的应用效果。

3. OpenCSG国内首家实现:基于dora 框架的具身智能机器人

OpenCSG 作为国内模型开源社区的领军者,首个尝试并实现了基于dora框架的具身智能机器人项目。该项目由 HuggingFace 的首席科学官(CSO)发起,旨在促进具身智能机器人领域的开源社区发展。该项目使用到大疆平台的 RoboMaster S1 机器车,结合了 OpenCSG 自研悟空系列大模型如多模态大模型 csg-wukong-1B-VL 等和最新的 dora 开源框架。

RoboMaster S1 是大疆平台的可编程遥控车,具有卓越的性能,高度的可编程性,丰富的传感器和较高的性价比以及强大的生态系统,可以为开发人员提强大的硬件系统。但是robomaster sdk已经不再更新了,并且s1需要使用第三方hack sdk才能使用RoboMaster EP的sdk,因此需要进行破解的操作。

dora-rs 是面向数据流的机器人应用框架,旨在简化机器人应用的开发过程。该框架致力于解决硬件设备、算法和人工智能模型等多种要素集成过程中的复杂性,通过高效的通讯手段将它们紧密连接,实现互动协作。在性能方面,dora与当前使用 Python 的 ROS2 相比,性能提升可达17倍。不过由于 dora-rs开源项目正处于实验阶段,可能会出现一些未知的 bug,框架作者会对其不断优化,OpenCSG开源社区也会提供一些框架 bug 的解决方案,为开源项目的发展尽一份力。

OpenCSG 算法团队从 5 月中旬开始对该项目进行复现工作,在复现的过程中遇到了很多问题,比如大疆 RoboMaster 的hack、环境的搭建、dora-rs 的适配等等。接下来让我们来分享一下这一个月内复现的辛酸历程吧。

3.1 体验具身智能的第一步:基础部署

将小型语言模型部署在大疆RoboMaster S1平台上,为具身智能机器人的开发奠定基础。

为了在RoboMaster S1上部署小型语言模型,需要进行一些基础部署工作。首先,通过以下命令下载相关项目代码:

git clone https://opencsg.com/codes/OpenCSG/csg-robomaster

接下来,创建项目的环境,使用以下命令:

conda create -n robomaster python=3.8
pip install robomaster dora-rs==0.3.4 
pip install -r requirements.txt

接着,需要进行RoboMaster S1的破解工作。具体步骤如下:

  • 启动RoboMaster应用程序,并选择通过路由器或通过WLAN的方式连接RoboMaster S1。
  • 连接成功后,使用微型USB电缆将RoboMaster S1连接到计算机的USB端口。连接成功时会听到一声“哔”的声音,类似于连接任何设备时的声音。(请注意,在此过程中不得通过USB连接其他安卓设备)
  • 在应用程序的“实验室”部分,创建一个新的Python应用程序,并粘贴以下代码:
def root_me(module):    
 __import__ = rm_define.__dict__['__builtins__']['__import__']
     return __import__(module, globals(), locals(), [], 0) 
builtins = root_me('builtins') 
subprocess = root_me('subprocess') 
proc = subprocess.Popen('/system/bin/adb_en.sh', shell=True, executable='/system/bin/sh', stdout=subprocess.PIPE, stderr=subprocess.PIPE)
  • 运行代码,如果没有出现错误,控制台应显示“执行完毕”的结果。
  • 在不关闭应用程序的情况下,导航至包含Android SDK Platform-Tools文件夹的位置,并在其中打开终端。
  • 运行 ADP 命令 .\adb.exe devices 。如果一切正常,应该会看到类似下面的输出:
     

  • 行位于 s1_SDK 文件夹中的 upload.sh。
  • 当所有步骤执行完毕后,关闭RoboMasterS1并重新启动。在启动过程中,您应该听到两声鸣叫,而不是通常的一声鸣叫,这表明破解操作已成功。

完成基础部署后,就可以进行RoboMaster S1的连接与测试。具体步骤如下:

  1. 确保使用稳定的RoboMaster无线热点连接,无线热点的默认密码是12341234。如果想在联网的情况下运行演示程序,可能需要使用第二张无线网卡。
  2. 尝试使用以下命令测试与RoboMaster S1的连接:
conda activate robomaster
python tests/test_ap.py

也可以直接在命令行中运行测试文件中的代码。如果通信成功,控制台将显示类似下面的输出:

成功连接并测试后,就可以运行具身智能机器人的演示程序了。在命令行中使用以下命令:

conda activate robomaster
# This requires dora==0.3.4, update with:
# cargo install dora-cli
dora up 
dora start graphs/dataflow_robot_vlm.yml --attach --hot-relo

目前,互动方式是在笔记本电脑上按下向上箭头键,将信息录制并发送到机器人的视觉语言模型(Visual Language Model,VLM)。这一基础部署工作为RoboMaster S1上的具身智能机器人开发奠定了坚实的基础。通过结合小型语言模型和具身智能的人性化交互设计,具身智能机器人不仅将广泛应用于家庭、教育和医疗等行业,提供个性化的服务,还将推动智能技术在更广泛的场景中的普及。

3.2 感受具生智能无限的魅力:让机器人拥有自主的理解能力

具身智能机器人是一种结合了语音、视觉、运动和学习等功能的人工智能系统。它可以通过与用户的交互来提供个性化的服务和智能化的体验。借助小型语言模型和具身智能的设计,RoboMaster S1可以成为了一种全新的、强大而具有趣味性的工具。

结合小参数量多模态模型和具身智能,RoboMaster S1能够识别和理解用户的语音指令,并作出相应的反应和动作。例如,当我们对RoboMaster S1说出“前进”、“后退”、“左转”或“右转”等指令时,它能够根据我们的指令进行相应的移动动作。同时,它还可以根据我们的语音指令进行理解后制定下一步计划,能够完成拍照、录像、射击等操作,我们记录下了机器人这些精彩的瞬间。

除此之外,RoboMaster S1本身自带一些编程sdk,可以通过视觉识别技术来感知环境和物体。它可以识别人脸、识别物体、追踪目标等,从而实现更加智能化的互动。借助小型语言模型的嵌入,RoboMaster S1能够理解我们的语言指令,并结合视觉信息作出相应的反应。例如,当我们对它说出“追踪某个人”,它会根据我们的指令进行人物追踪,并通过摄像头进行追踪和拍摄,后续我们会借助这些功能开发出更多有意思的表现。

4. OpenCSG:助力具身智能,共创技术新篇章

OpenCSG作为国内模型开源领域的先驱者,提供了具身智能机器人的开源平台,通过开源的方式推动具身智能机器人的发展。在CSGHub(https://opencsg.com/models)开源社区中,开发者可以访问和共享代码、模型和数据集,便于跨领域的合作和知识共享,同时CSGHub也推出了企业版,能够为企业提供一站式的模型、数据、代码以及应用等资源管理平台。

StarShip CodeGenAgent 以23.67%的成绩获得全球 第二名 的成绩,为StarShip的落地打下了坚实基础。

OpenCSG CSGHub 一站式大模型资源管理平台

OpenCSG StarShip CodeGen API

同时OpenCSG在上个月刚发布的全球SWE-Bench排名第二的StarShip CodeGenApi ,它也将会逐步实现辅助更多的爱好者能够参与到具身智能机器人领域的研究和开发。

OpenCSG欢迎各方研究者、企业、高校等机构的积极参与,我们一起共建具生智能开源开放的社区平台。在我们未来规划中,开发者们可以基于开源平台构建各种具身智能机器人项目,将具身智能机器人项目从概念阶段进展到实际应用阶段。涵盖了家庭、教育、医疗等多个领域,例如,可以开发智能家居助手,为用户提供便捷的家居管理和个性化服务;可以开发教育机器人,辅助学生的学习和发展;还可以开发医疗机器人,在医疗领域提供更高效、精准的辅助治疗服务。

作为开源平台,OpenCSG将持续努力,给国内具身智能机器人提供发展的环境。通过分享经验和技术成果,加速创新步伐,推动更多创新性的具身智能机器人项目实现落地。OpenCSG会提供最好的资源和技术支持,促进开源社区的合作,推动具身智能机器人领域的共同进步。让我们共同期待具身智能机器人领域在OpenCSG开源社区的助推下迸发出更多创新和进步!

参考链接

1.A Survey on Integration of Large Language Models with Intelligent Robots:

https://arxiv.org/abs/2404.09228

2.联想阿木:AIPC让AI惠及每一个人:

https://mp.weixin.qq.com/s/MK2IRXbNqVytYtQHR8FpEw

3.ICRA 官网:

https://2024.ieee-icra.org

4.HuggingFace开源 dora 项目:

https://huggingface.co/dora-rs

5.dora-rs 开源项目:

https://github.com/dora-rs/dora

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1867495.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何快速解决验证码图像问题 | 最佳图像(OCR)验证码解决工具

你是否曾经遇到过陷入一个看似无尽的 CAPTCHA 挑战中,努力识别扭曲的字符或数字?这些令人抓狂的 CAPTCHA 是为了确保你是人类而不是机器人,但它们也给真正的用户带来了头痛。那么,有没有快速解决这些 CAPTCHA 图像的方法&#xff…

Python jsonschema库:数据验证的强大工具

更多Python学习内容:ipengtao.com 在处理JSON数据时,验证其结构和内容的正确性至关重要。jsonschema是一个用于描述和验证JSON文档结构的标准,Python的jsonschema库是实现这一标准的强大工具。本文将详细介绍jsonschema库的功能、安装与配置、…

安卓webview加载vue打包后的项目

<?xml version"1.0" encoding"utf-8"?> <manifest xmlns:android"http://schemas.android.com/apk/res/android"package"ty.sql.dqwgsw"><uses-permission android:name"android.permission.INTERNET" /&g…

需求之 实现获取调试信息在h5页面,在手机端可以查看调试(二)

事实证明 chatgpt很好用&#xff0c;有不懂的问题可以问它 https://zhuanlan.zhihu.com/p/690118775 国内外9个免费的ChatGPT网站 我筛选出来的比较好用免费的网站 fchat.dykyzdh.cn/ 这个也可以 阿里云的 通义灵码 在vscode中安装使用 而且阿里云有一个产品&#xff0c;可以…

国产音频放大器工作原理以及应用领域

音频放大器是在产生声音的输出元件上重建输入的音频信号的设备&#xff0c;其重建的信号音量和功率级都要理想&#xff1a;如实、有效且失真低。音频范围为约20Hz&#xff5e;20000Hz&#xff0c;因此放大器在此范围内必须有良好的频率响应&#xff08;驱动频带受限的扬声器时要…

STM32F1+HAL库+FreeTOTS学习1——FreeRTOS入门

STM32F1HAL库FreeTOTS学习1——FreeRTOS入门 裸机开发与操作系统嵌入式操作系统简介FreeRTOS简介FreeRTOS的几个重要概念任务调度器任务状态状态列表 裸机开发与操作系统 在以往的嵌入式学习中&#xff0c;我们最常用的就是裸机开发&#xff0c;所谓裸机开发就是指在没有操作系…

AI开发Windows环境搭建

文章目录 1. GPU 支持检查2. 安装 Anaconda3. 创建 PyTorch 虚拟环境3.2 创建虚拟 PyTorchEnv 环境3.3 检查、激活、推出虚拟环境3.4 虚拟环境中python包管理3.5 虚拟环境中安装 PyTorch 框架 4. TensorFlow 安装 1. GPU 支持检查 打开 Task Manager (任务管理器&#xff09;&…

使用VMware创建Ubuntu 24.04【一】

相关链接下载地址 VMware https://www.vmware.com/content/vmware/vmware-published-sites/cn/products/workstation-pro/workstation-pro-evaluation.html.html.html Ubuntu 24.04 LTS https://cn.ubuntu.com/download/desktop 虚拟机创建 1、打开VNware软件&#xff0c;点…

Qt小项目 | 实现迅雷设置界面

文章目录 一、手写代码实现迅雷设置界面 一、手写代码实现迅雷设置界面 使用Qt控件&#xff08;如&#xff1a;QListWidget与QScrollArea等&#xff09;与布局实现腾讯会议登陆界面。设置界面除基本设置界面外&#xff0c;其他界面都是以图片的形式嵌入到项目中并没有手写代码。…

Mac 如何安装 wget

1.安装 Homebrew2.安装 wget3.检测 wget 是否安装成功 1.安装 Homebrew 在安装 wget 之前需要安装一个适用于 mac 的包管理器 Homebrew&#xff0c;打开 mac 终端执行如下命令进行安装&#xff1a; /usr/bin/ruby -e "$(curl -fsSL https://cdn.jsdelivr.net/gh/ineo6/h…

DDD学习笔记二

模型的要素——用例、视图和构造块 模型的构建步骤 1&#xff09;从用例场景开始&#xff0c;给模型输入概念、属性、术语。 2&#xff09;构建静态领域模型&#xff08;类图&#xff09;&#xff0c;发现领域概念和对象属性。 3&#xff09;构建动态领域模型&#xff08;时序图…

自动化物流控制系统WCS应用与异常处理

导语 大家好&#xff0c;我是社长&#xff0c;老K。专注分享智能制造和智能仓储物流等内容。 新书《智能物流系统构成与技术实践》人俱乐部 完整版文件和更多学习资料&#xff0c;请球友到知识星球【智能仓储物流技术研习社】自行下载 WCS的定义与作用&#xff1a; 物流仓储设备…

数据预处理功能教程,上传文件生成知识库 | Chatopera

如何快速的生成高质量的知识库&#xff1f; 数据预处理功能教程 | Chatopera 云服务低代码定制聊天机器人 关于 Chatopera Chatopera 云服务重新定义聊天机器人&#xff0c;https://bot.chatopera.com 定制智能客服、知识库、AI 助手、智慧家居等智能应用&#xff0c;释放创新…

【Java中导出Excel导出多个sheet页】

Java中导出Excel导出多个sheet页 序言如何处理多个sheet页的导出期间遇到了一个sheet页相关的问题&#xff0c;以及解决办法多sheet页导出遇到&#xff0c;第二个sheet页的标题名称会把第一个的覆盖的问题 结语 序言 在日常工作中经常有导出数据文件的需求&#xff0c;避免不了…

华为云鲲鹏架构docker部署2048小游戏

华为云鲲鹏架构docker部署2048小游戏 1. 鲲鹏架构ESC2. 配置docker3. 上传2048镜像4. 删除容器,镜像 1. 鲲鹏架构ESC 2. 配置docker 安装dockeryum -y install docker开机启动 systemctl enable docker启动docker服务 systemctl start docker查询docker的运行版本 docker -v3…

嵌入式linux系统中面试过程经验分享

大家好,今天主要给分享一下,如何在面试中介绍自己的项目经验,希望对大家有所帮助。 在面试时,经过寒暄后,一般面试官会让介绍项目经验。常见的问法是,说下你最近的(或最拿得出手的)一个项目。 根据我们的面试经验,发现有不少候选人对此没准备,说起来磕磕巴巴,甚…

【python】PyQt5信号与槽原理剖析与应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

大模型+多模态合规分析平台,筑牢金融服务安全屏障

随着金融市场的快速发展&#xff0c;金融产品和服务日趋多样化&#xff0c;消费者面临的风险也逐渐增加。 为保护消费者权益&#xff0c;促进金融市场长期健康稳定发展&#xff0c;国家监管机构不断加强金融监管&#xff0c;出台了一系列法律法规和政策文件。对于金融从业机构…

基于YOLOv5s的纸板缺陷检测(附数据集与Coovally操作步骤)

本文内容:以纸板缺陷检测为例操作的整个过程&#xff0c;从创建数据集到训练模型再到预测结果每个步骤进行可视化操作与分析。 文末有数据集获取方式&#xff0c;请先看检测效果 现状 物流行业快速发展&#xff0c;对于网购的需求不断增大&#xff0c;随之而来的就是纸板制造…

Linux安装JDk教程

&#x1f4d6;Linux安装JDk教程 ✅下载✅安装 ✅下载 官方Oracle地址&#xff1a;https://www.oracle.com/java/technologies/downloads/archive/ 123云盘&#xff1a;https://www.123pan.com/s/4brbVv-JdmWA.html ✅安装 1.上传安装包jdk-17_linux-x64_bin.tar.gz到指定位…