​​给【AI硬件】创业者的论文、开源项目和产品整理

news2024/11/22 1:47:34

一、AI 硬件精选论文

《DrEureka: Language Model Guided Sim-To-Real Transfer》

瑜伽球上遛「狗」这项研究由宾夕法尼亚大学、 NVIDIA 、得克萨斯大学奥斯汀分校的研究者联合打造,并且完全开源。他们提出了 DrEureka(域随机化 Eureka),这是一种利用 LLM 实现奖励设计和域随机化参数配置的新型算法,可同时实现模拟到现实的迁移。该研究展示了 DrEureka 算法能够解决新颖的机器人任务,例如四足机器人平衡和在瑜伽球上行走,而无需迭代手动设计。

https://eureka-research.github.io/dr-eureka/assets/dreureka-paper.pdf

《Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving》

该论文介绍了一个进化框架 LaserMix++,整合了来自不同 LiDAR 扫描的激光束操作,并结合了 LiDAR- 相机对应关系,进一步辅助数据有效学习,通过整合多模态来增强 3D 场景一致性正则化,推进自动驾驶中的 3D 场景理解。

http://arxiv.org/abs/2405.05258v1

《Evaluating Real-World Robot Manipulation Policies in Simulation》

机器人领域在通用机器人操作策略方面取得了重要进展。然而,对这些策略进行真实世界的评估不可扩展,并面临再现性挑战。同时随着策略扩展能执行的任务范围扩大,这些挑战可能会加剧。文章指出真实与模拟环境之间的控制和视觉差距是可靠模拟评估的关键挑战,并提出了一些方法来减轻这些差距,而无需制作真实环境的完整数字孪生体。

http://arxiv.org/abs/2405.05941v1

《Octo: An Open-Source Generalist Robot Policy》

加州大学伯克利分校、斯坦福大学、卡内基梅隆大学和谷歌 DeepMind 的 18 位研究者组成的 Octo Model Team 发布了他们的开创性研究成果:Octo 模型。能让 GRP 更轻松地应对下游机器人应用的接口多样化问题。

https://arxiv.org/pdf/2405.12213

《iVideoGPT: Interactive VideoGPTs are Scalable World Models》

清华、华为等提出 iVideoGPT ,一个可扩展的自动回归变换器框架,通过将多模态信号(视觉观察、动作和奖励)整合成序列令牌,实现 agents 的交互式体验,并利用其可扩展架构,预训练 iVideoGPT 在数百万人类和机器人操纵轨迹上,使其适应各种下游任务。

https://arxiv.org/pdf/2405.15223

《YOLOv10: Real-Time End-to-End Object Detection》

YOLOv10 被认为是计算机视觉领域的突破性框架,该论文中在从后续处理和模型架构两个方面进一步提高 YOLO 系列模型的性能-效率边。

https://arxiv.org/pdf/2405.14458

《面向开放世界感知、具有互补通路的视觉芯片》

清华「天眸芯」是全球首款类脑互补视觉芯片,标志着国内芯片领域在类脑计算和类脑感知两个重要方向上均已取得基础性突破。

https://www.nature.com/articles/s41586-024-07358-4

《PowerInfer-2: Fast Large Language Model Inference on a Smartphone》

上交大发布 LLM 手机推理框架 PowerInfer-2,提速 29 倍,该论文针对手机模型遇到的挑战提出了新的解决方案。

https://arxiv.org/abs/2406.06282

《OpenVLA: An Open-Source Vision-Language-Action Model》

本文介绍了 OpenVLA,一个开源的视觉语言行动(VLA)模型,该模型通过大规模互联网视觉语言数据和多样化的机器人演示进行预训练,实现了对视觉运动控制的强大性能,并可通过微调获得鲁棒且泛化的策略,解决了现有 VLA 模型封闭和不可访问的问题,并提出了有效的 VLA 微调新方法。

http://arxiv.org/abs/2406.09246v1

《李飞飞最新 DataBricks 峰会演讲》

李飞飞教授介绍了其空间智能领域团队的系列研究。该团队通过结合视觉、语言和空间智能,开发出了一系列先进的算法,使机器人能够理解三维空间并执行复杂任务。

https://mp.weixin.qq.com/s/zs31ld6bZUzuqmz28KZLPQ

《Pandora: Towards General World Model with Natural Language Actions and Video States》

Pandora 通过大规模预训练和指导调整实现了领域通用性、视频一致性和可控性。展示了 Pandora 在不同领域(室内/室外、自然/城市、人类/机器人、2D/3D 等)的广泛输出。

http://arxiv.org/abs/2406.09455v1

二、AI 硬件开源项目

OpenGlass

OpenGlass 旨在将普通眼镜改造成具有人工智能功能的智能眼镜。

https://github.com/BasedHardware/OpenGlass

Barkour Robot

Barkour Robot 是由 Google DeepMind 开发的一系列敏捷四足机器人,为各种机器学习和机器人研究提供支持。

https://github.com/google-deepmind/barkour_robot

Octo

Octo,一个基于 80 万条来自 Open X-Embodiment 数据集的轨迹进行训练的大型 Transformer 策略,这是迄今为止最大的机器人操作数据集。

http://arxiv.org/abs/2405.12213v1

InternGPT

一种基于指向语言驱动的视觉交互系统,允许用户使用指向设备通过点击、拖动和绘制与 ChatGPT 进行互动。

https://github.com/OpenGVLab/InternGPT/blob/main/README_CN.md

三、AI 硬件产品案例

AutoLife Robotics (奇绩校友产品)

AutoLife Robotics 致力于规模化推广低成本通用半人形 AI 机器人,首先解决零售环境下的重复劳动,例如替换大型连锁咖啡店的重复性劳动、服装店衣物整理工作,或在免税店部署智能的机器人销售助理。

Rabbit-R1(本周潜空间嘉宾)

是由 Rabbit Tech 推出的手持 AI 设备,设计为个人的日常数字助理,主要通过自然语言交互进行操作。这款设备的核心特点是它的操作系统 Rabbit OS 和底层的“ Large Action Model (LAM) ”,这使得它不仅能执行简单任务,还能学习并执行更复杂的数字任务。

https://www.rabbit.tech/rabbit-r1

特斯拉 Optimus 人形机器人

二代 Optimus 在机器人的 FSD 计算机上实时运行,而仅仅依靠 2D 摄像头、手部触觉和力传感器。Optimus 利用它的腿保持平衡,同时网络驱动着整个上半身。

https://mp.weixin.qq.com/s/P5pJFKGxxvi-jBuPCmk-RQ

大脑—脊柱接口小装置

瑞士的研究人员利用 AI 来读取用户意图,然后转化成电信号,再和肌肉的运动相匹配,在用户大脑和脊髓之间建立了一座「数字桥梁」。

https://mp.weixin.qq.com/s/cxKQAO-2-NhCwSB69dccVQ

Mi-GPT

MiGPT 是一个将小爱音箱与 ChatGPT 等大语言模型完美融合的产品,致力于打造一个更智能、更懂你的智能家居助手。

https://github.com/idootop/mi-gpt

苹果智能

加持 GPT-4o,全家桶都上生成式 AI ,Siri 脱胎换骨。

https://mp.weixin.qq.com/s/sCD2DKx9-rroCoTh1bSvBQ

AI Pin

Ai Pin 是一款集成了 AI 交互功能的无屏幕激光投影穿戴设备,重量为 34.2 g,外形类似方形手表表盘,可以轻松别在衣服上。它采用无屏幕设计,通过激光投影技术将界面投射至手掌,结合手势控制能力,来实现无屏幕交互体验。

https://humane.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1840844.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

百度一下首页制作(HTML+CSS)

部分代码展示&#xff1a; <!DOCTYPE html> <html> <head><meta charset"utf-8"><title>百度一下&#xff0c;你就知道</title><style type"text/css">/*清除元素默认性质*/body { margin: 0;padding: 0;list-…

白酒:酒文化的教育价值与实践

酒文化作为中国传统文化的重要组成部分&#xff0c;具有丰富的教育价值。云仓酒庄的豪迈白酒作为酒文化的品牌之一&#xff0c;在传承与发展中不断挖掘和发挥酒文化的教育价值。 首先&#xff0c;豪迈白酒有责任传承丰富的历史文化知识。从酒的起源、酿造技艺、酒器文化到酒礼酒…

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration

引言 机器人学习的背景和挑战 本文的研究重点 现有方法的局限性 本文的创新点 相关工作 事先准备 视觉目标条件策略 ViNT在目标条件导航中表现出最先进的性能&#xff0c;但它不能执行无方向探索&#xff0c;需要外部的子目标建议机制。Nomad扩展了Vint&#xff0c;同时支持目…

【PyQt5】一文向您详细介绍 QHBoxLayout() 的作用

【PyQt5】一文向您详细介绍 QHBoxLayout() 的作用 下滑即可查看博客内容 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地&#xff01;&#x1f387; &#x1f393; 博主简介&#xff1a;985高校的普通本硕&a…

忘记 iPhone 密码:如果忘记密码,如何解锁 iPhone

为了提高个人数据的安全性&#xff0c;用户通常会为不同的帐户和设备创建不同的复杂密码。虽然较新的 iPhone 型号具有生物识别和面部解锁功能&#xff0c;但这些功能并不总是有效 - 如果您忘记了 iPhone 的密码&#xff0c;您可能会遇到麻烦。 iPhone 用户和 Android 用户一样…

docker ce的使用介绍

docker docker17.03以后 docker ce&#xff0c;社区免费版&#xff0c;vscode的docker插件使用的该版本&#xff08;默认windows只支持windows容器&#xff0c;linux支持linux容器&#xff09;docker ee&#xff0c;企业版本 docker17.03以前 docker toolbox&#xff0c;基于…

Python4 操作MySQL数据库

通过python的pymysql库连接到本地的MySQL数据库&#xff0c;并执行查询操作来获取数据&#xff0c;然后打印出每一行的数据&#xff0c;这里以一个简单的学生表为例进行介绍。 1. MySQL的安装与数据准备 首先需要安装MySQL&#xff0c;在安装完成之后使用Navicat与本地数据库…

IFM易福门SV7500SV4200涡街流量计型号都是进口的。

IFM易福门SV7500SV4200涡街流量计型号都是进口的。工程余料。

华为---OSPF单区域配置(一)

09、OSPF 9.1 OSPF单区域配置 9.1.1 原理概述 为了弥补距离矢量路由协议的不足&#xff0c;IETF组织开发了一种基于链路状态的内部网关协议——OSPF&#xff08;Open Shortest Path First&#xff0c;开放式最短路径优先&#xff09;。 OSPF作为基于链路状态的协议&#xf…

Python开发记录--手撸加解密小工具(1)

目录 1.环境搭建 2. PyQt简介 3.小结 最近考虑设计一个涵盖国际、国家等加密算法的小工具&#xff0c;用于组内测试使用。一来回顾下算法&#xff0c;二来很久没写代码得练练手感&#xff0c;给工具取个名字&#xff1a;MuscleV0.1 MuscleV0.1涵盖的算法&#xff1a; 对称算…

ATA-2032高压放大器设计要求是什么内容

高压放大器是一种专门用于放大高电压信号的电子设备。它在许多领域都具有重要的应用&#xff0c;例如在医疗设备、科学研究、传感器驱动和测试测量等方面。设计一个高压放大器需要考虑多个因素&#xff0c;包括性能要求、安全性、稳定性和可靠性等方面。下面我们将详细讨论高压…

【计算机网络】[第4章 网络层][自用]

1 概述 (1)因特网使用的TCP/IP协议体系(四层)的网际层,提供的是无连接、不可靠的数据报服务; (2)ATM、帧中继、X.25的OSI体系(七层)中的网络层,提供的是面向连接的、可靠的虚电路服务。 (3)路由选择分两种: 一种是由用户or管理员人工进行配置(只适用于规…

第58章SOCKET:TCP/IP网络基础

58.1 互联网 互联网会将不同的计算机网络连接起来并允许位于网络中的主机相互之间进行通信。互联网的目标是隐藏不同物理网络的细节以便向互联网中的所有主机呈现一个统一的网络架构&#xff0c;TCP/IP已经成了使用最为广泛的协议套件了&#xff0c; 术语Internet被用来指将全球…

c++文件io,字符串io简单介绍

目录 c文件io 介绍 采用文件流对象操作文件的一般步骤 示例 注意点 利用字节流特性 字符串io 介绍 istringstream ostringstream 示例 c文件io 介绍 c根据文件内容的数据格式分为二进制文件和文本文件 基本上和c一样 c 标准库中有许多不同的标志 用于指定流对象的…

【Java】已解决java.util.EmptyStackException异常

文章目录 一、问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决java.util.EmptyStackException异常 一、问题背景 java.util.EmptyStackException是Java在使用java.util.Stack类时可能会遇到的一个异常。这个异常通常在尝试从空的栈中弹出&am…

CVE-2020-1957 漏洞复现

先声明一下&#xff0c;免杀还是会更的&#xff0c;不过中间可能会穿插一下渗透的内容&#xff01;&#xff01;&#xff01; 踩坑点&#xff1a; 在一开始翻阅了CSDN之后&#xff0c;发现不同文章之间存在出入&#xff0c;于是最后去了CVE的官方文档&#xff0c;和参考一些国…

JAVA每日作业day6.19

ok了家人们今天继续学习面向对象&#xff0c;话不多说看看今天学了什么 一.面向对象-封装 1&#xff0c;private private:私有的 权限修饰符 是一个成员修饰符&#xff0c;修饰成员变量 被private修饰的成员变量和成员方法只能在本类中使用 对外访问使用是 set XXX 和 get X…

Redis缓存与数据库双写不一致及解决方法

1.缓存与数据库双写不一致 在大并发下&#xff0c;同时操作数据库与缓存会存在数据不一致性问题 1.1 双写不一致情况 1.2 读写并发不一致 2.解决方法 对于并发几率很小的数据(如个人维度的订单数据、用户数据等)&#xff0c;这种几乎不用考虑这个问题&#xff0c;很少会发生…

小主机折腾记录27

1.买了一个9600k&#xff0c;3根台电 4G 2666 极光A40&#xff0c;一根台电8G2666 极光A40&#xff0c;一根国惠8G2666&#xff0c;一个惠普3热管散热器 测试结果如下 1&#xff09;三根台电 4G2666 相互兼容&#xff0c;频率2667显示正常&#xff0c;显示为美光颗粒&#xff0…

React state(及组件) 的保留与重置

当在树中相同的位置渲染相同的组件时&#xff0c;React 会一直保留着组件的 state return (<div><Counter />{showB && <Counter />} </div> ) // 当 showB 为 false, 第二个计数器停止渲染&#xff0c;它的 state 完全消失了。这是因为 React…