端侧多模态 | 不到10亿参数的端侧Agent竟媲美GPT-4V?AI手机不远了!

news2025/1/22 18:05:48
  • 引言

  • 简介

  • 相关工作

  • 模型

    • 编码视觉信息

    • 函数token

    • 多阶段训练

  • 模型评估

    • 发送邮件

    • 发送短信

    • Google搜索

    • Amazon购物

    • 智能回收

    • 失物招领

    • 室内设计

    • Instacart购物

    • DoorDash(外卖平台)示例

    • 动物护理

  • 总结

引言

青山一道同云雨,明月何曾是两乡。

小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖月饼的小女孩。延续前文:端侧大模型系列 | 斯坦福手机端侧Agent大模型:Octopus v2,为Android API而生!,今天这篇小作文主要介绍Octopus v3这个端侧多模态大模型。#AI智能体 #Agent

人工智能的飞速发展改变了我们与技术的互动方式,催生了能根据自然语言和视觉信息执行复杂任务的人工智能Agent。这些Agent有望自动化处理从图像识别到医疗诊断等各类任务。

它们的核心是多模态语言模型,能够通过处理和整合文本、图像、音频等多种模态数据,理解并生成类人响应。相较传统的文本语言模型,多模态模型能更好地理解输入数据的语境,产生更准确相关的输出。

开发多模态模型的关键挑战是如何将视觉信息编码成可供模型处理的格式。主要方法包括使用卷积神经网络提取图像层次特征,或使用transformer架构捕获长程依赖关系;另一种是图像token化,将图像分解成可与文本整合的离散tokens。

开发更小、高效的多模态模型对未来人工智能Agent至关重要。这些模型可部署在资源受限设备上,扩展应用场景范围。基于强大的多模态能力,小型Agent可以更自然直观地理解和响应用户查询,为更个性化的交互开辟新可能。

此外,高效多模态模型的发展将使人工智能技术民主化,惠及更广泛的用户和行业。模型运行所需的计算资源和能耗降低,有望在医疗、教育等领域广泛应用,彻底改变生活和工作方式。更多文章可以关注微信公众号《小窗幽记机器学习》。

简介

多模态人工智能Agent(智能体)能够处理和学习各种数据类型,包括自然语言、图像和音频。虽然将视觉数据融入大型语言模型已有进展,但如何将图像数据转化为Agent可操作结果仍具挑战。这篇文章介绍一种新型多模态模型,结合了功能性标记(function token)的概念,专为Agent应用设计。为实现边缘设备部署,模型参数被优化至10亿以下。与GPT-4类似,该模型支持英语和中文处理。实践证明,该模型可在多种边缘设备(包括像树莓派这样资源受限设备)上高效运行。演示视频如下:

AI科技爱科学

模型权重和推理代码可通过此链接申请,该模型目前处于测试阶段,仅用于研究目的。

论文标题:Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent

论文地址:https://arxiv.org/abs/2404.11459

模型权重和推理代码申请:https://www.nexa4ai.com/apply

相关工作

多模态模型能够处理和学习文本、图像、音频等多种数据类型,受到广泛关注。这些模型捕获不同模态间的复杂交互,利用互补信息提高多任务性能。视觉-语言预训练模型(如ViLBERT)通过跨模态注意力对齐视觉和文本特征;多模态transformer架构(如MMT)则调整了transformer以高效处理多模态数据。研究人员还探索纳入音频、面部表情等其他模态,如多模态情感分析模型。通过整合各模态互补信息,多模态模型相比单一模态方法表现出更好的性能和泛化能力。

这篇文章将参数小于70亿的语言模型视为设备端模型,因为在边缘设备上运行130亿参数模型存在困难。该领域最新进展包括谷歌Gemma 2B/7B、Stable Diffusion的Stable Code 3B和Meta Llama 7B等。有趣的是,较小模型在深层细长架构上表现更佳,与大型模型不同。其他行之有效的端侧技术包括嵌入共享、分组注意力和即时块式权重共享等,如MobileLLM所述。这凸显了为端侧应用开发小型语言模型时,考虑替代设计方法的重要性,因为它们可能需要不同于大型模型的优化方式。

模型

本节讨论Octopus v3模型中主要涉及的技术。多模态模型开发的两个关键方面是如何将图像信息与文本输入集成,以及如何优化模型预测动作的能力。

编码视觉信息

在图像处理中编码视觉信息有多种方法,通常利用隐藏层嵌入。例如,VGG-16模型的隐藏层嵌入用于风格转换任务。OpenAI的CLIP模型展示了对齐文本和图像嵌入的能力,利用其图像编码器对图像进行嵌入。更高级的技术如应用于ViT的图像token化等方法。文章评估了各种图像编码技术,发现CLIP模型的方法最有效。因此,Octopus v3利用CLIP模型进行图像编码。

函数token

与应用于自然语言和图像的token化类似,特定函数也可以封装为函数token。在Octopus v3中为这些token引入了一种训练策略,该策略模仿自然语言模型中处理未见过term(即OOV)的技术。这种方法类似于word2vec方案,其中token的意义通过其上下文环境得到,即分布式表征。例如,先进的语言模型最初可能难以处理像PEGylation和溶酶体逃逸这样的复杂化学术语。然而,这些模型能够通过因果语言建模来获取这些术语的表示,尤其是在包含这些术语的数据集上进行训练时。同样地,函数token可以使用并行策略来获取,Octopus v2模型可以作为这种学习过程的一个强大平台。通过官方的研究表明,定义功能性标记(函数token)的潜力是无限的,通过这种方式可以将任何特定功能(函数)表示为一个token。

多阶段训练

为开发高性能的多模态人工智能Agent,整合因果语言模型和图像编码器的模型架构。该模型的训练过程分为多个阶段。最初,分别训练因果语言模型和图像编码器以建立baseline模型。随后,这些组件合并,模型经历对齐训练以同步图像和文本处理能力。在此之后,训练纳入了Octopus v2框架的方法,以促进函数token的学习。在训练的最后阶段,这些能够与环境交互的函数token能够提供反馈信息,用于进一步精炼和优化模型。因此,在最后阶段,使用强化学习,并选择另一个大型语言模型作为奖励模型。这种反复训练的方法增强了模型有处理和整合多模态信息的能力。

模型评估

在这一部分,重要展示Octopus v3模型的结果,并与整合GPT-4V模型和GPT-4所取得的成果进行比较。为了进行这种比较,最初采用GPT-4V (gpt-4-turbo)来处理图像信息。随后,所提取的这些数据被用于GPT-4框架(gpt-4-turbo-preview),将所有函数描述纳入上下文,并使用少样本学习来提高性能。在演示中,将10个常用的智能手机API转换为函数token,并评估它们的性能,详情如下文所述。

重点要注意的是,虽然文章只展示了10个函数token,但该模型可以用更多的token进行训练,从而创建一个更加通用的AI Agent。实验结果表明,少于10亿个参数的模型,在作为面向特定API的多模态AI Agent的时候,其性能可与GPT-4V和GPT-4模型相当。

此外,由于Octopus v3模型本身所具备的的可扩展性,还允许加入各种各样的功能函数token,从而创建高度专门化的、适合特定领域或用例的AI Agent。这种适用性使文章所提出的方法在医疗保健、金融和客户服务等行业特别有价值,在这些行业中,基于AI的解决方案可以显著提高效率和用户体验。

对于下面所有的函数名称,Octopus只会输出函数token,例如<nexa_0>,...,<nexa_N>,再将函数token替换为相应的函数名称,以便于更好地演示。下面所有的结果都是直接生成的,不需要任何输出解析器。Octopus v3是一个可以同时处理中文和英文的单一模型,这意味着没有必要专门为中文训练另一个模型。

发送邮件

发送短信

Google搜索

Amazon购物

智能回收

失物招领

室内设计

Instacart购物

DoorDash(外卖平台)示例

动物护理

总结

Octopus v3作为Octopus v2的增强版,融合了文本和视觉信息处理能力,成为一种多模态模型。这一重大进展使其能够同时处理自然语言和视觉数据,为更广泛的应用场景如医疗保健、汽车行业、自动驾驶和机器人等铺平了道路。通过在边缘设备上部署,Octopus v3可将设备如Raspberry Pi转换为智能助理,不依赖云端解决方案。未来工作将致力于开发能够容纳音频、视频等其他数据形式的训练框架,同时优化视觉输入引入的推理延迟。这将进一步扩展多模态模型的能力和应用前景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2178385.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

王道-数据结构

1 设数组data[m]作为循环队列的存储空间,front为队头指针,rear为队尾指针,则执行出队操作后其头指针front值为____ 答案:D 解析:队列的头指针指向队首元素的实际位置,因此出队操作后,头指针需向上移动一个元素的位置。循环队列的容量为m,所以头指针front加1以后,需…

CVPR论文《DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets》

1、整体思维导图 2、个人收获 这篇论文在理论上对于我来说可能就是让我大致了解了这个领域&#xff08;因为我的研究方向不是这方面&#xff09;&#xff0c;看完以后也没有看得特别懂&#xff08;说实话&#xff09;。 更多的收获应该是在论文的写作思路上吧 3、下面欣赏论…

分享几个可以免费使用GPT的网站【2024年必备】

1、ChatGPT 链接&#xff1a;点击直达 这个网站可以免费使用GPT4.0和GPT-4o模型&#xff0c;反应速度也很快&#xff0c;还有AI绘画可以体验喔~ 推荐指数&#xff1a;⭐⭐⭐⭐⭐ 2、AI智慧岛 链接&#xff1a;点击直达 推荐指数&#xff1a;⭐⭐⭐⭐⭐ 这个网站可以免费使…

Linux基础(四):文件权限与目录配置

1.使用者、群组、其他人概念 linux下每个文件都有三种权限类别&#xff0c;分别为使用者&#xff08;User&#xff09;、群组&#xff08;Group&#xff09;、其他人&#xff08;Others&#xff09;。这三种权限类别针对的是账号&#xff0c;也就是登录这个Linux系统的用户的账…

告别盲目推广!Xinstall为社交App带来精准流量

在移动互联网时代&#xff0c;社交类App如雨后春笋般涌现&#xff0c;但如何在众多竞争者中脱颖而出&#xff0c;成为用户首选&#xff1f;这不仅是开发者们面临的难题&#xff0c;也是推广者必须攻克的难关。今天&#xff0c;我们就来揭秘一种全新的社交类App推广策略&#xf…

64.【C语言】再议结构体(下)(未完)

本文衔接第63篇 目录 6.复习 7.修改默认对齐数 8.结构体传参 01.传递非指针参数 02.传递指针参数(传递地址) 03.对比 9.结构体实现位段 01.位段的定义 02.格式 03.例题 答案速查 分析 前置知识:位段的内存分配 解析 若按浪费空间处理 验证 6.复习 20.【C语言…

《OpenCV 计算机视觉》—— Harris角点检测、SIFT特征检测

文章目录 一、Harris 角点检测1.基本思想2.检测步骤3.OpenCV实现 二、SIFT特征检测1. SIFT特征检测的基本原理2. SIFT特征检测的特点3. OpenCV 实现 一、Harris 角点检测 OpenCV中的Harris角点检测是一种基于图像灰度值变化的角点提取算法&#xff0c;它通过计算每个像素点的响…

vue2 自定义empty指令

主要思路 定义一个echarts图标&#xff0c;数据为空&#xff0c;image采用base64编码图标宽高根据父宽高自适应渲染echarts函数&#xff0c;切换清除图例定义暂无数据指令 定义option /*** 暂无数据* param {number} width* param {number} height* returns option*/ functi…

全局思维下的联合创新:华为携手ISV伙伴助推银行核心平稳升级

文 | 螳螂观察 作者 | 李永华 随着数字金融快速发展&#xff0c;对核心系统提出了“海量、高效、弹性、扩展、敏捷”等新需求&#xff0c;区域性银行面临核心系统升级的迫切需要&#xff0c;对金融科技厂商而言也催生了庞大的机遇和空间。 只是&#xff0c;银行核心系统是金…

深度学习|求导公式:梯度逆传播规律

文章目录 引言基础函数的求导常数函数幂函数指数函数对数函数三角函数反三角函数双曲函数 复合函数的梯度逆传播链式法则函数相加函数相乘函数相除 结语 引言 我们知道&#xff0c;神经网络的能够学习处理任务的核心是计算损失的梯度&#xff0c;而误差逆传播算法是求梯度的一…

基于OpenCV的实时年龄与性别识别(支持CPU和GPU)

关于深度实战社区 我们是一个深度学习领域的独立工作室。团队成员有&#xff1a;中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等&#xff0c;曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万粉丝&#xff0c;拥有2篇国家级人工智能发明专利。 社区特色…

842真题上的各种简答题

线性表 1. 应选用链式存储结构&#xff0c;因为链式存储结构采取动态内存分配&#xff0c;可以在操作过程中增加或减少线性表的长度&#xff0c;且插入删除操作更方便 2应该选用顺序存储结构&#xff0c;因为顺序存储结构的访问和存取&#xff0c;都是按照元素序号的随机访问…

VisualGLM-6B——原理与部署

VisualGLM-6B技术原理介绍 VisualGLM-6B 是一种多模态预训练模型&#xff0c;它旨在将视觉和语言模型进行结合&#xff0c;使得语言模型能够理解图像信息并与文本对话无缝结合。为了更好地理解 VisualGLM-6B 的内容&#xff0c;我们可以从以下几个方面来解析它的原理、结构、训…

基于springboot+小程序的自习室选座与门禁管理系统(自习室1)(源码+sql脚本+视频导入教程+文档)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 1、管理员实现了首页、基础数据管理、论坛管理、公告信息管理、用户管理、座位管理等 2、用户实现了在论坛模块通过发帖与评论帖子的方式进行信息讨论&#xff0c;也能对账户进行在线充值…

低代码可视化-uniapp蓝牙标签打印-代码生成器

蓝牙标签打印 蓝牙标签打印技术结合了蓝牙通信与标签打印的功能&#xff0c;为用户提供了一种便捷、高效的打印解决方案。以下是对蓝牙标签打印的详细解析&#xff1a; 蓝牙标签打印机的特点 无线连接&#xff1a;蓝牙标签打印机最大的亮点在于其无线连接方式。用户可以通过蓝…

【Redis基础篇】超详细♥Redis安装教程、5种常用数据结构和常见命令、Jedis和SpringDataRedis的使用

文章目录 一、Redis与客户端安装教程1、NoSQL介绍&#xff08;1&#xff09;结构化与非结构化&#xff08;2&#xff09;关联和非关联&#xff08;3&#xff09;查询方式&#xff08;4&#xff09;事务&#xff08;5&#xff09;总结 2、Redis介绍3、安装Redis&#xff08;1&am…

毕业论文设计javaweb+VUE高校教师信息管理系统

目录 一、系统概述 二、功能详解 1. 教师管理 2. 部门管理 3. 奖惩管理 4. 业绩管理 5. 培训管理 6. 报表查询 三、总结 四、示例代码 1 前端VUE 2 后端SpringBootjava 3 数据库表 随着教育信息化的发展&#xff0c;传统的手工管理方式已经不能满足现代学校对教师…

Python安装流程(Windows + MAC)

目录 Windows 版 1.下载Python 2.开始安装 3.配置环境变量 4.测试python是否成功安装 MAC版 1.下载Python 2.开始安装 Windows 版 1.下载Python 进入Python官网下载&#xff1a;&#xff08;Python更新频繁&#xff0c;下载最新版即可&#xff0c;安装流程一致&#x…

打印机共享错误11b解决方法介绍

共享打印机遇见各种错误&#xff0c;例如0x00000709,0x0000011b&#xff0c;浪费大量的时间去尝试各种方法去解决此问题&#xff0c;最终结果还是也连接共享失败&#xff1f;这个时候就说是不是系统有问题了&#xff0c;绝大多数的情况下是把电脑的系统重新安装了一遍&#xff…

前端工程规范-4:Git提交前代码规范检查(Husky + Lint-staged)

Git提交前代码规范检查 在前端项目开发中&#xff0c;规范git提交信息&#xff0c;也是经常使用的手段&#xff0c;如何确保团队成员都遵循ESint规则&#xff0c;且不会将不符合规范的代码推送到Git仓库&#xff1f; 答案是&#xff1a;使用带有git hooks功能的husky。git hoo…