蚂蚁百灵大模型:多模态能力让大模型像人一样理解感知

news2024/9/21 2:39:48

7月5日,在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上,蚂蚁集团公布其自研百灵大模型最新研发进展:百灵大模型已具备能“看”会“听”、能“说”会“画”的原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。原生多模态被认为是通往AGI的必经之路,在国内,目前只有为数不多的大模型厂商实现了这一能力。

2a58e45fd0e02e52ccd852f75b3ef33b.jpeg

从大会现场的演示看到,多模态技术可以让大模型更像人一样感知和互动,支撑智能体体验升级,百灵的多模态能力已应用于“支付宝智能助理”上,未来还将支持支付宝上更多智能体升级。

据了解,百灵大模型多模态能力,在中文图文理解MMBench-CN评测集上达到GPT-4o水平,在信通院多模态安全能力评测达到优秀级(最高),具备支持规模化应用的能力,能支持AIGC、图文对话、视频理解、数字人等一系列下游任务。

多模态大模型技术能够使AI更好地理解人类世界的复杂信息,也让AI落地应用时更符合人类的交互习惯,在智能客服、自动驾驶、医疗诊断等多个领域展现出巨大的应用潜力。

蚂蚁集团有着丰富的应用场景,百灵大模型的多模态能力,也已被应用在生活服务、搜索推荐、互动娱乐等场景。在生活服务上,蚂蚁集团使用多模态模型实现了ACT技术,让智能体具备一定规划执行能力,比如根据用户语音指定直接在星巴克小程序下单一杯咖啡,目前这一功能已在支付宝智能助理上线。在医疗领域,多模态能力为用户实现复杂任务的操作,可以对超过100多种复杂的医学检验检测报告进行识别和解读,还可以检测毛发健康和脱发情况,为治疗提供辅助。

发布现场,蚂蚁集团副总裁徐鹏展示了新升级的多模态技术可实现的更多应用场景:通过视频对话的自然形式,AI助理能为用户识别穿着打扮,给出约会的搭配建议;根据用户不同的意图,从一堆食材中搭配出不同的菜谱组合;根据用户描述的身体症状,从一批药物中,挑选出可能合适的药,并读出服用指导,供用户参考等。

基于百灵大模型多模态能力,蚂蚁集团已在探索规模应用落地产业的实践。

论坛上同时发布的“支付宝多模态医疗大模型”,便是这一探索的实践。据了解,支付宝多模态医疗大模型添加了包含报告、影像、药品等多模态信息在内的百亿级中英文图文、千亿级医疗文本语料以及千万级高质量医疗知识图谱,具备专业医学知识,在中文医疗 LLM 评测榜单promptCBLUE上,取得A榜第一、B榜第二的成绩。

基于百灵大模型多模态能力,由蚂蚁集团与武汉大学联合研发的遥感模型SkySense,也在论坛上公布了开源计划。SkySense是目前参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。

“从单一的文本语义理解,到多模态能力,是人工智能技术的关键迭代,而多模态技术催生的‘看听说写画’的应用场景,将让AI的表现更真实,更接近人类,从而也能更好地服务人类。蚂蚁会持续投入原生多模态技术的研发。”徐鹏说。

随着技术的不断进步和应用场景的不断拓展,百灵大模型有望在更多领域发挥重要作用。蚂蚁集团等研发机构将继续投入原生多模态技术的研发,推动人工智能技术的关键迭代。同时,百灵大模型的多模态能力也将为智能客服、自动驾驶、医疗诊断等领域带来更多创新应用,推动这些领域的智能化升级和发展。

综上所述,百灵大模型作为一款具有强大技术实力和广泛应用前景的生成式人工智能大模型,正在不断推动人工智能技术的发展和应用落地。

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0709_shemei

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1911616.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】C++入门基础--命名空间,缺省参数,函数重载

文章目录 前言一、C是什么?二、C发展历史C版本更新C参考文档 三、C基本语法1.第一个C程序2.命名空间2.1命名空间的价值2.2命名空间的定义2.3命名空间的使用 3.C的输入与输出4.缺省参数5.函数重载 总结 前言 在编程的浩瀚宇宙中,C犹如一颗璀璨的明星&…

MySQL手注之布尔型盲注详解

布尔型盲注简介 基于布尔型SQL盲注即在SQL注入过程中,应用程序仅仅返回True(页面)和False(页面)。 这时,我们无法根据应用程序的返回页面得到我们需要的数据库信息。但是可以通过构造逻辑判断(…

C++语言学习精简笔记(包含C++20特性)

目录 1 C新语法C与CC编译运行String编程范式C基础类型**自动类型推导**统一对象初始化:Uniform Initialization 控制结构if语句for语句switch语句namespace 2 函数函数声明形式参数函数参数传递的选择函数返回值的选择 函数重载 Lambda表达式函数的定义和申明生存期…

算法之工程化内容(2)—— Git常用命令

目录 1. git初始化配置 2. 新建仓库 3. 工作区——>暂存区——>本地仓库 4. git reset回退版本 5. 查看差异 git diff 6. 删除文件git rm 7. .gitignore 8. vscode操作git 9. git分支、合并和删除 10. 解决合并冲突 11. 回退和rebase 12. 添加远程仓库 参考链接&#xff…

6.824/6.5840 的Debugging by Pretty Printing配置

TA的原文在:Debugging by Pretty Printing (josejg.com) 为了在WSL2中配置好打印运行日志,我可是忙活了一下午。可恶的log配置 首先是安装rich库Textualize/rich: Rich is a Python library for rich text and beautiful formatting in the terminal. …

Android布局简介

布局是一种可用于放置很多控件的容器,根据既定的规则决定内部控件的位置。当然,布局的内部也可以放置布局,即布局嵌套,布局嵌套可以实现一些比较复杂的界面。 Android中有多种编写程序界面的方式可供选择。Android Studio提供了相…

Android应用程序调试Logcat的使用

Android的程序调试主要使用Logcat进行,本节主要介绍Logcat的使用。 开启调试模式 使用Android Studio进行程序调试,首先需要连接虚拟Android设备或真实Android设备,设备上需要启用调试功能。 虚拟Android设备默认情况下会启用调试功能。对…

超详细!Jmeter 压测-设计5W并发量场景

需求:设计一个5W并发量的性能场景? 1、确定性能测试工具,性能测试思路 测试工具:Jmeter 并发设计思路:如果被测服务足够快,比如10ms的响应时间,1个线程/秒就是100tps,5万的TPS&…

Redis代替Session实现共享

集群的session共享问题 session共享问题:多台tomcat并不共享session存储空间,当请求切换到不同的tomcat服务时导致数据丢失的问题。 session的替代方案: 数据共享内存存储key、value结构 将redis替换session可以解决session共享问题

AI发展的新方向:从卷模型到卷应用

在2024年7月4日于上海世博中心举办的世界人工智能大会暨人工智能全球治理高级别会议全体会议上,百度创始人、董事长兼首席执行官李彦宏发表了一段引人深思的演讲。他在产业发展主论坛上提出:“大家不要卷模型,要卷应用!”这句话道…

打卡第7天-----哈希表

继续坚持✊,我现在看到leetcode上的题不再没有思路了,真的是思路决定出路,在做题之前一定要把思路梳理清楚。 一、四数相加 leetcode题目编号:第454题.四数相加II 题目描述: 给定四个包含整数的数组列表 A , B , C , D ,计算有多少个元组 (i, j, k, l) ,使得 A[i] + B[j…

设计模式使用简例(简单工厂+策略模式+模板方法)

直接上代码,方便记忆。主要的要点,已经写到注释中。 一,代码展示 启动类 package com.rojer;import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication;SpringBootAppli…

【电路笔记】-C类放大器

C类放大器 文章目录 C类放大器1、概述2、C类放大介绍3、C类放大器的功能4、C 类放大器的效率5、C类放大器的应用:倍频器6、总结1、概述 尽管存在差异,但我们在之前有关 A 类、B 类和 AB 类放大器的文章中已经看到,这三类放大器是线性或部分线性的,因为它们在放大过程中再现…

离线运行Llama3:本地部署终极指南_liama2 本地部署

4月18日,Meta在官方博客官宣了Llama3,标志着人工智能领域迈向了一个重要的飞跃。经过笔者的个人体验,Llama3 8B效果已经超越GPT-3.5,最为重要的是,Llama3是开源的,我们可以自己部署! 本文和大家…

大话光学原理:3.干涉与衍射

一、干涉 这是一束孤独的光,在真空的无垠中悄无声息地穿行。忽然,一堵高耸的墙壁挡住了它的去路,它别无选择,只能硬着头皮冲撞而去。在摸索中,它意外地发现墙壁上竟有两道孔隙,笔直而细长,宛如量…

tableau树形图制作 - 7

树形图制作 1. 树状图绘制-11.1 选择属性1.2 智能选择树状图1.3 颜色设置 2. 树状图绘制-22.1 标签属性选择2.2 树状图绘制2.3 颜色设置2.4 设置标签2.5 设置筛选器 3. 树状图绘制 - 33.1 选择行列3.2 树状图转换3.3 统计转换3.4 颜色设置3.5 标签设置3.6 筛选器设置 1. 树状图…

【系统架构设计】计算机组成与体系结构(二)

计算机组成与体系结构 计算机系统组成存储器系统前言主存储器存储器存储数量(计算) 辅助存储器(以磁盘为例)Cache存储器 流水线 计算机系统组成 存储器系统 前言 存储器用来存放程序和数据的部件,是一个记忆装置&am…

Michael.W基于Foundry精读Openzeppelin第63期——Initializable.sol

Michael.W基于Foundry精读Openzeppelin第63期——Initializable.sol 0. 版本0.1 Initializable.sol 1. 目标合约2. 代码精读2.1 _getInitializedVersion() internal && _isInitializing() internal2.2 modifier initializer()2.3 modifier reinitializer(uint8 version…

Qt 异步实现事件的定时执行 - QTimer和QThread的联合使用

异步实现事件的定时执行 - QTimer和QThread的联合使用 引言一、核心源码二、其信号和槽函数简述三、定时器及其moveToThread简述 引言 在 Qt 中,如果想要定时执行某些事件或函数,通常会使用 QTimer 类。QTimer 允许设置一个时间间隔,当这个时…

聚星文社一键生成工具绘唐3科技AI工具

聚星文社一键生成工具绘唐3科技AI工具 绘唐3.0——用户文档 - 飞书云文档 聚星文社一键生成工具绘唐3科技AI工具是一个基于人工智能技术的辅助创作工具,可以帮助用户快速生成有关唐朝科技的文本内容。该工具利用自然语言处理和机器学习等技术,通过输入一…