最强端侧多模态模型MiniCPM-V 2.5,8B 参数,性能超越 GPT-4V 和 Gemini Pro

news2024/10/7 16:20:51
前言

近年来,人工智能领域掀起了一股大模型热潮,然而大模型的巨大参数量级和高昂的算力需求,限制了其在端侧设备上的应用。为了打破这一局限,面壁智能推出了 MiniCPM 模型家族,致力于打造高性能、低参数量的端侧模型。近期,面壁智能再次推出了最新一代端侧多模态模型 MiniCPM-Llama3-V 2.5,以 8B 的参数量级,展现出了超越 GPT-4V 和 Gemini Pro 等多模态巨无霸的强大实力。

  • Huggingface模型下载:https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

  • AI快站模型免费加速下载:https://aifasthub.com/models/openbmb

技术特点

MiniCPM-Llama3-V 2.5 拥有以下关键技术特点:

  • 以小博大,参数精简,性能卓越

MiniCPM-Llama3-V 2.5 仅拥有 8B 参数,却在多模态综合性能、OCR 能力、幻觉控制等方面超越了 GPT-4V 和 Gemini Pro 等更大模型,证明了面壁智能在模型压缩和性能优化方面的领先技术。

  • OCR 能力 SOTA,识别精准,效率更高

MiniCPM-Llama3-V 2.5 在 OCRBench 基准测试中取得了 SOTA 成绩,超越了 Claude 3V Opus、Gemini Pro 等标杆模型,展现出强大的 OCR 能力。模型支持高效编码及无损识别 180 万高清像素图片,并支持任意长宽比,甚至能识别 1:9 极限比例图像,突破了传统 OCR 技术只能识别 20 万像素小图的瓶颈。

  • 复杂推理能力强,更懂图像,更会思考

MiniCPM-Llama3-V 2.5 不仅仅能理解图像中的文字,还能深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题。例如,面对一张充满繁密字迹的建筑风景图,模型不仅能够识别出《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计。

  • 首次实现端侧系统级加速,效率提升 150 倍

MiniCPM-Llama3-V 2.5 首次实现了端侧系统级多模态加速,在图像编码方面,整合了 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,实现了 150 倍的加速提升。在语言模型推理方面,经过优化,模型在手机端的语言解码速度提升到 3-4 token/s,大幅提升了端侧应用的效率。

  • 支持 30+ 种语言,拥抱世界开源社区

MiniCPM-Llama3-V 2.5 支持 30+ 种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。基于自研的跨语言泛化技术,模型仅通过少量翻译的多模态数据的指令微调,就能对多语言多模态对话性能高效泛化,让全球用户都能享受到端侧多模态技术的便利。

性能优势

MiniCPM-Llama3-V 2.5 在多个方面展现出了优异的性能:

  • 多模态综合性能: 在 OpenCompass 平台上,MiniCPM-Llama3-V 2.5 以 8B 的参数量级,综合性能超越了 GPT-4V 和 Gemini Pro,展现了小模型大潜力的优势。

  • 幻觉控制: 在 Object HalBench 榜单上,MiniCPM-Llama3-V 2.5 的幻觉率大幅降低,再次超越 GPT-4V 和 LLaVA-NeXT-34B,证明了模型在生成可靠、可信答案方面的进步。

  • 空间理解能力: 在 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 的性能仅次于 InternVL-Chat-V1.5 (26B),却依旧超越了 GPT-4V 和 Gemini Pro,展现了模型在处理空间信息方面的能力。

应用场景

MiniCPM-Llama3-V 2.5 在多个领域具有广泛的应用潜力,可以为用户提供更便捷、更具创意的创作体验:

  • 智能手机应用: 可以用于手机上的图像识别、文字识别、问答、语音助手等功能。

  • 智慧家居: 可以用于智能家居设备的图像识别、语音控制、信息查询等功能。

  • 工业应用: 可以用于工业场景的图像识别、故障诊断、安全监控等功能。

  • 医疗领域: 可以用于医学图像分析、诊断辅助等功能。

总结

MiniCPM-Llama3-V 2.5 的发布,标志着端侧多模态模型迈上了新的台阶,它用实力证明了模型参数量级并非衡量性能的唯一指标,小模型也能拥有强大的能力。相信未来 MiniCPM 模型家族将会在更多领域发挥重要作用,为人们的生活带来更多便利和乐趣。

模型下载

Huggingface模型下载

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

AI快站模型免费加速下载

https://aifasthub.com/models/openbmb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1710723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Qt秘籍】[004]-Qt中的重要工具-介绍

QtCreator概览 当我们打开系统的菜单翻到刚刚下载的Qt文件,里面的内容却让我们眼花缭乱。 不过别急,下面我们将一一解析。 1.Assistant Qt自带的离线版本官方文档 2.Designer Qt图形化设计界面的工具,通过拖拽控件快速生成界面&#xff0c…

APM 2.8外置罗盘校准

请注意: GPS不可以飞控带电插拔,带电插拔会产生差分电压,可能会导致GPS模块损坏,无法搜星。不听劝告,后果自负! 1.如何接线 GPS有两根线,要插上面图所示的两个接口。同时拔掉旁边的跳线帽&…

强化学习——学习笔记2

在上一篇文章中对强化学习进行了基本的概述,在此篇文章中将继续深入强化学习的相关知识。 一、什么是DP、MC、TD? 动态规划法(DP):动态规划法离不开一个关键词,拆分 ,就是把求解的问题分解成若…

[AIGC] Nginx常用变量详解

Nginx非常强大,其主要功能包括HTTP服务器、反向代理、负载均衡等。Nginx的配置中有许多内置的变量,你可以在配置文件中使用这些变量进行灵活的配置。在本篇文章中,我们将介绍一些Nginx中常见的变量,包括proxy_add_header。 常见变…

多旋翼无人机机场考哪些内容?

多旋翼无人机机场考试的内容主要包括理论和实飞两部分。 理论考试主要涵盖无人机相关的知识,包括无人机的原理、结构、操作规范等。 实飞考试则主要考察飞行技能,包括飞行操作、航线规划、飞行稳定性等。 具体来说,实飞部分可能包括使用GPS…

前端渲染页面的原理

之前一直不愿意写一篇关于原理的,因为说起来实在是太繁杂,要写得细,码字梳理,计算下来起码都要差不多三周。以前一直躲避这个事情,现在反正有时间,为了不荒废自己,那就从头捋一遍。也方便自己后…

【STL库源码剖析】list 简单实现

从此音尘各悄然 春山如黛草如烟 目录 list 的结点设计 list 的迭代器 list 的部分框架 迭代器的实现 容量相关相关函数 实现 insert 在指定位置插入 val 实现 push_back 在尾部进行插入 实现 erase 在指定位置删除 实现 pop_back 在尾部进行删除 实现 list 的头插、头删 实现…

循环buffer“一写多读“

1.往期回顾 一个简单实用的循环buffer,用于缓冲数据!测试500M数据,耗时1.3秒。 C语言版本的循环buffer比C版本的速度更快!测试500M数据0.5秒,达9.25Gbps左右! C 语言免拷贝版本循环 buffer 比拷贝版本快了…

熵值法(熵权法)

熵值法(Entropy Method)是一种多属性决策分析方法,主要用于权重确定、排序和评价。它在风险评估、资源配置、环境管理等领域得到广泛应用。熵值法的核心思想是基于信息熵的概念,利用信息熵来度量各属性对决策的贡献程度&#xff0…

农产品产品防伪防窜货+二维码防伪+溯源系统源码全平台一物一码数字化防伪防窜货和溯源查询系统

农产品产品防伪防防窜货二维码防伪溯源系统源码全平台一物一码数字化防伪防窜货和溯源查询系统 产品防伪防防窜货二维码防伪溯源系统源码,该系统采用最简单易用的phpMySQL进行搭建,拥有完善的网站前后台,通过对每件产品生产线上的单品、二级…

BIGO前端CICD平台

本文首发于:https://github.com/bigo-frontend/blog/ 欢迎关注、转载。 我是谁 BIGO前端CICD平台,是一个服务于前端团队的全研发周期管理平台,已经是我们团队日常都要使用的工具了。 该平台实现了一键创建项目、发布编排、新建迭代、checkl…

【微服务】部署mysql集群,主从复制,读写分离

两台服务器做如下操作 1.安装mysqldocker pull mysql:5.72.启动以及数据挂载 mkdir /root/mysql/data /root/mysql/log /root/mysql/conf touch my.conf //mysql的配置文件docker run --name mysql \ -e MYSQL_ROOT_PASSWORD123456 \ -v /root/mysql/data:/var/lib/mysql \ -v…

如何创建一个vue项目?详细教程,如何创建第一个vue项目?

已经安装node.js在自己找的到的地方新建一个文件夹用于存放项目,记住文件夹的存放路径,以我为例,我的文件夹路径为D:\tydic 打开cmd命令窗口,进入刚刚的新建文件夹 切换硬盘: D: 进入文件夹:cd tydic 使…

基于ViutualBox+Ubuntu(Linux)的开发环境搭建

实际在选择虚拟机的时候纠结了要用virualbox还是vmware,初步比较结果: 1.virualbox能够使用vmware的硬盘格式,因此可以自由选择。 2.都能够实现主机和宿主机之间的文件夹共享。 3.virualbox是自由软件,vmware是商业软件。 在功能上…

STM32 入门教程(江科大教材)#笔记2

3-4按键控制LED /** LED.c**/ #include "stm32f10x.h" // Device headervoid LED_Init(void) {/*开启时钟*/RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOA, ENABLE); //开启GPIOA的时钟/*GPIO初始化*/GPIO_InitTypeDef GPIO_InitStructure;GPIO_I…

go 微服务框架kratos使用中间件的方法

一、中间件的概念 在go语言中,中间件是一种用于处理http请求的开发模式,允许开发人员在请求到达处理程序之前或之后执行特定的操作,如日志记录、身份验证、错误处理等。 中间件通常是一个函数,它接收一个 http.Handler 作为参数…

解读makefile中$(patsubst pattern,replacement,text)

在 Makefile 中,$(patsubst pattern,replacement,text) 是一个用于模式替换的函数,它可以将文本中符合指定模式的部分替换为指定的字符串。这个函数通常用于对文件名或路径进行模式匹配和替换,非常适合在 Makefile 中进行文件名的转换操作。 …

队列的特性及代码实现(C语言)

目录 队列的定义 队列的实现分析 代码实现 Queue.h Queue.c 队列的定义 队列是只允许在一端进行插入操作,而在另一段进行删除操作的线性表。 首先,让我们来看一看生活中的队列,当我们去银行办理业务的时候,我们进入银行的时候…

CANDela studio使用小tips

打开软件的时候注意先选择英文,因为双击CDD/CDDT文件默认打开的是德文,所以最正确的打开方式是先打开CANDela studio,再导入CDD,不仅可以避免用德文打开,还能避免vector软件的bug。 不同的版本有不同的权限。 admin有…

【一竞技DOTA2】RAMZES666替补参加裂变联赛

1、根据主办方文件,RAMZES666将继续作为Tundra战队替补参加裂变联赛。该比赛为欧洲线上赛,于5月27日-30日举行,总奖金8万美元。 除此之外,Nigma战队在上个月宣布四号位Matthew离队后,也选择启用老队员GH参赛。而在本月初让ah fu转回教练、携替补Thiolicor出战PGL瓦拉几亚的Secr…