超过GPT-4V,国产开源多模态大模型来了!支持视频理解/超高分辨率图片理解/多轮对话...

news2024/11/18 20:34:23

扫码领取享50优惠!随时可用,先到先得!

e24deafcdda3418409dff52aead46826.png

大家好,开源多模态大模型真的是每天都在疯狂的涌现,今天分享一个国产大模型 InternLM-XComposer-2.5 中文名:浦语·灵笔2.5

仅使用 7B LLM 后端就达到了 GPT-4V 级别的能力,甚至从官方的论文测试结果来看,部分benchmark上的指标甚至超过了 GPT-4V

c107044c35038310d952367b5f0c7392.png

InternLM-XComposer-2.5

下面介绍一下主要功能:

  • 超高分辨率理解:浦语·灵笔2.5使用560×560分辨率的ViT视觉编码器增强了IXC2-4KHD中提出的动态分辨率解决方案,支持具有任意纵横比的高分辨率图像。

  • 细粒度视频理解:浦语·灵笔2.5将视频视为由数十到数千帧组成的超高分辨率复合图像,从而通过密集采样和每帧更高的分辨率捕捉细节。

  • 多轮多图像对话:浦语·灵笔2.5支持自由形式的多轮多图像对话,使其能够在多轮对话中与人类自然互动。

  • 网页制作:浦语·灵笔2.5可以通过遵循文本-图像指令来创建网页,包括源代码(HTML、CSS和JavaScript)的组合。

  • 高质量文本-图像文章创作:浦语·灵笔2.5利用特别设计的“思维链”(CoT)和“直接偏好优化”(DPO)技术,显著提高了其创作内容的质量。

  • 出色的性能:浦语·灵笔2.5在28个基准测试中进行了评估,在16个基准测试上优于现有的开源先进模型。它还在16个关键任务上超越或与GPT-4V和Gemini Pro表现相近。


1、支持与高分辨率图片对话的能力


1da90a537c7f8aab1d7a8ac836837ea8.png

2、多轮多图像对话

da718b9f866433a8596b9eb15ba046c9.png

3、视频理解

752f4480fdd10cbef2c2a944692c6646.png

4、网页制作

从简历到网页生成

dc34e58f2854fff374682f0be69863e7.png

根据指令生成网页

1a523c2bbfe1ee8f0f98a7e362363241.png

根据截图生成对应的网页

34c7b1d5b32156f3aacbb10d10a3c90d.png

5、文章创作

f033ed6b0d48c375e2abf899c5ad5aaf.png

论文和项目地址:

https://huggingface.co/internlm/internlm-xcomposer2d5-7b

https://arxiv.org/pdf/2407.03320

https://github.com/InternLM/InternLM-XComposer

整体框架

2778c8d9a4d1a0d9e8a6a9632205cdda.png

InternLM-XComposer-2.5(为简单起见,下文中称为 IXC2.5)的模型架构主要遵循 InternLM-XComposer2和 InternLMXComposer2-4KHD(为简单起见,称为 IXC2 和 IXC2-4KHD)的设计,包括轻量级视觉编码器 OpenAI ViT-L/14]、大型语言模型 InternLM2-7B和部分 LoRA以实现高效对齐。我们建议读者参阅 IXC2 和 IXC2-4KHD 论文以了解更多详细信息。

InternLM-XComposer2:https://arxiv.org/pdf/2401.16420 

InternLM-XComposer2-4KHD:https://arxiv.org/pdf/2404.06512

论文和项目地址:

https://huggingface.co/internlm/internlm-xcomposer2d5-7b

https://arxiv.org/pdf/2407.03320

https://github.com/InternLM/InternLM-XComposer

format,png 更多细节请查看论文,今天的内容就分享到这里了,如果对大家有帮助,欢迎多多点赞转发,可以留言分享或推荐你感兴趣的方向

课程推荐

对于希望入门 NeRF 或者对这个方向感兴趣但是又担心课程质量,怕被割的小伙伴,可以了解一下哈

扫描了解更多(添加助理,可以试看视频):

e2fe9092f861e08df3729671050a1408.png

下面是课程的大纲和往期学生的一些反馈,内容真实可靠,课程的单价不高,基本上就是赚口碑了,有兴趣的小伙伴可以扫描最下面的二维码了解!!!

课程大纲:

33f8e226523754120824e9f6fae9d147.jpeg

往期学员真实反馈:

1ab13bad0c556700548e020b3ff03b0a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1900149.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第一百四十五节 Java数据类型教程 - Java字符串类型

Java数据类型教程 - Java字符串类型 零个或多个字符的序列称为字符串。 在Java程序中,字符串由java.lang.String类的对象表示。 String类是不可变的。 String对象的内容在创建后无法修改。 String类有两个伴随类,java.lang.StringBuilder和java.lang.…

独立开发者系列(20)——扫码登录

(1)网页端的安全登录设计 很多大型网站都有登录限制。这里以一个案例作为例子完整解析。理解安全的登录设计方式,无论对于以后做自动化,自动登录网站,获取数据,还是自己开发月租类型的系统非常有用。当前一…

在AvaotaA1全志T527开发板上使用AvaotaOS 部署 Docker 服务

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows操作系统的机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。 准备…

高考选专业,兴趣与就业前景该如何平衡?

从高考结束的那一刻开始,有些家长和学生就已经变得焦虑了,因为他们不知道成绩出来的时候学生应该如何填报志愿,也不知道选择什么样的专业,毕竟大学里面的专业丰富多彩,如何选择确实是一门学问,而对于学生们…

8分钟带你快速了解Connector/Catalog API的核心设计

引言 在现代大数据应用中,数据集成和同步成为企业数据管理的关键环节。随着数据源和数据库的多样化,如何高效地进行数据集成成为企业面临的重要挑战。 Apache SeaTunnel 作为一款开源的数据集成工具,致力于解决这一问题。本文将详细介绍 Sea…

小酌消烦暑|人间正清欢

小暑是二十四节气之第十一个节气。暑,是炎热的意思,小暑为小热,还不十分热。小暑虽不是一年中最炎热的时节,但紧接着就是一年中最热的节气大暑,民间有"小暑大暑,上蒸下煮"之说。中国多地自小暑起…

w3wp.exe 中发生未处理的 Microsoft ,NETFramework 异常。

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

Net5.5G,全球运营商的AI之翼

2024年,什么是全球运营商最关注的机遇?人工智能应该是当之无愧的第一答案。 根据市场研究机构Omdia发布的数据报告显示,人工智能在电信运营商向科技公司转型的过程中发挥关键作用,多数领先电信运营商都在加强人工智能的能力建设&a…

STL vector 手写--迭代器设计思想、空间配置器思想!两个面试题

STL空间配置器 空间配置器的核心功能就是把对象的内存开辟和对象构造的过程分解开,对象析构和内存释放的过程分解开,因此空间配置器主要提供了以下四个函数: 空间配置器的函数功能allocate负责开辟内存deallocate负责释放内存construct负责…

软件运维服务方案(Word原件2024)

软件运维服务方案(Word原件) 1. 服务简述 我们提供全面的软件运维服务,确保软件系统的稳定运行。 1.1 服务内容 包括监控、维护、故障排查与优化。 1.2 服务方式 结合远程与现场服务,灵活响应客户需求。 1.3 服务要求 高效响应&am…

【Mac】adobe CameraRaw 16 for mac(ps插件RAW处理工具)软件介绍

软件介绍 Adobe Camera Raw是一款专为处理和编辑数字照片原始文件(RAW文件)而设计的插件,它提供了丰富的功能来调整和优化图像。以下是它的主要特点和功能: 支持广泛的RAW格式: Adobe Camera Raw 16 支持处理来自各…

设置单实例Apache HTTP服务器

配置仓库 [rootlocalhost ~]# cd /etc/yum.repos.d/ [rootlocalhost yum.repos.d]# vi rpm.repo仓库代码: [BaseOS] nameBaseOS baseurl/mnt/BaseOS enabled1 gpgcheck0[AppStream] nameAppStream baseurl/mnt/AppStream enabled1 gpgcheck0挂载 [rootlocalhost …

hdu物联网硬件实验1 小灯闪烁

物联网硬件基础实验报告 学院 班级 学号 姓名 日期 成绩 实验题目 配置环境小灯 实验目的 配置环境以及小灯闪烁 硬件原理 无 关键代码及注释 /* Blink The basic Energia example. Turns on an LED on for one second, then off for one sec…

一维前缀和的实现

这是C算法基础-基础算法专栏的第十一篇文章,专栏详情请见此处。 引入 我们用朴素做法求一维数组的区间和时,一般是从前向后循环累加,它的时间复杂度为,当求区间和的次数过多,则会有超时的可能,那有没有时间…

【吊打面试官系列-MyBatis面试题】MyBatis 实现一对一有几种方式?具体怎么操作的?

大家好,我是锋哥。今天分享关于 【MyBatis 实现一对一有几种方式?具体怎么操作的?】面试题,希望对大家有帮助; MyBatis 实现一对一有几种方式?具体怎么操作的? 有联合查询和嵌套查询,联合查询是几个表联合查询,只查询…

Java跳出循环的四种方式

1、continue,break,return continue:跳出当前层循环的当前语句,执行当前层循环的下一条语句。   continue标签 break:跳出当前层循环。 break标签:多层循环时,跳到具体某层循环。 return:结束所有循环…

烟草企业如何在数字化转型中实现从“传统”到“智能”的跨越?

在数字化浪潮的席卷下,各行各业都在经历着深刻的变革。作为国民经济的重要组成部分,烟草行业正处于高质量发展的重要阶段,加快信息系统国产化升级,对于提升行业竞争力、强化信息安全保障具有重要战略意义。 达梦数据积极助力烟草行…

AIGC | 在机器学习工作站安装NVIDIA cuDNN 深度学习库

[ 知识是人生的灯塔,只有不断学习,才能照亮前行的道路 ] 0x03.初识与安装 cuDNN 深度学习库 什么是cuDNN? cuDNN(CUDA Deep Neural Network library)是由英伟达(NVIDIA)开发的深度学习库,专门用…

怀念旧的Windows声音?以下是如何在Windows 11中恢复它们

如果你渴望旧的Windows声音,希望能在Windows 11上再次听到,那你就很幸运了。我们将向你展示如何下载必要的声音包并创建复古的声音方案。 如何获取旧Windows声音的声音包 你需要做的第一件事是下载一个包含旧Windows版本声音的声音包。此外,请确保它包含的每个声音都是WAV…

【学习笔记】爱立信SPO 1400 CRAFT软件基础知识6——配置的备份与恢复的详细方法

一、前期准备 提示:下面所有学习内容都是基于以下条件完成的 条件1.已经正确安装并正常运行SPO 1400 CRAFT软件(以下简称LCT) 条件2.确认已正确使用爱立信SPO 1400 CRAFT软件通过网络登录设备(以下简称NE) 具体登录…