InternLM-XComposer2-4KHD开拓性的4K高清视觉-语言模型

news2024/11/17 12:57:22

 大型视觉-语言模型(LVLM)在图像字幕和视觉问答(VQA)等任务中表现出色。然而,受限于分辨率,这些模型在处理包含细微视觉内容的图像时面临挑战。

分辨率的限制严重阻碍了模型处理含有丰富细节的图像的能力。例如,在理解图表、表格和文档等类型的视觉内容时,细节的清晰度对于准确解读和生成语言描述至关重要。然而,当图像的分辨率不足时,这些细微的视觉信息可能会丢失,导致模型无法准确地捕捉和学习图像中的关键细节。

现有模型通常只能在一个预先设定的分辨率范围内工作,这限制了它们的适用性和灵活性。在现实世界的应用场景中,需要处理的图像分辨率千差万别,从低分辨率的缩略图到高分辨率的专业图像都有。如果模型不能适应不同分辨率的输入,就无法满足多样化的业务需求,也无法在更广泛的视觉任务中发挥作用。

固定分辨率的处理方式也意味着在面对超高清图像时,模型可能需要对输入图像进行压缩,从而丢失重要的视觉信息,或者在处理低分辨率图像时,模型的计算资源没有得到充分利用。

InternLM-XComposer2-4KHD模型正是在这样的背景下应运而生,它通过一系列创新的技术手段,显著提升了LVLM在高分辨率图像处理方面的能力。

方法

模型架构设计

InternLM-XComposer2-4KHD模型的架构设计是其高性能的关键因素之一。该模型的架构建立在InternLM-XComposer2的基础之上,进行了针对性的扩展和改进,以支持高达4K HD分辨率的图像处理。包括以下三个核心组成部分:

轻量级视觉编码器:OpenAI ViT-Large/14

视觉编码器的作用是将输入的图像转换为模型能够理解的特征表示。InternLM-XComposer2-4KHD使用了OpenAI的ViT-Large/14作为其视觉编码器。ViT,即Vision Transformer,是一种基于Transformer架构的视觉模型,它通过将图像分割成一系列的小块(patches),然后将这些小块线性嵌入到一个高维空间中,从而实现对图像的有效编码。ViT-Large/14表示使用了14层Transformer结构的较大型号ViT,这为模型提供了强大的视觉特征提取能力。

大语言模型:InternLM2-7B

语言模型是处理和生成文本的核心组件。InternLM-XComposer2-4KHD采用了InternLM2-7B作为其语言模型,这是一个拥有7亿参数的大型Transformer模型。这个模型不仅能够捕捉到语言的复杂结构和语义,还能够支持多模态任务中的文本生成和理解。通过与视觉编码器的输出相结合,InternLM2-7B能够提供对图像内容的深入理解和准确的语言描述。

部分LoRA对齐:特征对齐

为了实现视觉编码器和语言模型之间的有效对齐,InternLM-XComposer2-4KHD引入了部分LoRA(Low-Rank Adaptation)技术。LoRA是一种参数效率的适配方法,它通过对模型的一小部分参数进行调整,而不是对整个模型进行训练,从而实现对模型的优化。在InternLM-XComposer2-4KHD中,LoRA技术被用来对齐视觉特征和语言特征,确保了两种模态之间的信息能够有效地交互和整合。

这三个组件共同构成了InternLM-XComposer2-4KHD的架构,使其能够处理高分辨率的图像,并在多种视觉-语言任务中表现出色。通过这种设计,模型不仅能够理解和生成与图像内容紧密相关的语言描述,还能够在保持计算效率的同时,处理比以往任何模型都要高分辨率的图像输入。

动态图像分割策略

为了解决高分辨率图像的处理问题,该模型采用了动态图像分割策略。这一策略允许模型接收不同分辨率的图像输入,并能够根据图像的最大补丁数H动态调整图像的分割方式。具体来说,输入图像被调整并填充到一个以336×336大小为单位的网格中,同时保持图像的原始宽高比。这一过程确保了图像的细节信息不会因为固定的输入尺寸而丢失。

预训练阶段

在预训练阶段,模型使用了三种不同目标的数据集,以增强模型在一般语义对齐、世界知识对齐和视觉能力方面的性能。预训练使用了OpenAI CLIP ViT-L-14-336作为视觉编码器,并采用了动态图像分割策略中的‘HD-25’设置,以此来处理高分辨率的图像输入。

预训练过程涉及将图像分割成多个小块,并从每个块中提取特征。这些特征随后被合并,并与语言模型的输出相结合。训练过程中,模型学习将视觉特征与相应的文本描述相匹配,以此来理解图像内容及其对应的语言表述。

4KHD监督微调

在预训练之后,模型通过4KHD监督微调进一步增强了对高分辨率图像的理解能力。这一步骤特别针对OCR相关任务,这些任务对文本的清晰度和细节有更高的要求。微调过程中,模型采用了混合分辨率训练策略,对于需要极高分辨率的任务,如高清OCR问答,模型会使用‘HD-55’设置来输入4K(3840×1600)分辨率的图像。而对于其他任务,模型则采用了动态分辨率策略,以增强对输入分辨率变化的鲁棒性。

创新点说明

InternLM-XComposer2-4KHD模型的创新之处在于其对高分辨率图像的处理能力、动态分辨率适应性以及全局-局部格式的理解方法。这些创新点共同推动了大型视觉-语言模型(LVLM)在图像理解方面的进步,特别是在处理高分辨率和结构化图像的任务中。

模型的高分辨率处理能力是其最显著的创新之一。InternLM-XComposer2-4KHD能够处理高达4K HD分辨率的图像,这在当时的LVLM中是前所未有的。与只能处理较低分辨率图像的现有模型相比,该模型可以捕捉到更多的视觉细节,这对于理解图像中的复杂场景和细微元素至关重要。这种处理能力使得模型在高清OCR任务、详细文档扫描和复杂图表理解等方面具有显著优势。

模型采用了动态分辨率技术,可以根据输入图像的尺寸和宽高比,自动调整图像的分割方式。这种自适应分辨率的能力,使得模型可以灵活地处理不同分辨率的图像,而不需要对每种分辨率进行单独的训练或调整。此外,模型还能够自动配置补丁的数量和布局,这是通过在预训练的Vision Transformer(ViT)基础上进行的,ViT能够根据图像的内容和结构,动态地调整补丁的划分,从而优化模型对图像特征的提取。

模型引入了全局-局部格式的理解方法,这在处理结构化图像方面尤为重要。全局视图允许模型首先获取图像的整体上下文信息,而局部视图则使得模型能够分别处理图像的各个部分。通过动态图像分割策略,模型将图像分割成多个小块(patches),并分别提取每个小块的特征。这种结合全局和局部信息的方法,使得模型能够更全面地理解图像的结构和内容,特别是在理解文档、图表和表格等结构化图像时,这种方法显示出了其独特的优势。

实验结果

实验结果显示,InternLM-XComposer2-4KHD在10个基准测试中的表现达到了或超过了GPT4V和Gemini Pro。这一结果证明了InternLM-XComposer2-4KHD在处理高分辨率图像方面的显著优势。尤其是在高清OCR任务中,模型展现出了卓越的性能,这归功于其能够处理高达4K分辨率图像的能力。

InternLM-XComposer2-4KHD与闭源API和先前开源SOTA模型的比较显示,InternLM-XComposer2-4KHD在多个基准测试中取得了SOTA结果,尤其是在DocVQA和ChartQA上,其性能超过了GPT-4V和Gemini-Pro。与开源SOTA方法进行了比较,显示了InternLM-XComposer2-4KHD在大多数基准测试中的优越性能。

高分辨率任务的性能评估展示了InternLM-XComposer2-4KHD在处理高分辨率图像方面的显著优势,尤其是在OCR相关任务上。

当推理时使用的图像分辨率高于训练时使用的分辨率时,模型在处理文本相关任务时的性能有所提升。例如,在InfographicVQA任务中,当从HD9(较低分辨率)切换到HD16(较高分辨率)进行推理时,模型的性能提升了8.1%,而无需额外的训练。这一发现指出,即使在训练阶段未达到最高分辨率,通过在推理阶段提高图像分辨率,模型仍能够更好地捕捉图像中的文本信息,从而提高其对文本的理解能力。

全局视图对于模型在多个基准测试中的性能至关重要。当全局视图被移除时,模型在所有基准测试中的表现都有所下降,例如在MMBench EN-Test中的性能下降了4.4%。这表明全局视图为模型提供了一个整体的图像上下文,有助于模型更好地理解和解释图像内容。

论文链接:https://arxiv.org/abs/2404.06512

Github 地址:https://github.com/InternLM/InternLM-XComposer

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1799920.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高级文件操作

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 Python内置的os模块除了可以对目录进行操作,还可以对文件进行一些高级操作,具体函数如表4所示。 表4 os模块提供的与文件相…

大模型在信用卡行业的应用探索

2022年11月,OpenAI发布ChatGPT3.5,迅速引起各界广泛关注,引发了人工智能领域新一轮发展热潮。ChatGPT作为一款基于人工智能技术的大语言模型(LLMs),在文本生成、对话理解、多领域知识覆盖等方面具有卓越表现…

【JVM】从编译后的指令集来再次理解++i和i++的执行顺序

JVM为什么要选用基于栈的指令集架构 与基于寄存器的指令集架构相比,基于栈的指令集架构不依赖于硬件,因此可移植性更好,跨平台性更好因为栈结构的特性,永远都是先处理栈顶的第一条指令,因此大部分指令都是零地址指令&…

走进三态股份,睿观与三态股份的预防商标侵权合作

三态股份是去年上市的大型跨境电商卖家(深交所股票代码:301558),致力于通过最新的科技,将国内的优质供应链输送到全球各地。 三态股份每年上新的产品超十万级,可却遇到了侵权违规的巨大挑战:如…

探索k8s集群的配置资源(secret和configmap)

目录 ConfigMap ConfigMap(主要是将配置目录或者文件挂载到k8s里面使用) 与Secret类似,区别在于ConfigMap保存的是不需要加密配置的信息。(例如:配置文件) ConfigMap 功能在 Kubernetes1.2 版本中引入&…

谈AI 时代网站的未来趋势

以大语言模型为代表的AI 技术迅速发展,将会影响原有信息网络的方式。其中一个明显的趋势是通过chatGPT 对话代替搜索引擎和浏览器来获取信息。 互联网时代,主要是通过网站(website)提供信息。网站主要为人类阅读的方式构建的。主要…

鸿蒙轻内核M核源码分析系列十九 Musl LibC

LiteOS-M内核LibC实现有2种,可以根据需求进行二选一,分别是musl libC和newlibc。本文先学习下Musl LibC的实现代码。文中所涉及的源码,均可以在开源站点 https://gitee.com/openharmony/kernel_liteos_m 获取。LiteOS-M内核提供了和内核相关的…

范闲获取到庆帝与神庙的往来信件,用AES进行破解

关注微信公众号 数据分析螺丝钉 免费领取价值万元的python/java/商业分析/数据结构与算法学习资料 在《庆余年2》中,范闲与庆帝和神庙之间的权谋斗争愈演愈烈。一次偶然的机会,范闲从庆帝的密室中获取到几封与神庙往来的密信。然而,这封信件…

jvm学习笔记(二) ----- 垃圾回收

GC 一、判定对象是否是垃圾1.引用计数法2.可达性分析算法 二、垃圾回收算法1.标记清除2.标记整理3. 复制4. 分代垃圾回收1.尝试在伊甸园分配2.大对象直接晋升至老年代3.多次存活的对象4.老年代连续空间不足,触发 Full GC 链接: jvm学习笔记(一) ----- JAVA 内存 链接…

20240607每日通信--------VUE3前端引入scoket-io,后端引入Netty-SocketIO,我成功了,希望一起交流沟通

无语 前置: VUE3 前端集成scoket-io socket.io-client Sringboot 3.0JDK17集成Netty-SocketIO Netty-SocketIO 失败原因一: 前期决定要写demo时候,单独了解了,后端引入Netty-SocketIO注意事项,详见我先头写的博客 前…

别让你的品牌失去声音,品牌策划如何成为你的王牌?

品牌策划可不仅仅是一个简单的概念,它是一门真正的艺术和科学。 它涉及到在确立品牌定位之后,进行一系列精心设计的传播和推广活动,从而塑造和管理品牌,让品牌价值达到最大化。 在这个竞争激烈的市场中,想要让你的品…

一篇文章带你搞懂C++引用(建议收藏)

引用 6.1 引用概念 引用不是新定义一个变量,而是给已存在变量取了一个别名,编译器不会为引用变量开辟内存空间,它和它引用的变量共用同一块内存空间。 比如:李逵,在家称为"铁牛",江湖上人称&quo…

30、matlab现代滤波:维纳滤波/LMS算法滤波/小波变换滤波

1、信号1和信号2的维纳滤波 实现代码 N 2000; %采样点数 Fs 2000; %采样频率 t 0:1 / Fs:1 - 1 / Fs; %时间序列 Signal1 sin(2*pi*20* t) sin(2*pi*40* t) sin(2*pi*60* t); Signal2[2*ones(1,50),zeros(1,50),-1*ones(1,100),zeros(1,50),-2*ones(1,50),zeros(1,50),1…

删除目录

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 删除目录可以通过使用os模块提供的rmdir()函数实现。通过rmdir()函数删除目录时,只有当要删除的目录为空时才起作用。rmdir()函数的基本语…

升级最新版openssh-9.7p1及openssl-1.1.1h详细步骤及常见问题总结

近期因为openssh相继被漏洞扫描工具扫出存在漏洞,所以考虑升级操作系统中的openssh和openssl为最新版本,来避免漏洞风险。期间的升级过程及遇到的疑难问题,特此记录下来,供有需要的人参考。 本次目标是升级 openssh 为 9.7p1 版本…

算法金 | 不愧是腾讯,问基础巨细节 。。。

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 最近,有读者参加了腾讯算法岗位的面试,面试着重考察了基础知识,并且提问非常详细。 特别是关于Ada…

Linux守护进程揭秘-无声无息运行在后台

在Linux系统中,有一些特殊的进程悄无声息地运行在后台,如同坚实的基石支撑着整个系统的运转。它们就是众所周知的守护进程(Daemon)。本文将为你揭开守护进程的神秘面纱,探讨它们的本质特征、创建过程,以及如何重定向它们的输入输出…

vue2实现将el-table表格数据导出为长图片

方法一、 el-table数据导出为长图片 将el-table数据导出为图片不是一个直接的功能,但可以通过以下步骤实现: 使用html2canvas库将表格区域转换为画布(canvas)。 使用canvas的toDataURL方法将画布导出为图片格式(例如PNG)。 创建…

人工智能时代,想转型AI产品经理?这篇文章你不应该错过

前言 在这个日新月异的智能时代,人工智能(AI)已经从未来概念转变为推动各行各业发展的核心驱动力。作为连接技术与市场的桥梁,AI产品经理的角色愈发关键,他们不仅是技术的翻译者,更是创新的推动者。如果你…

ORA-12519 TNS:no appropriate service handler found

问题描述 jdbc连接Oracle失败,报错日志如下: Listener refused the connection with the following error: ORA-12519, TNS:no appropriate service handler found The Connection descriptor used by the client was:192.9.100.217:7001:wcm 问题分…