VLM系列文章6-Cambrian-1

VLM系列文章6-Cambrian-1

news2025/7/5 9:48:56

以视觉为中心的多模态大模型Cambrian-1，主要考虑的是MLLM中视觉模型的影响。

1、评估

在这里插入图片描述
LLM 还是 MLLM？：我们在使用 23 种不同的视觉主干训练的 MLLM 中比较了视觉禁用和视觉启用设置之间的性能。我们的研究结果表明，MMMU 和 AI2D 等一些基准对视觉输入的依赖程度较低，而 MMVP 和 MME 等其他基准的性能则显著下降，这表明它们对多模态性进行了有效的评估

基准聚类和分析：通过对不同基准上的 MLLM 性能进行相关性分析和主成分分析，出现了不同的集群，分为“一般”、“知识”、“图表和 OCR”和“以视觉为中心”。我们还发现，以视觉为中心的基准在当前的评估领域中代表性不足。

2.1 消融实验

在这里插入图片描述
单阶段与双阶段训练: 对连接器进行预训练可以提高性能，而使用更多适配器数据可以进一步提高性能，这使我们能够使用 1.2M 适配器数据标准化 2 阶段训练方法。
冻结与解冻视觉编码器：合理的视觉模型学习率下，解冻有利于所有基准的性能，但知识基准的微小变化除外。

在这里插入图片描述

我们使用 1.2M 适配器数据和 737K 微调数据的 2 阶段指令调整来比较各种视觉模型在下游 MLLM 性能上的差异。
我们的评估表明，语言监督模型在所有基准类别中都表现出强大的优势，尤其是在 OCR 和图表任务中。然而，尽管 DINOv2 等 SSL 模型的数据集较小，但它们在以视觉为中心的基准测试中表现不俗。

2.2 空间视觉聚合器 (SVA)：一种新型连接器设计

在这里插入图片描述
之前的问题：

它采用插值，这可能会导致信息丢失，尤其是在具有高分辨率特征图的视觉编码器上；
它通过简单的连接平等对待每个模型。因此，我们寻求一种更有效的策略，充分利用模型组合，减少信息损失，提高灵活性。

我们的方法融合了两个新的以视觉为中心的设计原则：

我们通过明确定位查询中每个标记的聚合空间来编码空间归纳偏差。
我们在 LLM 层之间多次执行视觉特征聚合，从而允许模型重复引用必要的视觉信息。

2.3 Cambrian-10M、Cambrian-7M

在这里插入图片描述

3. 总结

这篇文章算是一个近期（202406）比较新的文章了，以视觉为中心，考虑了不同的视觉模型以及其组合，文章具有较大的参考价值。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1960728.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

有没有视频ai换脸的软件？

有没有视频ai换脸的软件？

AI视频生成：小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频百万播放量https://aitools.jurilu.com/ 发现大家对AI换脸都非常感兴趣，AI换脸一般的步骤是：上传自己的照片→选择不同的风格→制作出被替换的GIF图或视…

阅读更多...

安卓修改logo与开机动画后不显示问题解决

安卓修改logo与开机动画后不显示问题解决

问题描述替换安卓logo与开机动画bootanimation.zip画面是花的或黑的修复步骤手动替换安卓framework中的开机logo后显示异常排查在电脑上打开logo图片, 查看分辨率, 再adb shell wm size查看设备的分辨率,要求二者一致.电脑上右键点击logo图片,查看属性,要确保它的位深度…

阅读更多...

数据结构与算法 - 二分查找

数据结构与算法 - 二分查找

一、二分查找二分查找算法也称折半查找，是一种非常高效的工作于有序数组的查找算法。时间复杂度最坏情况：O(log n)最好情况：如果待查找元素恰好在数组中央，只需要循环一次O(1） 空间复杂度递归->O(log n)&a…

阅读更多...

暑期C++ printf和scanf的平替

暑期C++ printf和scanf的平替

有任何不懂的问题可以评论区留言，能力范围内都会一一回答 C中也有专门的输入和输出的方法首先我们需要一个头文件，也就是#include<iostream> 然后根据我们命名空间的知识可知这个地方如果我们要使用必须先展开可以全部展开比如using namespa…

阅读更多...

K8s大模型算力调度策略的深度解析

K8s大模型算力调度策略的深度解析

随着大数据和人工智能技术的飞速发展，Kubernetes（简称K8s）作为容器编排的领军者，在支撑大规模模型训练和推理方面扮演着越来越重要的角色。在大模型算力的调度过程中，如何高效、合理地分配和管理资源成为了一个亟待解决…

阅读更多...

实验2-5-1 求排列数

实验2-5-1 求排列数

本题要求实现一个计算阶乘的简单函数，使得可以利用该函数，根据公式算出从n个不同元素中取出m个元素（0<m≤n）的排列数。函数接口定义： double fact( int n );其中n是用户传入的参数，函数返回n的阶乘。…

阅读更多...

数据分析概要【数据分析---偏企业】

数据分析概要【数据分析---偏企业】

各位大佬好 ，这里是阿川的博客，祝您变得更强个人主页：在线OJ的阿川大佬的支持和鼓励，将是我成长路上最大的动力阿川水平有限，如有错误，欢迎大佬指正数据分析概要前必看 Python 初阶 Python–语言基础…

阅读更多...

[数据集][目标检测]易拉罐底部缺陷检测数据集VOC+YOLO格式1122张5类别

[数据集][目标检测]易拉罐底部缺陷检测数据集VOC+YOLO格式1122张5类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：1122 标注数量(xml文件个数)：1122 标注数量(txt文件个数)：1122 标注…

阅读更多...

企业获客重要途径-大数据获客系统

企业获客重要途径-大数据获客系统

企业获客的重要途径之一是通过大数据获客系统。这一系统利用大数据技术和分析方法，帮助企业更精准地获取客户，提高市场营销的效率和效果。所以整理了以下是大数据获客系统作为企业获客重要途径的详细阐述： 一、大数据获客系统的定义与功能…

阅读更多...

永磁同步电机谐波抑制算法（8）——基于自适应带宽扩张状态观测器的采样电流偏置误差补偿办法

永磁同步电机谐波抑制算法（8）——基于自适应带宽扩张状态观测器的采样电流偏置误差补偿办法

1.前言在上一期内容中，已经介绍了采样电流的偏置误差the current measurement offset error /CMOE（这个采样电流偏置误差通常认为是直流DC偏置，所以其在dq电流中会造成一次谐波）。如果没看过上一期内容，那先需要补一…

阅读更多...

SSRF-labs-master靶场

SSRF-labs-master靶场

目录 file_get_content.php sql_connect.php download.php dns-spoofing.php dns_rebinding.php 访问链接 http://127.0.0.1/SSRF/# file_get_content.php 在编程语言中，有一些函数可以获取本地保存文件的内容。这些功能可能能够从远程URL以及本地文件如果没…

阅读更多...

C++第二十九弹---C++继承机制深度剖析(上)

C++第二十九弹---C++继承机制深度剖析(上)

✨个人主页： 熬夜学编程的小林 💗系列专栏： 【C语言详解】【数据结构详解】【C详解】目录 1.继承的概念及定义 1.1继承的概念 1.2 继承定义 1.2.1定义格式 1.2.2继承关系和访问限定符 1.2.3继承基类成员访问方式的变化 2.基类和派生…

阅读更多...

常见的手电筒芯片功能模式选型单路双路可用

常见的手电筒芯片功能模式选型单路双路可用

常见的手电筒芯片如下单双路输出带充电功能和不带充电功能的外围结构简单、无需多余的元器件搜恒森宇电子了解更多相关功能！ 首页

阅读更多...

Spring随笔

Spring随笔

Spring随笔 BeanFactory和ApplictionContextbean增强 AutowiredAnnotationBeanPostProcessor工厂增强 BeanFactory和ApplictionContext BeanFactory装载了bean实例，一个容器，提供了对bean的增删改查 ApplictionContext继承了factory，除此之外…

阅读更多...

MyBatis基础配置

MyBatis基础配置

一、M y B a t i s 配置文件 1.为什么学习MyBatis配置文件功能：构建SqlSessionFactory的依据。意义：MyBatis最为核心的内容，对MyBatis的使用影响很大。注意：配置文件的层次顺序不能颠倒，一旦颠倒会出现异常。 …

阅读更多...

NLP与搜广推常见面试问题

NLP与搜广推常见面试问题

1 auc指标 AUC的两种意义一个是ROC曲线的面积另外一个是统计意义。从统计学角度理解，AUC等于随机挑选一个正样本和负样本时，模型对正样本的预测分数大于负样本的预测分数的概率。下图为搜广推场景下的一个计算auc的例子

阅读更多...

如何查找OBS的终端节点（Endpoint）和访问域名

如何查找OBS的终端节点（Endpoint）和访问域名

目录一、参考链接二、终端节点（Endpoint）三、访问域名一、参考链接 https://support.huaweicloud.com/productdesc-obs/obs_03_0152.html 二、终端节点（Endpoint） OBS为每个区域提供一个终端节点，终端节点可以理解…

阅读更多...

JVM性能调优全指南：高流量电商系统的最佳实践

JVM性能调优全指南：高流量电商系统的最佳实践

1.G1（Garbage-First）官网： G1 Garbage Collection G1收集器是Java 7中引入的垃圾收集器，用于替代CMS（Concurrent Mark-Sweep）收集器。它主要针对大内存、多核CPU环境下的应用场景，具有以下特点：分代收集：G1仍然保留了分代的概念，但新生代和老年代不再是物理隔离的，…

阅读更多...

37 列表推导式

37 列表推导式

列表推导式（list comprehension) 也成为列表解析式，可以使用非常简洁的方式对列表或其他可迭代对象的元素进行遍历、过滤或再次计算，快速生成满足特定需求的新列表，代码非常简洁，具有很强的可读性，是 pytho…

阅读更多...

抖音视频素材网站有哪些？非常好用的5个抖音视频素材库分享

抖音视频素材网站有哪些？非常好用的5个抖音视频素材库分享

在打造引人入胜的抖音视频时，选择高品质的视频素材至关重要。优选的素材不仅能够显著提升视频的吸引力，还能让你的作品在众多视频中突出重围。对于抖音创作者而言，让我们探索一些备受推崇的视频素材平台，帮助你制作出既专业又引人…

阅读更多...

推荐文章

最新文章