【Qwen2-VL】通义多模态新作速读

news2024/12/25 8:53:07

Qwen2-VL

https://github.com/QwenLM/Qwen2-VL

结构:

在这里插入图片描述

整体:6.75 亿个参数的 Vision Transformer (ViT) (Dosovitskiy et al., 2021)+ Qwen2

预处理阶段

  • 朴素动态分辨率支持:Naive Dynamic Resolution 机制,使模型能够将不同分辨率的图像动态处理成不同数量的视觉标记。
  • 不同分辨率的图像被打包到一个序列中,并控制打包长度以限制 GPU 内存的使用。此外,为了减少每张图像的视觉标记,在 ViT 之后采用一个简单的 MLP 层将相邻的 2 × 2 个标记压缩成一个标记,特殊的 <|vision_start|> 和 <|vision_end|> 标记放置在压缩的视觉标记的开头和结尾。因此,分辨率为 224 × 224 的图像,使用 patch_size=14 的 ViT 编码,在进入 LLM 之前将被压缩为 66 个标记。

编码阶段

主要工作集中在视觉编码器:

  • 位置嵌入分解到零件(2D 旋转位置嵌入 (RoPE)使模型能够更好地捕获不同空间尺度的信息)
  • 多模态旋转位置嵌入(M-RoPE)使用单独的组件来表示时间和空间信息
  • 3D 卷积(Carreira 和 Zisserman,2017 年)来处理视频输入,使模型能够处理 3D 管而不是 2D 补丁

解码/推理阶段

量化支持情况:提供两种类型的量化:AWQ 和 GPQ

训练
三阶段训练方法。在第一阶段,我们只专注于训练 Vision Transformer (ViT) 组件,利用大量的图像-文本对语料库来增强大型语言模型 (LLM) 中的语义理解。在第二阶段,我们解冻所有参数,并使用更广泛的数据进行训练,以实现更全面的学习。在最后阶段,我们锁定 ViT 参数并使用教学数据集对 LLM 进行独家微调

微调
指令微调阶段采用 ChatML (Openai, 2024) 格式来构建指令跟踪数据。

能力:

图像:可以处理任意图像分辨率
视频:理解 20min+ 视频
音频:没有具体做,但是在视频理解的几个主要数据集上 MVBench(Li 等人,2024 年)、PerceptionTest(Patraucean 等人,2024 年)和 EgoSchema(Mangalam 等人,2023 年)上取得了最佳性能
Agent(FunctionCall):可以与手机、机器人等设备集成,根据视觉环境和文本指令进行自动操作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2164430.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

工程车辆目标检测、工程车检测算法、工程车辆类型检测算法

工程车检测算法主要用于智能交通系统、建筑工地管理、矿山开采、物流运输等领域&#xff0c;通过图像识别技术来检测和识别工程车&#xff0c;以提高安全管理、交通流量管理和资源调度的效率。以下是关于工程车检测算法的技术实现、应用场景及优势的详细介绍。 一、技术实现 工…

VRP-SAM

不建议复现

uni-app - - - - - 小程序获取宿主语言

const systemInfo uni.getSystemInfoSync(); console.log(systemInfo);uni.showModal({title: 宿主语言,content: systemInfo.hostLanguage })官网地址&#xff1a;【uni-app getSystemInfoSync】

西圣Mike Pro无线麦克风强势上线!百元级实力口碑与销量双冠王!

随着音频技术的不断革新与飞跃&#xff0c;西圣XISEM再次以卓越的创新驱动力推出全新力作&#xff0c;近日&#xff0c;西圣品牌震撼发布全新专业无线麦克风——西圣Mike Pro。用行业领先的硬件配置&#xff0c;百元价格打造千元专业级麦克风专业体验&#xff0c;音质远超同价位…

1分钟学会BCT环境搭建和网络配置 (24年9月25日更新)

又开始弄AirPlay了,在之前基础上更新下如何配置BCT环境和网络 如何配置apple 路由器在之前的文章有教,在这里就不陈述了 传送门:【BCT认证】Bonjour Conformance Test教程 1、apple路由器怎么接? 2、命令怎么输入? IPv4 sudo ./BonjourConformanceTest -I en4 -L -DD -…

拆解一个有问题的索爱GK6蓝牙耳机,蓝牙连接中的一些软硬件问题

由来 经常带入耳式蓝牙&#xff0c;倒是耳朵有时候难受&#xff0c;无意间看见网上的夹耳式耳机&#xff0c;想要尝试一下。但毕竟好点儿的太贵&#xff0c;主要想了解内部结构&#xff0c;所以淘到两个电子垃圾 拆解充电仓 这个只能暴力一点儿&#xff0c;需要拆坏一个卡扣…

记某地级市护网的攻防演练行动

0x1 前言 哈喽&#xff0c;师傅们&#xff01; 这次给师傅们分享的是上上个星期的地级市护网的攻防演练的两个案例&#xff0c;涉及到的知识点可能比较偏&#xff0c;下面我也会提前给师傅们拓展下改漏洞相关的知识点内容。护网攻防演练中&#xff0c;涉及到的很多敏感内容这…

古代经典名方目录数据库-支持经典名方检索!

"古代经典名方目录"是指一系列历史上流传下来的&#xff0c;被认为具有一定疗效的中药方剂的汇总。这些方剂多来源于历代医学典籍&#xff0c;经过长期临床实践的检验&#xff0c;部分已被收录于官方的目录之中&#xff0c;以便于现代医疗实践中的参考和应用。 目前…

安科瑞光伏发电并网柜防孤岛保护装置---微机保护测控装置

安科瑞戴婷 Acrel-Fanny 安科瑞光伏发电并网柜防孤岛保护装置微机保护测控装置&#xff08;以下简称装置&#xff09;集保护、控制、测量、通讯和监视功能于一体&#xff0c;资源丰富、配置完善、维护方便、性能稳定&#xff0c;适用于 35kV 及以下电压等级电力系统的保护和测…

投资气膜场馆:开启未来体育发展的新纪元—轻空间

随着对体育设施建设的重视&#xff0c;气膜场馆作为一种创新的体育设施&#xff0c;正日益成为投资的热门选择。气膜场馆凭借其独特的优势和多重好处&#xff0c;不仅能提升体育场馆的功能性和经济性&#xff0c;更为地方经济发展注入了新的活力。 成本效益显著 气膜场馆具有快…

闲盒支持的组网方式和注意事项

1. 直连光猫拨号​ 通过光猫拨号&#xff0c;设备直连光猫的设备&#xff0c;需要对光猫开启UPNP并关闭DMZ 如果只接一个盒子&#xff0c;建议直接针对盒子IP开dmz。 2. 直连路由器​ 通过路由器拨号&#xff0c;设备直连路由器的设备&#xff0c;需要对路由器开启UPNP并关闭…

如何在O2OA中使用ElementUI组件进行审批流程工作表单设计

本文主要介绍如何在O2OA中进行审批流程表单或者工作流表单设计&#xff0c;O2OA主要采用拖拽可视化开发的方式完成流程表单的设计和配置&#xff0c;不需要过多的代码编写&#xff0c;业务人员可以直接进行修改操作。 在流程表单设计界面&#xff0c;可以在左边的工具栏找到Ele…

Fyne ( go跨平台GUI )中文文档- 数据绑定 (六)

本文档注意参考官网(developer.fyne.io/) 编写, 只保留基本用法 go代码展示为Go 1.16 及更高版本, ide为goland2021.2 这是一个系列文章&#xff1a; Fyne ( go跨平台GUI )中文文档-入门(一)-CSDN博客 Fyne ( go跨平台GUI )中文文档-Fyne总览(二)-CSDN博客 Fyne ( go跨平台GUI…

基于GPU的Julia集应用程序

配置好CUDA编译环境之后&#xff0c;vs创建一个CUDA的项目&#xff0c;会自动包含一个.cu文件&#xff0c;可以在当前文件中编写。 因为当前的项目需要用到其他的头文件和库&#xff0c;需要加入对应的路径&#xff0c;这个和别的工程是一样的。 1. 头文件目录 2. 库文件目录…

用Java提取PDF表格到文本、CSV、Excel工作表

如何精准地提取PDF格式中嵌入的表格数据&#xff0c;并将其无缝转换为更加易于分析和操作的形式&#xff0c;如纯文本、CSV文件或Excel工作表&#xff0c;是一项重要的文档处理技巧。使用Java&#xff0c;我们可以简单地实现这一过程。本文将介绍如何利用Java从PDF文档提取表格…

如何在Excel中快速找出前 N 名,后 N 名

有如下销售额统计表&#xff1a; 找出销售额排前 10 名的产品及其销售额&#xff0c;和销售额排倒数 10 名以内的产品及其销售额&#xff0c;结果如下所示&#xff1a; 前 10 名&#xff1a; spl("E(?1).sort(ProductSales:-1).to(10)",A1:C78)后 10 名&#xff1…

基于丹摩智算的`YoloV8-训练与测试

&#x1f351;个人主页&#xff1a;Jupiter. &#x1f680; 所属专栏&#xff1a;Linux从入门到进阶 欢迎大家点赞收藏评论&#x1f60a; 目录 丹摩简介前言 YoloV8-训练与测试制作数据集格式转换本地调试 基于丹摩智算的训练创建账号-创建实例-选择配置测试代码 丹摩简介 链接…

python中SortedList类的用法详解

SortedList类是python第三方库sortedcontainers中的提供的一种高效的方式来存储有序的元素集合&#xff0c;同时支持快速的插入、删除和查找操作。 SortedList类的特点&#xff1a; 1.排序列表的值始终保持有序。 2.排序列表中的值必须可以比较。 3.值的总顺序在存储于排序列表…

设计模式之装饰模式(Decorator)

前言 这个模式带给我们有关组合跟继承非常多的思考 定义 “单一职责” 模式。动态&#xff08;组合&#xff09;的给一个对象增加一些额外的职责。就增加功能而言&#xff0c;Decorator模式比生成子类&#xff08;继承&#xff09;更为灵活&#xff08;消除重复代码 & 减少…

10个超好用的企业文档加密软件丨2024年加密软件大盘点

都2024年了&#xff01; 泄密事件依旧频发&#xff01; 到底该如何防止文档信息泄密&#xff1f; 别急&#xff0c;本文小编为你整理了10款超好用的企业文档加密软件&#xff0c;有力保护你的文档信息安全&#xff0c;快来看看吧&#xff0c;一定有你的菜&#xff01; 1. 安企…