突破视觉理解极限,Qwen2-VL重磅登场

news2024/9/24 1:14:29

前沿科技速递🚀

经过近一年的持续努力,Qwen团队宣布推出最新一代的视觉语言模型:Qwen2-VL。基于Qwen2的基础,Qwen2-VL在多个方面实现了显著提升,相较于前代模型Qwen-VL,它具备以下核心优势:

1. 适应不同分辨率与长宽比的图片:Qwen2-VL在MathVista、DocVQA、RealWorldQA、MTVQA等多个视觉理解基准测试中展现了全球领先的表现。无论是高分辨率还是非标准长宽比的图片,Qwen2-VL都能轻松读懂。

2. 支持长达20分钟以上的视频理解:Qwen2-VL不仅可以理解长视频,还能应用于基于视频的问答、对话和内容创作等多种场景,使其在处理复杂多媒体内容时表现卓越。

3. 操作智能设备:Qwen2-VL的复杂推理与决策能力使其能够作为手机或机器人等设备的视觉智能体,根据视觉环境和文字指令进行自动化操作。

4. 多语言支持:为了更好地服务全球用户,Qwen2-VL不仅支持英语和中文,还新增了对大多数欧洲语言、日语、韩语、阿拉伯语、越南语等多语言文本的理解能力。

来源:传神社区

01 模型开源与性能表现

Qwen团队以Apache 2.0协议开源了Qwen2-VL-2B和Qwen2-VL-7B,同时发布了Qwen2-VL-72B的API。开源代码已集成到Hugging Face Transformers、vLLM和其他第三方框架中,为开发者提供了便捷的使用体验。

在六个关键指标上,Qwen2-VL展现了卓越的视觉能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解及智能代理功能。尤其是在文档理解方面,Qwen2-VL-72B表现尤为出色,超过了GPT-4o和Claude3.5-Sonnet等闭源模型。尽管在综合大学题目方面还有一定差距,Qwen2-VL-72B依然刷新了开源多模态模型的最佳记录。

图片

在 7B 规模上,同样支持图像、多图、视频的输入,在更经济的规模上也实现了有竞争力的性能表现,特别是像 DocVQA 之类的文档理解能力和 MTVQA 考察的图片中多语言文字理解能力都处于 SOTA 水平。

图片

除此之外,Qwen团队还提供了一个更小的 2B 规模的模型,以此支持移动端的丰富应用。它具备完整图像视频多语言的理解能力,性能强劲,特别在视频文档和通用场景问答相较同规模模型优势明显。

图片

02 模型架构的创新

Qwen2-VL延续了Qwen-VL中的ViT加Qwen2的串联结构,并在架构上进行了重要升级:

1. 原生动态分辨率支持Qwen2-VL能够处理任意分辨率的图像输入,并将不同大小的图片转换为动态数量的tokens。这种设计确保了输入与图像原始信息之间的高度一致性,模拟了人类视觉感知的自然方式。

图片

2. 多模态旋转位置嵌入(M-ROPE)Qwen2-VL通过多模态旋转位置嵌入,将原始旋转嵌入分解为时间、高度和宽度三个部分,使其能够同时捕捉和整合一维文本序列、二维视觉图像及三维视频的位置信息,从而更好地处理和推理复杂的多模态数据。

图片

03 典型示例

1. 更细致的识别与理解Qwen2-VL不仅能识别植物和地标,还能理解场景中多个对象之间的关系。特别是在手写文字及多语言图像识别方面,Qwen2-VL在全球范围内更为易用。

Example: Plant identification

图片

2. 视觉推理与现实问题解决Qwen2-VL的数学与编程能力得到了显著增强。通过分析图片,Qwen2-VL能够解读复杂的数学问题,进行图表分析,甚至极端长宽比的图片也能正确解析。它还可以从真实世界的图像和图表中提取信息,使其成为日常生活中的智能助手。

Example: Math

图片

3. 视频理解与实时聊天Qwen2-VL扩展了视频内容分析的能力,能够总结视频要点、即时回答相关问题,并维持连贯的对话,仿佛一位随时待命的个人助手,为用户提供更加直观且即时的帮助。

Example: Video Understanding

图片

space_woaudio

图片

4. Visual Agent 能力Qwen2-VL展示了作为视觉代理的潜力,初步具备了利用视觉能力进行工具调用与交互的功能。通过函数调用,Qwen2-VL能够实时检索数据,如航班状态、天气预报和包裹追踪等,将视觉解读与功能执行有机结合,成为信息管理和决策的有力工具。

  • Function Calling:模型支持函数调用,使其能够利用外部工具进行实时数据检索——无论是航班状态、天气预报还是包裹追踪——通过解读视觉线索。视觉解读与功能执行的整合提升了模型的实用性,使其成为信息管理和决策的有力工具。

  • Visual Interactions: 视觉交互对多模态大模型是更高的感知能力要求。我们初步做了一些简单的探索,让模型能够更像人一样和环境交互。使得 Qwen2-VL 不仅作为观察者,而是能有代替人做更多的执行者的可能。

Operate a Mobile Phone

04 模型下载

传神社区:

Qwen2-VL-2B-Instruct:

https://opencsg.com/models/Qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct:

https://opencsg.com/models/Qwen/Qwen2-VL-7B-Instruct

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2105404.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

24/9/3算法笔记 kaggle泰坦尼克

题目: 这次我用两种算法做了这道题 逻辑回归二分类算法 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.metr…

信息打点day.06

一、知识点 1、黑盒测试 黑盒测试是一种评估网络安全性的方法,它模拟了攻击者在不了解系统内部结构和工作机制的情况下,仅通过外部接口(如网络协议、应用程序界面等)尝试渗透、攻击或绕过安全控制的行为。通过模拟真实的攻击场景…

心觉:如何填平想象和愿望之间的鸿沟?

愿望是什么? 你想变得富有 你想减掉20斤 你想拥有自己的Dream Car 你想拥有S型身材 这些都是愿望,非常美好的想法或者目标 想象是什么? 我能变得富有吗,我啥也不会,除了上班,就是上班 我怎么可能减肥…

多少次幂的计算器,指数计算器

https://miniwebtool.com/zh-cn/exponents-calculator/?n10.95&n2100&prec10

智慧平台赋能政务管理,声通科技助力政务管理智能化

在智能时代的大潮中,政务管理也在不断寻求创新与突破,在这方面,涌现出了很多优秀的公司。比如声通科技的子公司西安金讯数智信息技术有限公司,就在AI政务热线领域有很多创新成果,为政务管理的智能化升级提供了新思路。…

一文教你学会java代码审计

《网安面试指南》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484339&idx1&sn356300f169de74e7a778b04bfbbbd0ab&chksmc0e47aeff793f3f9a5f7abcfa57695e8944e52bca2de2c7a3eb1aecb3c1e6b9cb6abe509d51f&scene21#wechat_redirect 《Java代码审…

如何借助前端表格控件实现债券网下发行数字化?

最新技术资源(建议收藏) https://www.grapecity.com.cn/resources/ 概要 作为金融市场中至关重要的一环,债券行业扮演着融资、投资、风险管理等多重角色,对经济的发展和稳定起着举足轻重的作用。随着证券行业全面实施注册制的推进…

硬件工程师笔试面试——上拉电阻、下拉电阻

目录 1.3、上拉电阻 原理图 1.3.1、定义 1.3.2、作用 1.3.3、工作原理 1.3.4、选择上拉电阻的值 1.3.5、应用场景 1.3.6、与下拉电阻的区别 1.3.7、设计考虑 1.3.8电路设计中的注意事项 1.3.9、与ESD保护的结合 1.3.10、实际应用 1.3.11、上拉电阻在不同电压等级的…

如何提升网站的收录率?

要提升网站的收录率,其中一个特别有效的工具就是GPC爬虫池,这个工具通过深度研究谷歌SEO算法,吸引谷歌爬虫。 GPC爬虫池的基本原理是构建一个庞大的站群系统,并创建复杂的内链和外链结构,以吸引并留住谷歌蜘蛛 使用GP…

BF算法Java

BF算法 代码实现运行结果![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/91e0700ed8144fcc87e8f8d222c0e0b8.png) BF算法又称暴力算法,运算过程相对较慢,但是也是基础的算法,这里我们可以给两个字符串,arr1 arr2 由arr1…

Nvidia扩展AI帝国:从芯片到数据中心设计的全面布局

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

HarmonyOS开发实战( Beta5.0)自定义组件冻结功能规范

自定义组件处于非激活状态时,状态变量将不响应更新,即Watch不会调用,状态变量关联的节点不会刷新。通过freezeWhenInactive属性来决定是否使用冻结功能,不传参数时默认不使用。支持的场景有:页面路由,TabCo…

移动UI:成就勋章页面该如何设计,用例子说明。

移动应用的UI成就勋章页面通常是一个展示用户在应用中取得成就和获得勋章的页面。这种页面通常用于激励用户参与应用的活动,增加用户的参与度和忠诚度。 UI设计成就勋章页面时,一般会包括以下元素和功能: 1. 勋章列表: 展示用户…

[SWPUCTF 2022 新生赛]android2-快坚持不下去的第四天

找main函数,MainActivity类名 棿棢棢棲棥棷棊棐棁棚棨棨棵棢棌加密函数 加密过程,key123456789 密文和this.key异或 key为987654321 # 已知信息 enc "棿棢棢棲棥棷棊棐棁棚棨棨棵棢棌" key 987654321# 限制 key 到 16 位范围 masked_key…

springboot+vue集成cas单点登录最详细避坑版讲解

springboot+vue+cas 前言总观问题说明第一种配置方式第二种配置方式拦截器配置重定向问题解决配置前言 本地讲解的是单纯的cas,不掺和springsecurity或者shiro等权限框架 首先说明几点注意事项: cas默认不支持前端分离的,这个后便会讲到,也是最大问题所在;前端vue不能直…

【Java 学习】:内部类详解

详谈Java内部类 📃📃本文将通过Java内部类 是什么,为什么被广泛使用,以及又该如何去使用这三个方面来详细讲解其相关知识。 文章目录 1. 内部类是什么 2. 为什么要使用内部类 3. 如何使用内部类 🍉成员内部类 &…

排列组合常用方法一:捆绑法

别问我排列组合是什么,自己看去 看完排列组合的计算方法,有些萌新就会问了,哎?有些题可不像单纯的排列组合哦,题目可能会提出各种奇怪的要求,真是五花八门耶......别急,接下来介绍一个方法&…

【进阶】面向对象之继承(二)

文章目录 一丶子类到底能继承父类中的哪些内容二丶继承中:成员变量的访问特点三丶练习代码呈现 四丶总结 一丶子类到底能继承父类中的哪些内容 构造方法是否可以被继承? 不可以 成员变量是否可以被继承? 可以 成员方法是否可以被继承? 可以,只有虚方法可以被继承 二丶继…

内核头文件, makfile 传参

1 内核头文件,主要指的是, 在板卡上的系统上直接 ,编译驱动模块,而不是在虚拟机的内核源码中 去编译内核模块。 ------------------------------------------------------------------------------------------------------------…

将x减到零的最小操作数问题

欢迎跳转我的主页:羑悻的小杀马特-CSDN博客 目录 一题目简述: 二题目思路: 三解答代码: 一题目简述: leetcode题目链接:. - 力扣(LeetCode) 二题目思路: 首先这道题…