阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区

news2025/1/17 6:07:58

通义千问开源第二波!8月25日消息,阿里云推出大规模视觉语言模型Qwen-VL,一步到位、直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规模通用模型的表现。

Qwen-VL是支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。

多模态是通用人工智能的重要技术演进方向之一。业界普遍认为,从单一感官的、仅支持文本输入的语言模型,到“五官全开”的,支持文本、图像、音频等多种信息输入的多模态模型,蕴含着大模型智能跃升的巨大可能。多模态能够提升大模型对世界的理解程度,充分拓展大模型的使用场景。

视觉是人类的第一感官能力,也是研究者首先想赋予大模型的多模态能力。继此前推出M6、OFA系列多模态模型之后,阿里云通义千问团队又开源了基于Qwen-7B的大规模视觉语言模型(Large Vision Language Model, LVLM)Qwen-VL。Qwen-VL及其视觉AI助手Qwen-VL-Chat均已上线ModelScope魔搭社区,开源、免费、可商用。

用户可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问调用Qwen-VL和Qwen-VL-Chat,阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。

Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。

比如,一位不懂中文的外国游客到医院看病,不知怎么去往对应科室,他拍下楼层导览图问Qwen-VL“骨科在哪层”“耳鼻喉科去哪层”,Qwen-VL会根据图片信息给出文字回复,这是图像问答能力;再比如,输入一张上海外滩的照片,让Qwen-VL找出东方明珠,Qwen-VL能用检测框准确圈出对应建筑,这是视觉定位能力。

Qwen-VL是业界首个支持中文开放域定位的通用模型,开放域视觉定位能力决定了大模型“视力”的精准度,也即,能否在画面中精准地找出想找的事物,这对于VL模型在机器人操控等真实应用场景的落地至关重要。

Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,并通过设计训练过程,让模型具备对视觉信号的细粒度感知和理解能力。Qwen-VL支持的图像输入分辨率为448,此前开源的LVLM模型通常仅支持224分辨率。在Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。

在四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)的标准英文测评中,Qwen-VL取得了同等尺寸开源LVLM的最好效果。为了测试模型的多模态对话能力,通义千问团队构建了一套基于GPT-4打分机制的测试集“试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。

8月初,阿里云开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat,成为国内首个加入大模型开源行列的大型科技企业。通义千问开源模型刚一上线就广受关注,当周冲上HuggingFace趋势榜单,不到一个月在GitHub收获3400多星,模型累计下载量已突破40万。

开源地址:

ModelScope魔搭社区:

Qwen-VL    通义千问-VL-预训练

Qwen-VL-Chat    通义千问-VL-Chat

模型体验:通义千问-多模态对话-Demo

HuggingFace

Qwen-VL   Qwen/Qwen-VL · Hugging Face

Qwen-VL-Chat   Qwen/Qwen-VL-Chat · Hugging Face

GitHub

GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud.

技术论文地址:

https://arxiv.org/abs/2308.12966

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/926431.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PHPStudy 安装tp8 php8.2.9 安装XDbug、redis扩展

一、PhpStudy升级PHP版本,安装PHP8.2操作步骤 1.1、官网下载最新的php版本 打开Windows版的官网下载,地址:https://windows.php.net/download/ 页面上有不同的PHP版本,这里我们下载的是64位nts版的PHP8.2.9。 1.2、解压下载的文…

java+springboot+mysql大学生综合素质测评

项目介绍: 使用javaspringbootmysql开发的高校学生综合素质测评管理系统,系统包含超级管理员、管理员、学生、辅导员角色,功能如下: 超级管理员:管理员管理;学院管理;班级管理;课程…

真的!不用代码就能实现复杂的场景可视化大屏交互功能!

在很多可视化项目中,如果想要实现场景可视化大屏交互的功能,程序员们总是需要敲很多代码,才能最终产出有效的交互效果,在这之中,如果出现个bug,那在一大串代码中寻找这个bug 的出处,又必然是一件…

YoloV5环境搭建记录

https://github.com/ultralytics/yolov5/ 1、在Anaconda Promptx新建conda虚拟环境 conda create -n py39_yolov5 python3.9 2、激活虚拟环境 conda activate py39_yolov5 3、虚拟环境下装所需依赖 conda install pytorch1.12.1 torchvision0.13.1 torchaudio0.12.1 cpuo…

怎么实现技术评卷时间0投入的?(下)

01 痛苦的编程题评卷 试想如下一个场景: “技术面试官Arron 的企业要招聘Java 后端工程师,考核 SpringBoot 框架和 MyBatis 这两个后端开发的必备技能。而他要负责评审多份候选人的编程题试卷,题目是要求使用SpringBoot 和MyBatis实现一个购…

python VTK PyQt5 VTK环境搭建 创建 渲染窗口及三维模型,包含 三维模型交互;

目录 Part1. VTK 介绍 Part2. PyQt5 VTK环境搭建 安装Anaconda 自带Python Anaconda下载 安装PyQt5 安装 VTK Part3 :PyQt VTK 结合样例: Part1. VTK 介绍 VTK(visualization toolkit)是一个开源的免费软件系统,主要用于三维计算机图形…

All In One!Meta发布SeamlessM4T,支持100种语言,35种语音、开源、在线体验!

多语言识别翻译的研究一直都是学术界研究的重点。目前全球有几千种语言,在全球化背景下不同语言人群之间的交流越来越密切,然而学习一门外语的成本是非常大的。前两年的研究主要集中在一对一、一对多的研究,然而当面对这么多的语言时&#xf…

windows系统服务器在不解锁屏幕不输入密码的前提下,电脑通电开机启动程序。

在控制面板中找到“管理工具”中的 “任务计划程序”,打开“任务计划程序”窗口。如图: 双击打开任务计划程序,空白出右键创建基本任务,或者点击最右侧的创建基本任务。 输入名称,点击下一步。 先选择计算机启动时&a…

二维数组和二维数组指针做函数参数

二维数组形参定义&#xff1a;char (*p)[3]&#xff1b; 二维数组指针形参定义&#xff1a;char (*p)[][3]&#xff1b; 例程&#xff1a; #include <stdio.h> #include <stdlib.h> #include <string.h> int myPrintf4(char (*p)[3],int *dep,int * len){…

分布式事务(6):基于LCN框架解决分布式事务

1 LCN简介 LCN官网 https://www.txlcn.org/ "LCN并不生产事务&#xff0c;LCN只是本地事务的搬运工" 兼容 dubbo、springcloud、motan 框架&#xff0c;支持各种关系型数据库 2 LCN框架底层实现原理 https://github.com/codingapi/tx-lcn/wiki/LCN%E5%8E%9F%E7%9…

AMBA_AXI Protocol Introduction

AXI Protocol Introduction 1. AXI协议特性 2. AXI协议关键特性 3. AXI 协议结构 4. Interface and interconnect 5. Register slicesAMBA AXI协议为主机与从机组件之间的通信提供高性能&#xff0c;高频系统设计 1. AXI协议特性 适用于高带宽&#xff0c;低延迟设计不使用复…

在VScode中执行npm、yarn命令报错解

在VScode中执行npm、yarn命令报错解 我使用的是vnm安装好npm&#xff0c;在WindowsR 界面是可以运行查看出版本的&#xff1b;但是在VScode中报错。 查了很多资料&#xff0c;我这种情况的原因是在VScode中默认使用的终端是Powershell&#xff0c;然后我切换到系统的cmd则可以…

NO.01 如何在Spring配置文件中获取Bean

目录 1、前言 1.1 IOC容器在Spring中的实现 1.2 ApplicationContext的主要实现类 2、工作准备 2.1 创建Module工程配置以来信息 2.2 创建bean所对应的类 2.3 创建Spring的配置文件&#xff0c;命名为applicationContext 3、从IOC容器中获取Bean 3.1 根据id获取bean 3.…

由JDK bug引发的线上OOM

由JDK bug引发的线上OOM 最近生产环境的一个应用忽然发生了OOM&#xff0c;还好是业务低峰期&#xff0c;没有导致什么严重问题&#xff0c;下面记录下本次排查的过程&#xff1b; 故障临时处理 在某天下午&#xff0c;正在愉快的写代码时&#xff0c;忽然看到业务反馈支付服…

嵌入式Linux人脸检测libfacedetection

人脸检测 此库依赖Opencv&#xff0c;所以首先要移植Opencv到板子上。 笔者使用LVGL搭建了一个界面&#xff0c;界面有些卡顿&#xff08;主要原因是文件存取较慢&#xff09;&#xff0c;演示效果如下&#xff1a; OpenCV 首先要交叉编译Opencv 参考&#xff1a;https://…

燃气管网监测系统,24小时守护燃气安全

随着社会的发展和人民生活水平的提高&#xff0c;燃气逐渐成为人们日常生活和工作中不可或缺的一部分。然而&#xff0c;近年来&#xff0c;屡屡发生的燃气爆炸问题&#xff0c;也让人们不禁对燃气的安全性产生了担忧。因此&#xff0c;建立一个高效、实时、准确的燃气管网监测…

光谱响应函数概念与等效遥感反射率的计算

本期干货来介绍一下遥感领域非常重要的一个概念——光谱响应函数。 人眼内部存在三种视锥细胞&#xff08;L、M、S&#xff09;&#xff0c;对不同波段的光有不同的敏感度&#xff0c;三种视锥细胞信号的复合构成了我们眼中五彩斑斓的世界。如下图所示&#xff0c;以菠菜&#…

抖音短视频seo矩阵系统源代码技术开发方案分享

一、 功能结构设计 1. 视频管理&#xff1a;对于不同平台&#xff0c;不同账号&#xff0c;不同格式&#xff0c;不同内容短视频进行管理&#xff0c;素材分组等&#xff0c;实现多资源数据汇和统一管理 2. 数据挖掘分析&#xff1a;通过数据挖掘和数据分析&#xff0c;提供数…

leetcode 17.电话号码字母组合

⭐️ 题目描述 &#x1f31f; leetcode链接&#xff1a;https://leetcode.cn/problems/letter-combinations-of-a-phone-number/description/ 代码&#xff1a; class Solution { public:const char * letterCombine(int i) {static const char *letter[] { "" , …

Nexus3下载使用

下载 Nexus 3 1. 进入 Nexus 3.x 下载页面&#xff08;目前最新版是 3.59.0-01&#xff09;&#xff0c;根据操作选择相应的版本进行下载。 2. 将下载的安装包解压到本地&#xff0c;可获得 nexus-3.59.0-01 和 sonatype-work 两个目录 其中&#xff1a; nexus-3.59.0-01&…