中国阿里巴巴集团的云计算部门阿里云周四宣布推出一款名为 Qwen2-VL 的新型人工智能模型,该模型具有高级视觉理解能力和多语言对话能力。
该公司在 Qwen-VL 人工智能模型的基础上,历时一年研发出了新模型,并表示它可以实现对长度超过 20 分钟的高质量视频的理解。
据阿里巴巴称,它可以总结视频内容、回答相关问题、实时保持连续的对话流以及即时聊天支持。因此,它可以充当个人助理,直接使用从视频内容中提取的信息。
在一个例子中,我们给该模型提供了一段视频,似乎是国际空间站的纪录片短片,其中包括控制中心的场景和两名宇航员在太空漂浮时在太空舱内讲话的镜头。
它并不完美。当被要求对场景进行总结时,模型给出了清晰的输出,包括对说话的个人、控制室以及 "这些人似乎是宇航员,他们穿着太空服 "的描述。宇航员并没有穿太空服,他们似乎穿着有领衬衫和裤子。
当被问及宇航员穿的衣服是什么颜色时,模特正确地回答道"两名宇航员分别穿着蓝色和黑色的衣服。其中一人确实穿着蓝色衬衫,另一人穿着黑色衬衫。
该模型能够为文字对话实时即时聊天提供基础,用户可以与模型对话,模型可以回答有关视频的问题。它还能基于视觉进行功能调用和工具使用,使其能够检索和访问航班状态、天气预报和包裹跟踪等外部数据。这将使它在与客户服务人员或现场工作人员互动时非常有用,他们可以向它展示产品图片、条形码或其他信息。
功能调用和类人视觉感知
Qwen2-VL 系列建立在 Qwen 型号系列的基础上,在几个关键领域取得了重大进步:这些模型可以集成到手机和机器人等设备中,从而实现基于视觉环境和文本指令的自动化操作。这一功能凸显了 Qwen2-VL 作为需要复杂推理和决策的任务的强大工具的潜力。
阿里巴巴表示,Qwen-VL 模型的一个关键改进是继续使用视觉转换器模型(ViT)和 Qwen2 语言模型。该公司说,它使用的 ViT 有大约 6 亿个参数,可以同时处理图像和视频输入。
该模型通过实施本地动态分辨率支持得到了增强,从而使模型能够处理任意数量的图像分辨率,这是对其前身的升级。此外,新增的多模态旋转位置嵌入系统(M-ROPE)进一步使模型能够同时理解文本、二维视觉和三维位置数据。
Qwen2-VL 采用高度许可的 Apache 2.0 许可,有 Qwen2-VL-2B 和 Qwen2-VL-7B 两种尺寸的开源版本。公司还发布了在 Hugging Face 上运行 70 亿参数模型的演示。
该公司指出,该模型确实有其局限性,因为它无法从视频文件中提取音频,因为它只是为视觉推理而设计的。此外,该模型的训练内容截至 2023 年 6 月,无法保证复杂指令或场景的完全准确性。不过,阿里巴巴表示,该模型的性能和视觉能力在大多数指标上都达到了顶级基准,甚至超过了 OpenAI 的旗舰产品 GPT-4o 和 Anthropic 的 Claude 3.5-Sonnet 等闭源模型。
该公司表示,Qwen2-VL 系列将成为迈向更强大视觉语言模型的垫脚石。这些模型将集成更多的功能,以实现 "全方位 "模型,能够在视觉和音频之间进行推理。
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!