[240926] Pixtral 12B: 开源多模态模型,兼顾推理与文本能力 | OpenAPI 入门指南

news2025/1/12 6:05:29

目录

    • Pixtral 12B: 开源多模态模型,兼顾推理与文本能力
      • 性能
        • 评估方案
        • 指令遵循
      • 架构
    • OpenAPI 入门指南
      • 一、什么是 OpenAPI?
      • 二、OpenAPI 的概念
      • 三、OpenAPI 的结构
      • 四、OpenAPI 的格式
      • 五、OpenAPI 的优势

Pixtral 12B: 开源多模态模型,兼顾推理与文本能力

Mistral AI 发布首个多模态模型 Pixtral 12B,采用 Apache 2.0 协议开源。

Pixtral 12B 主要特点:

  • 原生多模态,使用交错的图像和文本数据进行训练
  • 在多模态任务上表现出色,尤其擅长指令遵循
  • 在纯文本基准测试中保持了最先进的性能
  • 架构:
    • 全新训练的 4 亿参数视觉编码器
    • 基于 Mistral Nemo 的 120 亿参数多模态解码器
    • 支持可变图像大小和纵横比
    • 在 12.8 万个词元的长上下文窗口中支持多张图像
  • 使用方式:
    • 许可证:Apache 2.0
    • 在 La Plateforme 或 Le Chat 上试用

Pixtral 旨在理解自然图像和文档,在 MMMU 推理基准测试中达到了 52.5% 的成绩,超过了许多更大的模型。 该模型在图表和图形理解、文档问答、多模态推理和指令遵循等任务中表现出色。Pixtral 能够以 自然分辨率和纵横比摄取图像,使用户可以灵活地选择用于处理图像的词元数量。Pixtral 还能够在其 12.8 万个词元的长上下文窗口中处理任意数量的图像。与之前的开源模型不同,Pixtral 并没有为了在多模态任务中表现出色而牺牲文本基准性能。

性能

Pixtral 被训练成 Mistral Nemo 12B 的直接替代品。与现有开源模型相比,它的主要区别在于提供了最佳的多模态推理能力,同时又不影响关键文本能力,如指令遵循、编码和数学。

评估方案

我们通过相同的评估工具重新评估了一系列开放和封闭模型。对于每个数据集,我们都选择了能够复现领先多模态模型(GPT-4o 和 Claude-3.5-Sonnet)结果的提示词。然后,我们使用相同的提示词评估所有 模型。总的来说,Pixtral 的性能大大优于所有与其规模相当的开放模型,并且在许多情况下优于 Claude 3 Haiku 等封闭模型。Pixtral 甚至在多模态基准测试中超越或匹敌了 LLaVa OneVision 72B 等更大模 型的性能。 所有提示词都将开源。

模型MMMU (CoT)Mathvista (CoT)ChartQA (CoT)DocVQA (ANLS)VQAv2 (VQA Match)
Pixtral 12B52.558.081.890.778.6
Claude-3 Haiku50.444.869.674.668.4
Gemini-1.5 Flash 8B (0827)50.756.978.079.565.5
LLaVA-OV 72B54.457.266.991.683.8
GPT-4o68.664.685.188.977.8
Claude-3.5 Sonnet68.064.487.690.370.7
Qwen2-VL 7B47.654.438.694.575.9
LLaVA-OV 7B45.136.167.190.578.3
Phi-3 Vision40.336.472.084.942.4
Phi-3.5 Vision38.339.367.774.456.1

上表展示了 Pixtral 与其他封闭和更大规模的多模态模型的性能比较。

指令遵循

与其他开放多模态模型相比,Pixtral 在多模态和纯文本指令遵循方面表现尤为出色。**它在指令遵循方面大大优于 Qwen2-VL 7B、LLaVa-OneVision 7B 和 Phi-3.5 Vision,在文本 IF-Eval 和 MT-Bench 上比最 接近的开源模型提高了 20%。**为了进一步评估其在多模态用例中的能力,我们创建了这些基准测试的多模态版本:MM-IF-Eval 和 MM-MT-Bench。Pixtral 在多模态指令遵循基准测试中也优于开源替代方案。我们 将向社区开源 MM-MT-Bench。

架构

可变图像大小: Pixtral 的设计旨在优化速度和性能。官方训练了一个新的视觉编码器,它原生支持可变图像大小:

  • 用户只需将图像以其原生分辨率和纵横比传递给视觉编码器,将其转换为图像中每个 16x16 块的图像词元。
  • 然后将这些词元展平以创建一个序列,并在行之间和图像末尾添加 [IMG BREAK][IMG END] 词元。
  • [IMG BREAK] 词元可以让模型区分具有相同词元数量但纵横比不同的图像。

通过这种方式,Pixtral 可以用于准确理解高分辨率的复杂图表、图形和文档,同时在图标、剪贴画和公式等小图像上提供快速的推理速度。

最终架构:

  • Pixtral 有两个组件:
    • 视觉编码器(用于对图像进行词元化)
    • 多模态 Transformer 解码器(用于在给定文本和图像序列的情况下预测下一个文本词元)

该模型经过训练,可以根据交错的图像和文本数据预测下一个文本词元。这种架构允许 Pixtral 在其 12.8 万个词元的长上下文窗口中处理任意数量的任意大小的图像。

Pixtral 12B 是一个强大的开源多模态模型,在推理和文本能力方面都表现出色。其灵活的架构和强大的性能使其成为各种多模态应用的理想选择。

来源:

https://mistral.ai/news/pixtral-12b/


x-cmd 用户可通过交互模式设置 Pixtral-12b-2409 为默认模型。

在这里插入图片描述

进一步探索:

  • https://www.x-cmd.com/mod/mistral

OpenAPI 入门指南

一、什么是 OpenAPI?

  • OpenAPI 是一种用于描述 API(应用程序编程接口)的规范。
  • OpenAPI 规范 (OAS) 为 HTTP API 服务定义了一种开放且独立的描述格式,允许人和计算机在无需查看源代码的情况下发现和理解 API 的工作原理以及如何与之交互。
  • OpenAPI 提供了一种机器可读的结构化数据格式,人们也可以读取和编写这种格式,允许工具帮助 API 开发人员、API 产品经理、技术文档编写人员和治理团队完成整个 API 生命周期。

二、OpenAPI 的概念

  • OpenAPI 规范(OAS): 由 OpenAPI 倡议组织维护的技术文档,定义了 OpenAPI 的工作方式。
  • OpenAPI 文档: 遵循 OpenAPI 规范编写的文件,描述了 API 的具体功能,例如 openapi.yamlopenapi.json
  • OpenAPI 文档化: 根据 OpenAPI 文档自动生成的 API 参考文档,以人类可读的方式展示 API 的详细信息。

三、OpenAPI 的结构

OpenAPI 文档允许您描述 REST API:

  • 定义有关 API 的常规信息:描述、使用条款、许可证、联系人等。
  • 身份验证方法:HTTPAPI 密钥OAuth 2OpenID 等。
  • 可用端点:/users 等。
  • 从 OpenAPI 3.1 开始,可用 Webhook。
  • 每个端点上的可用操作:GETPOSTPUTPATCHDELETE 等。
  • 每个操作的输入和输出参数。

四、OpenAPI 的格式

  • OpenAPI 文档可以使用 YAML 和 JSON 格式编写。
  • YAML 更易于阅读,因为它减少了标记标签的使用,并且被广泛用于编写各种软件配置。

示例:

/previews:
  post:
    summary: Create a preview
    description: |
      Create a preview for a given documentation file. The preview will have a unique
      temporary URL, and will be active for 30 minutes.
    security: []
    requestBody:
      $ref: "#/components/requestBodies/Preview"
    responses:
      "201":
        description: "Success"
        content:
          "application/json":
            schema:
              $ref: "#/components/schemas/Preview"

五、OpenAPI 的优势

  • 语言无关性: OpenAPI 描述与编程语言无关,可以使用任何语言或框架实现 API。
  • 工具支持: 许多工具支持 OpenAPI,例如 Swagger UI、Postman 和 Insomnia,可以自动生成文档、客户端库和服务器存根。
  • 改进的协作: OpenAPI 提供了一个中央位置来记录 API,从而改善了团队内部和团队之间的协作。
  • 更快的开发: OpenAPI 可以通过自动生成代码和文档来加快 API 开发过程。

OpenAPI 是一种强大的规范,可以帮助您设计、构建、记录和使用 API。它提供了许多优势,可以改善开发过程并提高 API 的质量。

来源:

https://docs.bump.sh/guides/openapi/specification/v3.1/introduction/what-is-openapi/

更多内容请查阅 : blog-240926


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2166714.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

环形链表-注意起始双指针的位置

题目描述: 个人题解: 快慢指针法,注意起始双指针的位置,一个在head位置,一个在head->next的位置,慢指针每次只移动一步,而快指针每次移动两步。初始时,慢指针在位置 head&#xf…

微信小程序-使用vant组件库

文章目录 微信小程序-使用vant组件库概述构建npm构建步骤使用vant注册使用添加事件使用插槽 样式覆盖解除样式隔离使用外部样式类使用CSS变量 微信小程序-使用vant组件库 概述 Vant Weapp 是有赞前端团队开源的小程序 UI 组件库,基于微信小程序的自定义组件开发&a…

ESP8266 make flash ESPBAUD=921600加快eclipse烧录速度

要点: 1)Default baud rate (115200 baud) 既是烧录速度 2)UART0、UART1的波特率都同make monitor的74880 3)make flash时设置波特率,即实际使用的波特率 1. 波特率,默认115200,需27.8s Writi…

前端框架对比、分析与选择

在现代Web开发中,选择合适的前端框架对于项目的成功至关重要。本文将详细对比分析Vue.js、Angular、React和Layui这四种前端框架,帮助开发者做出明智的选择。 一、概述 1. Vue.js Vue.js是由尤雨溪创建的一个渐进式JavaScript框架,旨在通过简…

在精益生产现场管理和改善中,如何制定合理的奖励制度?

在精益生产的广阔实践领域中,现场管理与改善是推动企业持续进步、提升竞争力的关键环节。而制定合理的奖励制度,则是激发员工积极性、促进团队协作、加速改善进程的重要驱动力。本文,深圳天行健企业管理咨询公司将深入探讨在精益生产现场管理…

XSS | XSS 漏洞介绍

关注这个漏洞的其他相关笔记:XSS 漏洞 - 学习手册-CSDN博客 0x01:XSS 漏洞简介 跨站脚本(Cross-Site Scripting,简称为 XSS)攻击,是一种针对网站应用程序的安全漏洞进行攻击的技术,是代码注入的…

【在Linux世界中追寻伟大的One Piece】IP分片和组装的具体过程

目录 1 -> IP分片和组装的具体过程 2 -> 分片与组装的过程 2.1 -> 分片 2.2 -> 组装 3 -> 分片与组装的示意图 3.1 -> 分片组装场景 1 -> IP分片和组装的具体过程 16位标识(id):唯一的标识主机发送的报文。如果IP报文在数据链路层被分片…

linux入门到实操-11 Linux用户权限管理:添加和查看用户、获取root权限和删除用户、用户组管理

教程来源:B站视频BV1WY4y1H7d3 3天搞定Linux,1天搞定Shell,清华学神带你通关_哔哩哔哩_bilibili 整理汇总的课程内容笔记和课程资料(包含课程同版本linux系统文件等内容),供大家学习交流下载:…

Verba - Weaviate RAG 私人助理

文章目录 一、关于 Verba什么是Verba?功能列表 二、Verba入门安装部署 三、API密钥1、Weaviate2、Ollama3、UNSTRUCTURED4、AssemblyAI5、OpenAI6、HuggingFace 四、如何使用pip进行部署五、如何从源代码构建六、如何使用Docker安装VerbaVerba Walkthrough选择您的部…

进来看看吧,产品经理做APP从头到尾的所有工作流程详解!

一、项目启动前 从事产品的工作一年多,但自己一直苦于这样或者那样的困惑,很多人想要从事产品,或者老板自己创业要亲自承担产品一职,但他们对产品这个岗位的认识却不明晰,有的以为是纯粹的画原型,有的是以…

BACnet MS/TP协议解析(3)

1、MS/TP帧格式 例如数据(hex):55 FF 01 03 02 00 00 D7 0x550xff0x010x030x020x000x000xD7BACnet数据BACnet数据CRC帧头帧类型目的地址源地址BACnet数据长度,大端CRC 2、帧类型 帧类型目前定义为 0-7,8-127 为 AS…

vue3 vite模式配置测试,开发、生产环境以及代理配置

1、首先在根目录下创建三个文本文件:.env.development,.env.production,.env.test .env.development中的内容为: // 开发环境 .env.development NODE_ENV development VITE_APP_MODE development VITE_OUTPUTDIR dist_dev /…

基于Java的宠物之家小程序 宠物服务小程序【源码+调试】

精彩专栏推荐订阅:在下方主页👇🏻👇🏻👇🏻👇🏻 💖🔥作者主页:计算机毕设木哥🔥 💖 文章目录 一、宠物之家小程…

FPGA第 11 篇,Verilog 系统函数( Verilog 中的系统函数)

前言 Verilog 作为一种强大的硬件描述语言,不仅提供了用于设计和仿真数字电路的基础语法,还包含了丰富的系统函数,帮助我们高效地完成复杂的硬件操作。系统函数是 Verilog 语言中预定义的特殊函数,通常以 $ 开头,它们…

【深度学习】(7)--神经网络之保存最优模型

文章目录 保存最优模型一、两种保存方法1. 保存模型参数2. 保存完整模型 二、迭代模型 总结 保存最优模型 我们在迭代模型训练时,随着次数初始的增多,模型的准确率会逐渐的上升,但是同时也随着迭代次数越来越多,由于模型会开始学…

今日不错的讲企业架构的好图

今日不错的讲企业架构的好图,来源B站不错的UP主:企业架构知识体系-业务技术管理的知识框架_哔哩哔哩_bilibili

grafana频繁DataSourceError问题

背景 随着 Grafana 数据量的不断增加,逐渐暴露出以下问题: Grafana 页面加载缓慢;Grafana 告警频繁出现 DatasourceError 错误。 对于第一个问题,大家可以参考这篇文章:Grafana 加载缓慢的解决方案。 不过&#xf…

【Unity踩坑】Textmesh Pro是否需要加入Version Control?

问题:如果Unity 项目中用到了Textmesh pro,相关的文件是否也需要签入呢? 回答: 在使用 Unity 的 Version Control(例如 Plastic SCM 或 Git)时,如果你的项目中使用了 TextMesh Pro&#xff0c…

条件字段有索引,为什么查询也这么慢?

如果我们想在某一本书中找到特定的主题,一般最快的方法是先看索引,找到对应的主题在哪个页码。 而对于 MySQL 而言,如果需要查找某一行的值,可以先通过索引找到对应的值,然后根据索引匹配的记录找到需要查询的数据行。…

家政服务预约系统小程序的设计

管理员账户功能包括:系统首页,个人中心,客户管理,员工管理,家政服务管理,服务预约管理,员工风采管理,客户需求管理,接单信息管理 微信端账号功能包括:系统首…