目录
- Pixtral 12B: 开源多模态模型,兼顾推理与文本能力
- 性能
- 评估方案
- 指令遵循
- 架构
- OpenAPI 入门指南
- 一、什么是 OpenAPI?
- 二、OpenAPI 的概念
- 三、OpenAPI 的结构
- 四、OpenAPI 的格式
- 五、OpenAPI 的优势
Pixtral 12B: 开源多模态模型,兼顾推理与文本能力
Mistral AI 发布首个多模态模型 Pixtral 12B,采用 Apache 2.0 协议开源。
Pixtral 12B 主要特点:
- 原生多模态,使用交错的图像和文本数据进行训练
- 在多模态任务上表现出色,尤其擅长指令遵循
- 在纯文本基准测试中保持了最先进的性能
- 架构:
- 全新训练的 4 亿参数视觉编码器
- 基于 Mistral Nemo 的 120 亿参数多模态解码器
- 支持可变图像大小和纵横比
- 在 12.8 万个词元的长上下文窗口中支持多张图像
- 使用方式:
- 许可证:Apache 2.0
- 在 La Plateforme 或 Le Chat 上试用
Pixtral 旨在理解自然图像和文档,在 MMMU 推理基准测试中达到了 52.5% 的成绩,超过了许多更大的模型。 该模型在图表和图形理解、文档问答、多模态推理和指令遵循等任务中表现出色。Pixtral 能够以 自然分辨率和纵横比摄取图像,使用户可以灵活地选择用于处理图像的词元数量。Pixtral 还能够在其 12.8 万个词元的长上下文窗口中处理任意数量的图像。与之前的开源模型不同,Pixtral 并没有为了在多模态任务中表现出色而牺牲文本基准性能。
性能
Pixtral 被训练成 Mistral Nemo 12B 的直接替代品。与现有开源模型相比,它的主要区别在于提供了最佳的多模态推理能力,同时又不影响关键文本能力,如指令遵循、编码和数学。
评估方案
我们通过相同的评估工具重新评估了一系列开放和封闭模型。对于每个数据集,我们都选择了能够复现领先多模态模型(GPT-4o 和 Claude-3.5-Sonnet)结果的提示词。然后,我们使用相同的提示词评估所有 模型。总的来说,Pixtral 的性能大大优于所有与其规模相当的开放模型,并且在许多情况下优于 Claude 3 Haiku 等封闭模型。Pixtral 甚至在多模态基准测试中超越或匹敌了 LLaVa OneVision 72B 等更大模 型的性能。 所有提示词都将开源。
模型 | MMMU (CoT) | Mathvista (CoT) | ChartQA (CoT) | DocVQA (ANLS) | VQAv2 (VQA Match) |
---|---|---|---|---|---|
Pixtral 12B | 52.5 | 58.0 | 81.8 | 90.7 | 78.6 |
Claude-3 Haiku | 50.4 | 44.8 | 69.6 | 74.6 | 68.4 |
Gemini-1.5 Flash 8B (0827) | 50.7 | 56.9 | 78.0 | 79.5 | 65.5 |
LLaVA-OV 72B | 54.4 | 57.2 | 66.9 | 91.6 | 83.8 |
GPT-4o | 68.6 | 64.6 | 85.1 | 88.9 | 77.8 |
Claude-3.5 Sonnet | 68.0 | 64.4 | 87.6 | 90.3 | 70.7 |
Qwen2-VL 7B | 47.6 | 54.4 | 38.6 | 94.5 | 75.9 |
LLaVA-OV 7B | 45.1 | 36.1 | 67.1 | 90.5 | 78.3 |
Phi-3 Vision | 40.3 | 36.4 | 72.0 | 84.9 | 42.4 |
Phi-3.5 Vision | 38.3 | 39.3 | 67.7 | 74.4 | 56.1 |
上表展示了 Pixtral 与其他封闭和更大规模的多模态模型的性能比较。
指令遵循
与其他开放多模态模型相比,Pixtral 在多模态和纯文本指令遵循方面表现尤为出色。**它在指令遵循方面大大优于 Qwen2-VL 7B、LLaVa-OneVision 7B 和 Phi-3.5 Vision,在文本 IF-Eval 和 MT-Bench 上比最 接近的开源模型提高了 20%。**为了进一步评估其在多模态用例中的能力,我们创建了这些基准测试的多模态版本:MM-IF-Eval 和 MM-MT-Bench。Pixtral 在多模态指令遵循基准测试中也优于开源替代方案。我们 将向社区开源 MM-MT-Bench。
架构
可变图像大小: Pixtral 的设计旨在优化速度和性能。官方训练了一个新的视觉编码器,它原生支持可变图像大小:
- 用户只需将图像以其原生分辨率和纵横比传递给视觉编码器,将其转换为图像中每个 16x16 块的图像词元。
- 然后将这些词元展平以创建一个序列,并在行之间和图像末尾添加
[IMG BREAK]
和[IMG END]
词元。 [IMG BREAK]
词元可以让模型区分具有相同词元数量但纵横比不同的图像。
通过这种方式,Pixtral 可以用于准确理解高分辨率的复杂图表、图形和文档,同时在图标、剪贴画和公式等小图像上提供快速的推理速度。
最终架构:
- Pixtral 有两个组件:
- 视觉编码器(用于对图像进行词元化)
- 多模态 Transformer 解码器(用于在给定文本和图像序列的情况下预测下一个文本词元)
该模型经过训练,可以根据交错的图像和文本数据预测下一个文本词元。这种架构允许 Pixtral 在其 12.8 万个词元的长上下文窗口中处理任意数量的任意大小的图像。
Pixtral 12B 是一个强大的开源多模态模型,在推理和文本能力方面都表现出色。其灵活的架构和强大的性能使其成为各种多模态应用的理想选择。
来源:
https://mistral.ai/news/pixtral-12b/
x-cmd 用户可通过交互模式设置 Pixtral-12b-2409
为默认模型。
进一步探索:
- https://www.x-cmd.com/mod/mistral
OpenAPI 入门指南
一、什么是 OpenAPI?
- OpenAPI 是一种用于描述 API(应用程序编程接口)的规范。
- OpenAPI 规范 (OAS) 为 HTTP API 服务定义了一种开放且独立的描述格式,允许人和计算机在无需查看源代码的情况下发现和理解 API 的工作原理以及如何与之交互。
- OpenAPI 提供了一种机器可读的结构化数据格式,人们也可以读取和编写这种格式,允许工具帮助 API 开发人员、API 产品经理、技术文档编写人员和治理团队完成整个 API 生命周期。
二、OpenAPI 的概念
- OpenAPI 规范(OAS): 由 OpenAPI 倡议组织维护的技术文档,定义了 OpenAPI 的工作方式。
- OpenAPI 文档: 遵循 OpenAPI 规范编写的文件,描述了 API 的具体功能,例如
openapi.yaml
或openapi.json
。 - OpenAPI 文档化: 根据 OpenAPI 文档自动生成的 API 参考文档,以人类可读的方式展示 API 的详细信息。
三、OpenAPI 的结构
OpenAPI 文档允许您描述 REST API:
- 定义有关 API 的常规信息:描述、使用条款、许可证、联系人等。
- 身份验证方法:
HTTP
、API 密钥
、OAuth 2
、OpenID
等。 - 可用端点:
/users
等。 - 从 OpenAPI 3.1 开始,可用 Webhook。
- 每个端点上的可用操作:
GET
、POST
、PUT
、PATCH
、DELETE
等。 - 每个操作的输入和输出参数。
四、OpenAPI 的格式
- OpenAPI 文档可以使用 YAML 和 JSON 格式编写。
- YAML 更易于阅读,因为它减少了标记标签的使用,并且被广泛用于编写各种软件配置。
示例:
/previews:
post:
summary: Create a preview
description: |
Create a preview for a given documentation file. The preview will have a unique
temporary URL, and will be active for 30 minutes.
security: []
requestBody:
$ref: "#/components/requestBodies/Preview"
responses:
"201":
description: "Success"
content:
"application/json":
schema:
$ref: "#/components/schemas/Preview"
五、OpenAPI 的优势
- 语言无关性: OpenAPI 描述与编程语言无关,可以使用任何语言或框架实现 API。
- 工具支持: 许多工具支持 OpenAPI,例如 Swagger UI、Postman 和 Insomnia,可以自动生成文档、客户端库和服务器存根。
- 改进的协作: OpenAPI 提供了一个中央位置来记录 API,从而改善了团队内部和团队之间的协作。
- 更快的开发: OpenAPI 可以通过自动生成代码和文档来加快 API 开发过程。
OpenAPI 是一种强大的规范,可以帮助您设计、构建、记录和使用 API。它提供了许多优势,可以改善开发过程并提高 API 的质量。
来源:
https://docs.bump.sh/guides/openapi/specification/v3.1/introduction/what-is-openapi/
更多内容请查阅 : blog-240926
关注微信官方公众号 : oh my x
获取开源软件和 x-cmd 最新用法