Pixtral Large开源：Mistral AI的1240亿参数多模态模型超越GPT-4o等竞争对手

Pixtral Large是什么

Pixtral Large是由法国人工智能初创公司Mistral AI开发的超大多模态模型，拥有1240亿参数，2024年11月18日正式对外发布。它基于Mistral Large 2开发而成，具备1230亿参数的多模态解码器和10亿参数的视觉编码器。这个模型能够理解文本、图表和图像，并且是Mistral.ai自家聊天助手le Chat目前正在使用的视觉模型。Mistral AI进一步升级了免费聊天机器人le Chat，增加了图像生成、网络搜索和交互式画布功能，全面对标ChatGPT。所有这些功能以免费测试版形式开放。

在众多基准测试中，Pixtral Large展现了卓越的性能，超越了包括GPT-4o、Gemini-1.5Pro、Claude-3.5Sonnet以及Llama-3.290B在内的多个模型

le Chat升级情况

网络搜索与内联引用：Le Chat现在能够进行网络搜索，并提供带有内联引用的结果，类似于OpenAI的ChatGPT。这项功能特别适合学习、研究和工作中的信息获取需求，确保结果的可靠性和权威性。
画布工具（Canvas）：新增“画布”工具，使用户能够修改、转换或编辑内容，如网页模型和数据可视化，利用Mistral的AI模型。Canvas是le Chat中的新界面，允许用户与AI合作完成各种创意和知识工作任务，不局限于传统的问答对话，用户可以直接在画布中编辑、修改和预览内容。
处理大型PDF和图像：Le Chat现在可以处理大型PDF文档和图像进行分析和总结，包括包含图表和方程的文件。使用新一代的多模态模型Pixtral Large，显著增强对复杂文档和图像的理解能力。
图像生成集成：平台集成了Black Forest Labs的Flux Pro模型进行图像生成。用户现在可以通过Le Chat直接访问实时网页内容，轻松获取所需的信息。同时，借助Black Forest Labs的Flux Pro模型，用户还能生成高质量的图像，满足多种创作需求。
AI“代理”：Le Chat现在可以托管可共享的自动化工作流程，用于扫描费用报告和发票处理等任务，Mistral称这些为AI“代理”。

Pixtral Large功能特色

图像描述： Pixtral Large能够对图像进行深入分析，识别出图像中的对象、场景和动作，并生成准确的描述性文本。这项功能不仅限于简单识别，还能捕捉图像的细微差别，如颜色、纹理和布局等，为用户提供详尽的视觉信息描述。
视觉问答：用户可以针对图像内容提出问题，Pixtral Large能够理解这些问题并提供准确的答案。这包括识别图像中的具体元素、解释图像中发生的场景或事件，以及图像与相关文本之间的联系。这种能力使得模型在教育、辅助阅读和信息检索等领域具有广泛的应用潜力。
文档理解： Pixtral Large特别擅长处理包含丰富视觉元素的复杂文档，如学术论文、财务报告或技术手册。它能够解析和理解文档中的文本、图表、表格和方程式，为用户提供对文档内容的全面理解，这在需要深入分析大量信息的场景中尤为重要。
多语言支持： Pixtral Large支持包括中文、法文、英文在内的十多种主流语言，使其能够服务于全球不同语言的用户群体。这种多语言能力使得模型在国际化的环境中尤为有用，无论是在跨国公司的内部沟通、多语言内容的创作还是全球市场的客户服务中都能发挥重要作用。
长上下文处理：凭借128K的上下文窗口，Pixtral Large能够处理和理解长篇文本和多图像的复杂场景。这使得模型在处理长篇文档、连续的图像序列或需要广泛上下文信息的任务时，能够保持信息的连贯性和准确性，尤其适合于长篇内容的总结、分析和创作。

Pixtral Large在基准测试中的表现

Pixtral Large在一系列多模态基准测试中展现了其卓越的性能。这些测试旨在评估模型在理解和推理视觉数据方面的能力，包括数学问题解决、图表和文档的理解。

在MathVista基准测试中，Pixtral Large展现了其在复杂数学推理上的能力，达到了69.4%的准确率，这一成绩超越了所有其他参与测试的模型。MathVista是一个专门评估模型对视觉数据进行数学推理的测试，这表明Pixtral Large在处理数学问题时具有显著的优势。
Pixtral Large在ChartQA和DocVQA基准测试中也取得了优异的成绩，这些测试评估了模型对复杂图表和文档的理解能力。Pixtral Large的性能超越了GPT-4o和Gemini-1.5 Pro，这两个模型都是当前领先的大型语言模型，这进一步证明了Pixtral Large在多模态任务中的竞争力。
在MM-MT-Bench测试中，Pixtral Large同样展现了其竞争力，超越了Claude-3.5 Sonnet、Gemini-1.5 Pro和GPT-4o等模型。MM-MT-Bench是一个旨在反映多模态大型语言模型在现实世界用例中表现的开源评估，这表明Pixtral Large不仅在理论上表现优异，而且在实际应用中也具有很高的实用价值。
具体到定性样本，Pixtral Large能够处理多语言的OCR任务，并在此基础上进行复杂的推理。例如，它能理解德语收据并计算出包括18%小费在内的总金额。在图表理解方面，Pixtral Large能够分析损失曲线，并准确指出模型训练过程中出现问题的具体时间点，这显示了其在理解和解释视觉数据方面的强大能力。

综上所述，Pixtral Large在多模态基准测试中的表现证明了其在理解和推理视觉数据方面的前沿性能，无论是在数学问题解决、图表理解还是文档分析等任务中，都展现出了卓越的能力。这些测试结果不仅展示了Pixtral Large的技术实力，也为未来的多模态应用提供了广阔的前景。

Pixtral Large的技术原理

多模态解码器： Pixtral Large的核心是一个1230亿参数的多模态解码器，它负责整合和处理来自视觉编码器的图像信息以及文本数据。这个庞大的参数量使得解码器能够捕捉到复杂的模式和关系，无论是在文本中的长距离依赖还是在图像中的细节，实现高质量的图像描述、视觉问答和文档理解等。
视觉编码器：包含10亿参数的视觉编码器是Pixtral Large处理图像数据的关键。这个编码器专门设计用于将图像转换为模型可以理解的高维特征表示，使得模型能够理解图像中的视觉元素，并将这些信息与文本数据结合起来，以产生更丰富的上下文理解和更准确的任务执行。
变换器架构： Pixtral Large的视觉编码器采用了先进的变换器架构，能够有效地处理不同分辨率和宽高比的图像。这种灵活性对于处理现实世界中的图像至关重要，因为这些图像的尺寸和形状千差万别。
自注意力机制：视觉编码器还采用了自注意力机制，使得模型在处理图像时能够考虑到全局上下文，而不仅仅是局部特征。这种机制提高了模型对图像内容的理解能力，尤其是在复杂的视觉场景中。
序列打包技术： Pixtral Large采用了一种新颖的序列打包技术，使得模型能够在单个批次中高效地处理多张图像。通过构建块对角掩码来确保不同图像之间的特征不会相互干扰，从而提高了模型处理多图像数据的效率和准确性。
长上下文窗口： Pixtral Large拥有128K的上下文窗口，这使得模型能够处理大量的文本和图像数据。这对于理解和总结长篇文档或处理包含多个图像的复杂场景至关重要。

Pixtral Large定价信息或价格

Pixtral Large在Hugging Face上提供，对于学术研究是免费的，但商业用途需要付费许可。

如何使用Pixtral Large | MeoAI | AI产品指南大全

Pixtral Large模型：
- Pixtral Large模型可根据Mistral研究许可证(MRL)用于研究和教育用途，同时根据Mistral商业许可证用于商业目的的实验、测试和生产。
- 模型在API上以pixtral-large-latest的形式提供，在HuggingFace上以Mistral Large 24.11的形式提供。
- Mistral Large 24.11也将通过Google Cloud和Microsoft Azure等云平台提供。
Hugging Face平台：Mistral AI的模型和权重可以在Hugging Face平台上找到并下载使用，下载地址为。
试用地址：想要体验Mistral AI的最新功能，包括搜索、PDF上传、编码、图像生成等，可以通过访问以下地址