测评造假?Mistral首个多模态模型Pixtral 12B发布!
近日,法国人工智能(AI)初创公司Mistral于9月11日宣布推出其首款多模态AI大模型——Pixtral 12B,成功吸引了全球科技界的广泛关注。这款集图像与文本处理能力于一身的多模态AI大模型,不仅标志着Mistral AI在AI技术创新上迈出了重要一步,更向OpenAI、Anthropic等业界巨头发起了有力挑战。
Mistral 在昨天举办了一场峰会 Mistral AI Summit,通过相关人士的线上分享我们对模型有了进一步的了解。
Pixtral 12B的核心特点
Pixtral 12B,作为Mistral AI的首款多模态AI模型,其参数规模达到了惊人的120亿,模型大小约为24GB。这一庞大的参数规模意味着Pixtral 12B在处理复杂任务时能够展现出更加卓越的性能。与市场上其他多模态模型,如OpenAI的GPT-4和Anthropic的Claude系列相比,Pixtral 12B在图像识别、文本理解以及跨模态知识推理等方面均展现出了不俗的实力。
多模态处理能力
Pixtral 12B 的多模态处理能力是其最大的亮点。它能够同时处理文本和图像,为用户提供更为全面的理解力。这意味着,除了文本理解与生成,Pixtral 12B 还能对图像进行分析和解释,执行如图像描述生成、照片中物体数量统计等任务。
高性能架构
Pixtral 12B 的架构设计同样引人注目。它包含一个多模态 Transformer 解码器和视觉 Transformer 编码器,支持 1024×1024 的图像分辨率,具备 40 层、14,336 个隐藏维度和 32 个注意力头,用于广泛的计算处理。这使得 Pixtral 12B 在图像识别、内容创作、智能客服等多个领域具有广泛的应用前景。
数据显示,与其他顶级 AI 模型如 GPT-4、Claude 2、LLaMA 2 70B、Gemini Pro 和 GPT-3.5 进行对比, Pixtral 12B 在 MMLU 测试中的准确率为 81.2%,性能表现优异。
Pixtral 12B的发布引发了业界的广泛关注与讨论,同时也带来了一些不一样的声音。Hugging Face 技术负责人 Philipp Schmid 等相关人士对 Mistral AI 公布的 Pixtral 12B 模型评测数据表示怀疑。