清华大学提出Mini-Omni2：开源多模态模型，功能与GPT-4o媲美！

news2026/2/9 20:17:44

🌐 在人工智能领域，多模态模型的发展正如火如荼。今天，我们要介绍的是由清华大学提出的Mini-Omni2，这是一个开源的多模态语言模型，它在功能上与GPT-4o相媲美，能够理解和生成视觉、听觉和文本内容，并支持实时的语音输出和灵活的双工交互。

Mini-Omni2：开源的多模态语言模型

Mini-Omni2是一个能够实时提供用户视频和语音Query的端到端语音响应的视觉-音频助手，同时集成听觉功能。通过集成预训练的视觉和听觉编码器，Mini-Omni2在单个模态上保持了强大的性能。研究者提出了一种三阶段训练过程，以对齐模态，使语言模型在有限的数据集上训练后能够处理多模态输入和输出。

技术背景与发展历程

GPT-4o作为一个里程碑式的多模态大语言模型，虽然功能强大，但并未开源。Mini-Omni2通过整合预训练的视觉和听觉编码器，保持了各个模态的性能，并通过三阶段训练过程对齐模态，使语言模型能够在有限的数据集上处理多模态输入和输出。

功能特色

端到端的多模态交互能力：Mini-Omni2不仅支持文本输入输出，还能处理语音信号，实现真正的语音到语音的交流。
实时语音响应：Mini-Omni2能够提供实时的端到端语音输入和输出对话能力，显著减少了延迟，提高了交互的自然流畅性。
文本和音频同时生成：Mini-Omni2的独特之处在于它能够同时生成文本和音频，确保了对话流程的连贯性和流畅性。
流式音频输出：Mini-Omni2支持流式音频输出，这对于那些对实时性要求较高的交互应用场景来说是至关重要的。
高效的批量推理能力：Mini-Omni2通过“音频到文本”和“音频到音频”的批量推理方法，能够在短时间内处理大量的音频数据。
先进的训练方法：Mini-Omni2采用了高效的三阶段训练过程，包括模态扩展、模态对齐和联合训练。
命令中断机制：Mini-Omni2引入了基于命令的中断机制，使得用户与模型的交互更加灵活。
开源的模型和数据集：Mini-Omni2的所有建模方法和数据构建方法都将开源，这意味着研究者和开发者可以访问和使用这些资源，进一步推动多模态语言模型的发展和应用。

相对于Mini-Omni的主要改进点

Mini-Omni2在多模态交互方面表现出更强的能力和更高的灵活性。实时语音响应和命令中断机制的引入，提升了用户体验，使得交互更加自然和流畅。训练方法的优化和语义中断方法的探索，为未来模型的发展和应用提供了新的方向。

如何使用Mini-Omni2

Mini-Omni2的代码和相关文档可以在其GitHub仓库中找到。以下是详细的使用指南：

安装依赖：

bash

conda create -n omni python=3.10
conda activate omni
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
pip install -r requirements.txt

启动服务器：

bash

sudo apt-get install ffmpeg
conda activate omni
cd mini-omni
python3 server.py --ip '0.0.0.0' --port 60808

运行Streamlit演示：

bash

pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

运行Gradio演示：

bash

API_URL=http://0.0.0.0:60808/chat gradio app:app

适用场景

Mini-Omni2可以应用于多种场景，包括智能助手、教育与培训、客户服务以及研究与开发。

未来展望

Mini-Omni2的开发团队希望通过开源的形式，为后续研究提供有价值的见解，并推动多模态语言模型的发展。通过高效的数据利用和灵活的交互方式，Mini-Omni2展示了其在多模态理解和生成方面的强大能力。

贡献

Mini-Omni2的主要贡献包括提出了第一个开源的大规模多模态模型，具有视觉、语音、文本和音频中断机制的能力。此外，还提出了一种基于先前Mini-Omni的模态扩展方法的新颖训练Pipeline，包括三个训练阶段，使得文本模型首先扩展并适应多模态输入，然后在最后阶段将输出扩展到语音模态，并采用延迟并行生成算法实现实时语音输出。