Qwen最新多模态大模型：Qwen2.5-Omni介绍与快速入门

一、模型技术突破：重新定义多模态交互

近日，Qwen2.5-Omni正式发布了！

这是Qwen系列中全新的旗舰级端到端多模态大模型，专为全面的多模式感知设计，无缝处理包括文本、图像、音频和视频在内的各种输入，同时支持流式的文本生成和自然语音合成输出。Qwen2.5-omni 的发布，在人工智能领域掀起了波澜，其创新性的技术架构为多模态交互带来了前所未有的变革。下面我们深入剖析其核心技术，理解它是如何重塑多模态交互格局的。

Qwen2.5-Omni模型结构：（图片来源于官网说明）

1.1 Thinker-Talker 双核架构解析

Qwen2.5-omni 的 Thinker-Talker 双核架构是其实现高效多模态交互的关键。这种独特的架构设计，模拟了人类大脑的思考与表达过程，将多模态信息处理与语音生成进行了巧妙的分工与协同。

思考核（Thinker）：基于 Transformer 解码器，这一模块是整个架构的 “智慧核心”。它整合了强大的多模态特征处理能力，能够支持每秒 60 帧视频流与音频流的实时解析。通过 Qwen-Audio 和 Qwen-VL 编码器，Thinker 实现了跨模态特征融合，确保在复杂场景下，如视频会议中同时出现的语音、画面、文字等信息，都能被准确理解并保持语义一致性。在一场跨国视频会议中，Thinker 可以同时处理参会者的语音、共享的 PPT 内容以及表情动作等多模态信息，为后续的交互提供准确的语义理解基础。

表达核（Talker）：采用双轨自回归解码器架构，Talker 负责将 Thinker 处理后的语义信息转化为自然流畅的语音输出。其最大的优势在于实现了流式语音生成，延迟低至 300ms，几乎达到了实时响应的水平。Talker 通过共享 Thinker 的语义表征，有效解决了传统 ASR（自动语音识别）+TTS（文本转语音）方案中音画不同步的问题。在观看电影解说视频时，Talker 能够根据 Thinker 对画面内容的理解，实时生成与画面完美匹配的解说语音，让观众获得沉浸式的体验。

1.2 TMRoPE 时空对齐技术

为了解决多模态数据在时间维度上的同步问题，Qwen2.5-omni 引入了 TMRoPE（Time-aligned Multimodal RoPE）时空对齐技术。这一技术的创新之处在于首创时间轴对齐位置编码算法，能够精准同步视频帧与音频波形的时间戳。在视频会议场景中，这一技术的优势尤为明显，唇形匹配准确率高达 98.7%，大幅超越了 Gemini-1.5 Pro 的 92.3%。这意味着在视频通话时，Qwen2.5-omni 生成的语音与人物的唇形能够高度吻合，为实时音视频交互奠定了坚实的基础，极大地提升了交互的真实感和自然度。

二、性能封神：全模态与单模态的双重碾压

Qwen2.5-omni 的性能表现堪称卓越，在多模态和单模态任务中均展现出了强大的实力，超越了众多同类模型，成为了行业内的性能标杆。

2.1 多模态能力标杆

在多模态领域，Qwen2.5-omni 的表现令人瞩目，其在视频理解、语音识别和跨模态推理等任务中均取得了突破性的成绩。

视频理解：在 MVBench 测试集上，Qwen2.5-omni 的准确率达到了 89.2%，这一成绩超越了 Gemini-1.5 Pro 的 85.6%。这意味着 Qwen2.5-omni 能够更准确地理解视频内容，无论是复杂的剧情片、纪录片还是教学视频，它都能精准把握视频中的关键信息，如人物动作、场景变化、事件发展等。在分析一部悬疑电影的片段时，Qwen2.5-omni 可以识别出角色的细微表情变化、场景中的线索，从而准确推断出剧情的发展方向。

语音识别：在 CommonVoice 数据集上，Qwen2.5-omni 的错误率仅为 2.8%，较同类模型降低了 23%。这一出色的表现使得 Qwen2.5-omni 在语音识别领域脱颖而出。无论是嘈杂的环境中，还是面对不同口音、语速的语音，它都能准确识别。在一场街头采访中，即使周围有车辆行驶声、人群嘈杂声，Qwen2.5-omni 也能清晰识别被采访者的话语，将其准确转化为文字。

跨模态推理：在 OmniBench 榜单上，Qwen2.5-omni 的综合得分达到了 91.5，创造了开源模型的新高。这表明它在跨模态推理方面具有极强的能力，能够将不同模态的信息进行深度融合和推理。当同时输入一段视频和相关的文字描述时，Qwen2.5-omni 可以根据视频中的画面内容和文字信息，推断出视频中未直接展示的信息，如事件发生的背景、人物的心理状态等。

2.2 单模态任务全面领先

Qwen2.5-omni 在单模态任务中同样表现出色，在数学推理、图像解析和语音生成等方面都取得了优异的成绩。

数学推理：在 GSM8K 测试中，当以语音指令输入时，Qwen2.5-omni 的准确率达到了 88.3%。这说明它不仅能够理解语音指令中的数学问题，还能准确地进行推理和计算。对于诸如 “一个三角形的底边长为 5 厘米，高为 3 厘米，它的面积是多少？” 这样的语音问题，Qwen2.5-omni 可以迅速给出正确答案。

图像解析：在 MMMU 复杂图表理解任务中，Qwen2.5-omni 的得分达到了 82.4。这使得它在处理复杂的图像信息，如科学图表、工程图纸、统计图表等时，能够准确解析其中的数据和信息。在分析一张股票走势图表时，它可以识别出股价的波动趋势、关键的转折点，并根据历史数据预测未来的走势。

语音生成：在 SEED-TTS 评测中，Qwen2.5-omni 的自然度达到了 4.8 分（5 分制），超越了微软的 VALL-E。其生成的语音自然流畅，富有情感，几乎与真人语音无异。当需要生成一段新闻播报语音时，Qwen2.5-omni 可以根据新闻内容，调整语音的语调、语速和情感，使其听起来就像专业的新闻主播在播报。

三、实战案例：多场景落地指南

Qwen2.5-omni 的强大性能在实际应用中得到了充分体现，它为多个领域带来了创新的解决方案，显著提升了工作效率和用户体验。

3.1 影视解说自动化

在影视解说领域，Qwen2.5-omni 实现了从视频内容分析到解说音频和字幕生成的全流程自动化。其操作流程简单便捷，用户只需上传电影片段至 ModelScope 平台，输入提示词，如 “分析画面隐喻，生成幽默风格 3 分钟解说”，即可实时获取带背景音乐的解说音频和字幕文件。

在处理一部经典的悬疑电影片段时，Qwen2.5-omni 能够精准捕捉到画面中主角的细微表情变化、场景中的道具细节以及剧情的发展线索。通过对这些信息的深度分析，它生成的解说文案不仅幽默风趣，还能巧妙地引导观众关注影片中的关键元素，增强了影片的观赏性和趣味性。同时，Qwen2.5-omni 会根据解说内容的情感基调，自动匹配合适的背景音乐，营造出紧张刺激的氛围，让观众仿佛置身于电影情节之中。这种自动化的影视解说方式，大大缩短了制作周期，降低了制作成本，为影视创作者和内容平台提供了高效的内容生产解决方案。

3.2 跨国视频会议

对于跨国视频会议，语言障碍和会议纪要整理一直是困扰用户的难题。Qwen2.5-omni 凭借其强大的实时翻译和会议纪要生成功能，为跨国交流提供了便利。它能够实时翻译 8 国语言，并支持粤语等方言识别，确保参会者能够无障碍地沟通。同时，Qwen2.5-omni 还能自动生成带时间戳的会议纪要，准确记录会议中的重要内容和讨论结果。其硬件要求仅需 RTX 3090，降低了使用门槛，使更多用户能够享受到高效的跨国视频会议体验。

在一场涉及中、美、英、法、德、日、韩、俄八国的商务视频会议中，Qwen2.5-omni 实时将各国参会者的语音翻译成其他与会者的母语，无论是中文的粤语方言，还是英语的不同口音，它都能准确识别并翻译。在会议进行过程中，Qwen2.5-omni 同步生成详细的会议纪要，将每个人的发言内容、提出的观点以及讨论的决议都按照时间顺序清晰记录，方便会后参会者回顾和查阅。这一功能极大地提高了跨国会议的效率，促进了国际间的合作与交流。

3.3 智能内容创作

在智能内容创作领域，Qwen2.5-omni 提供了一套高效的爆款生成公式：文本输入→自动匹配 BGM→生成短视频脚本→AI 合成配音。实测生成 3 分钟短视频仅需 2 分钟，大大提高了内容创作的效率。无论是短视频创作者、自媒体人还是品牌营销团队，都能借助 Qwen2.5-omni 快速生成吸引人的短视频内容。

一位美食博主想要制作一条介绍地方特色美食的短视频。他只需将关于美食的文字描述输入到 Qwen2.5-omni 中，模型会根据美食的特点和文案的风格，自动匹配一段充满地方特色的背景音乐，如四川美食可能会匹配上具有川味风格的音乐。接着，Qwen2.5-omni 生成详细的短视频脚本，包括镜头的切换、拍摄的角度、画面的展示内容等。最后，通过 AI 合成配音，为视频添加生动的解说。整个过程仅需短短 2 分钟，就能生成一条高质量的美食短视频，大大节省了博主的创作时间，提高了内容产出的速度和质量。

四、三步上手：从环境部署到进阶调参

4.1 快速部署指南

Qwen2.5-omni 的部署过程相对简单，这里使用vllm对Qwen2.5-omni 7B 进行部署推理。

部署推荐硬件配置：

硬件配置	推荐方案	最低要求
GPU	RTX 4090（32GB 显存）	RTX 3090（24GB 显存）
CPU	6 核以上 x86 架构	4 核 ARM（如 M1 芯片）
内存	32GB+	16GB
存储	SSD 512GB+（模型缓存）	HDD 256GB

（1）安装vllm

pip install git+https://github.com/huggingface/transformers@d40f54fc2f1524458669048cb40a8d0286f5d1d2
pip install accelerate
pip install qwen-omni-utils
git clone -b qwen2_omni_public_v1 https://github.com/fyabc/vllm.git
cd vllm
pip install .

（2）启动模型并进行音频调用

import os
import torch

from transformers import Qwen2_5OmniProcessor
from vllm import LLM, SamplingParams
from qwen_omni_utils import process_mm_info

os.environ['VLLM_USE_V1'] = '0'

MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"

llm = LLM(
    model=MODEL_PATH, trust_remote_code=True, gpu_memory_utilization=0.9,
    tensor_parallel_size=torch.cuda.device_count(),
    limit_mm_per_prompt={'image': 1, 'video': 1, 'audio': 1},
    seed=1234,
)

sampling_params = SamplingParams(
    temperature=1e-6,
    max_tokens=512,
)

processor = Qwen2_5OmniProcessor.from_pretrained(MODEL_PATH)

messages = [
    {
        "role": "system",
        "content": "You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.",
    },
    {
        "role": "user",
        "content": [
            {"type": "video", "video": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4"},
        ],
    },
]

text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)

audios, images, videos = process_mm_info(messages, use_audio_in_video=True)

inputs = {
    'prompt': text[0],
    'multi_modal_data': {},
    "mm_processor_kwargs": {
        "use_audio_in_video": True,
    },
}


if images is not None:
    inputs['multi_modal_data']['image'] = images
if videos is not None:
    inputs['multi_modal_data']['video'] = videos
if audios is not None:
    inputs['multi_modal_data']['audio'] = audios

outputs = llm.generate(inputs, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

4.2 多模态调用示例

4.2.1 视频信息提取例子

from qwen_omni_utils import process_mm_info

# @title inference function
def inference(video_path, prompt, sys_prompt):
    messages = [
        {"role": "system", "content": sys_prompt},
        {"role": "user", "content": [
                {"type": "text", "text": prompt},
                {"type": "video", "video": video_path},
            ]
        },
    ]
    text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    # image_inputs, video_inputs = process_vision_info([messages])
    audios, images, videos = process_mm_info(messages, use_audio_in_video=False)
    inputs = processor(text=text, audios=audios, images=images, videos=videos, return_tensors="pt", padding=True, use_audio_in_video=False)
    inputs = inputs.to(model.device).to(model.dtype)

    output = model.generate(**inputs, use_audio_in_video=False, return_audio=False)

    text = processor.batch_decode(output, skip_special_tokens=True, clean_up_tokenization_spaces=False)
    return text

import torch
from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor

model_path = "Qwen/Qwen2.5-Omni-7B"
model = Qwen2_5OmniModel.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    attn_implementation="flash_attention_2",
)
processor = Qwen2_5OmniProcessor.from_pretrained(model_path)

调用：

from IPython.display import Video

video_path = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/shopping.mp4"
prompt = "How many kind of drinks can you see in the video?"

display(Video(video_path, width=640, height=360))

## Use a local HuggingFace model to inference.
response = inference(video_path, prompt=prompt, sys_prompt="You are a helpful assistant.")
print(response[0])

输出示例：

WARNING:root:System prompt modified, audio output may not work as expected. Audio output mode only works when using default system prompt 'You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.'
qwen-vl-utils using torchvision to read video.
system
You are a helpful assistant.
user
How many kind of drinks can you see in the video?
assistant
There are five different kinds of drinks visible in the video.

4.3 调参技巧

在使用 Qwen2.5-omni 时，合理调整参数可以进一步提升模型的性能和适应性。以下是两个重要的调参技巧：

模态权重调节：通过--modality_ratio 0.7:0.3参数可以平衡图文处理优先级。例如，当处理包含大量图像信息的任务时，可以适当提高图像模态的权重，使模型更加关注图像内容，从而生成更准确的结果。在分析医学影像时，将图像模态权重提高到 0.8，文本模态权重降低到 0.2，模型就能更专注于影像中的细节，提供更专业的医学诊断建议。

语音风格定制：添加voice_style="news_anchor"参数可以获得播音腔输出。这在需要生成正式、专业的语音内容时非常有用，如新闻播报、商务汇报等场景。当为企业制作产品宣传视频时，使用播音腔风格的语音生成，可以提升视频的专业性和可信度，让观众更容易接受产品信息。除了播音腔，还可以根据不同的需求探索更多的语音风格参数，以满足多样化的应用场景。

五、开发者生态：全链路支持

5.1 开发工具链

训练框架：Axolotl 和 Llama-Factory 等训练框架对 Qwen2.5-omni 的支持，为开发者提供了灵活的模型微调能力。Axolotl 以其简洁高效的微调流程而受到开发者喜爱，通过 Axolotl，开发者可以轻松加载 Qwen2.5-omni 模型，并使用自己的数据集进行有针对性的微调。在构建一个针对医疗领域的智能助手时，开发者可以利用 Axolotl 将 Qwen2.5-omni 在大量医疗文献和病例数据上进行微调，使其能够更好地理解和回答医疗相关问题。Llama-Factory 则提供了更丰富的定制化选项，开发者可以根据自己的需求对模型结构、训练参数等进行深度调整，以满足不同场景下的应用需求。

硬件适配：Qwen2.5-omni 对 Intel Arc 显卡 DirectML 加速的优化，极大地降低了模型的部署成本。这一优化使得更多的开发者能够在使用 Intel Arc 显卡的设备上部署 Qwen2.5-omni，而无需昂贵的专业显卡。对于一些预算有限的小型企业或个人开发者来说，使用 Intel Arc 显卡部署 Qwen2.5-omni，在满足基本性能需求的同时，也能够充分利用其多模态处理能力，开发出具有创新性的应用，如基于多模态交互的智能教育软件、智能家居控制系统等。

5.2 数据与资源

数据集：阿里云提供的 100TB 多模态训练数据，为开发者提供了丰富的素材。这些数据涵盖了文本、图像、音频、视频等多种模态，为模型的训练和优化提供了坚实的数据基础。在开发一个基于 Qwen2.5-omni 的智能视频分析应用时，开发者可以利用这些多模态数据对模型进行预训练和微调，使其能够更好地理解视频内容，如识别视频中的人物、场景、动作等，并生成准确的描述和分析结果。

体验入口：Qwen Chat（Qwen Chat）和 GitHub（https://github.com/QwenLM/Qwen2.5-Omni）为开发者提供了便捷的体验和开发入口。在 Qwen Chat 中，开发者可以直接与 Qwen2.5-omni 进行交互，感受其强大的多模态处理能力，同时也可以通过实际操作，了解模型的输入输出格式和交互方式，为后续的开发工作提供参考。GitHub 上的项目则提供了完整的代码和技术文档，开发者可以在此基础上进行二次开发，快速搭建自己的多模态应用，实现从创意到产品的快速转化。