阿里万相，正式开源

阿里万相，正式开源

news2025/3/5 6:34:09

大家好，我是小悟。

阿里万相正式开源啦。这就像是AI界突然开启了一扇通往宝藏的大门，而且还是免费向所有人敞开的那种。

你想想看，在这个科技飞速发展的时代，AI就像是拥有神奇魔法的魔法师，不断地给我们带来各种意想不到的惊喜。而阿里万相，就是这个魔法师团队里的新星。

2 月 25 日晚间，阿里云旗下的视觉生成基座模型万相2.1（Wan）正式开源啦。这消息一出来，就像是在平静的湖面上投下了一颗重磅炸弹，瞬间在科技界引起了轩然大波。

阿里万相这次开源，可是诚意满满。它采用了最宽松的Apache2.0协议，14B和1.3B两个参数规格的全部推理代码和权重全部开源。

这就好比是一个慷慨的美食家，把自己精心准备的美味佳肴毫无保留地端了出来，大家可以尽情品尝。

它还支持文生视频和图生视频任务哦。你没听错，只要你有想法，无论是写一段生动的文字描述，还是上传一张创意满满的图片，万相都能像变魔术一样，为你生成炫酷的视频。

说到这，你可能会问，这个万相到底有多厉害呢？那可真是不容小觑。14B万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面那表现，简直可以用“惊艳”来形容。

在权威评测集VBench中，万相2.1以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外模型，稳居榜首位置。这就好比是在一场激烈的赛跑比赛中，它像一阵风一样，把其他选手远远地甩在了后面。

而1.3B版本也毫不逊色，它的测试结果不仅超过了更大尺寸的开源模型，甚至还接近部分闭源模型。这就好比是一个小个子选手，凭借着自己的实力，和那些身材高大的选手一较高下，还取得了不俗的成绩。

更让人惊喜的是，这个1.3B版本能在消费级显卡运行，仅需8.2GB显存就可以生成高质量视频。这对于很多人来说，简直是一个福音。

以后，无论你是专业的AI开发者，还是业余的编程爱好者，甚至是只是对视频生成好奇的小伙伴，都可以用自己电脑里的显卡，体验一下万相的神奇魔力。

阿里万相之所以这么厉害，是因为它的团队在算法设计上可是下了大功夫的。它基于主流DiT架构和线性噪声轨迹Flow Matching范式，研发了高效的因果3D VAE、可扩展的预训练策略等一系列黑科技。

就拿3D VAE来说吧，为了实现高效支持任意长度视频的编码和解码，万相在3D VAE的因果卷积模块中实现了特征缓存机制。

这就好比是在一条繁忙的公路上，增加了一个高效的调度中心，让车辆的通行变得更加顺畅，从而代替了直接对长视频端到端的编解码过程，实现了无限长1080P视频的高效编解码。

而且通过将空间降采样压缩提前，在不损失性能的情况下进一步减少了29%的推理时内存占用。这就像是一个精明的管家，把资源管理得井井有条，让一切都有条不紊地运行。

万相团队的实验结果也充分证明了它的实力。在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中，万相均达到了业界领先表现，并且斩获5项第一。

这就好比是在一场选美比赛中，它凭借自己的才华和魅力，赢得了评委们的一致认可。特别是在复杂运动和物理规律遵循上的表现上大幅提升。

它能稳定展现各种复杂的人物肢体运动，像旋转、跳跃、转身、翻滚等动作，都能做得栩栩如生。还能精准还原碰撞、反弹、切割等复杂真实物理场景，仿佛给虚拟世界装上了真实的物理引擎。

阿里从2023年开始，就坚定地走上了大模型开源路线。就像是一个有远见的探险家，发现了一条充满希望的道路，然后毫不犹豫地带着大家一起前行。

自2023年8月起，阿里云相继开源了Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型，囊括了0.5B、1.5B、3B、7B、14B、32B、72B、110B等全尺寸，大语言、多模态、数学和代码等全模态，多次登上国内外权威榜单，已成为全球开源社区最重要的模型系列。

阿里云千问（Qwen）衍生模型数量已超过10万个，是全球最大的AI模型家族。这一次万相的正式开源，无疑是给这个庞大的AI模型家族注入了新的活力。

从应用角度看，万相模型可以说是“百变精灵”。它可生成影视级高清视频，能应用于影视创作、动画设计、广告设计等领域。

想象一下，你的创意和万相的强大功能相结合，说不定能创造出令人惊叹的作品。就像电影导演们有了一个神奇的助手，能够更加轻松地实现他们的奇思妙想。动画设计师们也能借助万相的力量，让他们的角色和场景更加生动逼真。

随着万相的开源，阿里云也实现了全模态、全尺寸大模型的开源。这就好比是一个商业帝国已经建立了一个全方位的武器库，里面各种强大的武器应有尽有，等待着大家去发掘和利用。

全球的开发者们都可以在Github、HuggingFace和魔搭社区下载体验这个强大的工具，发挥自己的创造力。

对于广大开发者来说，阿里万相正式开源是一个绝佳的机会。你可以参与到这个充满创新和挑战的领域中来，用自己的智慧和代码，探索AI的无限可能。

您的一键三连，是我更新的最大动力，谢谢

山水有相逢，来日皆可期，谢谢阅读，我们再会

我手中的金箍棒，上能通天，下能探海

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2309869.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

纯前端使用 Azure OpenAI Realtime API 打造语音助手

纯前端使用 Azure OpenAI Realtime API 打造语音助手

本文手把手教你如何通过纯前端代码实现一个实时语音对话助手，结合 Azure 的 Realtime API，展示语音交互的未来形态。项目开源地址：https://github.com/sangyuxiaowu/WssRealtimeAPI 1. 背景在这个快节奏的数字时代，语音助手已经…

阅读更多...

基于Windows11的RAGFlow安装方法简介

基于Windows11的RAGFlow安装方法简介

基于Windows11的RAGFlow安装方法简介一、下载安装Docker docker 下载地址 https://www.docker.com/ Download Docker Desktop 选择Download for Winodws AMD64下载Docker Desktop Installer.exe 双点击 Docker Desktop Installer.exe 进行安装测试Docker安装是否成功&#…

阅读更多...

教育强国建设“三年行动计划“分析

教育强国建设“三年行动计划“分析

教育部即将推出的教育强国建设"三年行动计划"中，职业教育板块的部署体现出鲜明的战略导向和创新思维，其核心是通过系统化布局和结构性改革推动职业教育高质量发展。以下从政策内涵、实施路径及潜在影响三个维度展开分析： 一、政策…

阅读更多...

基于Spring Boot+vue的厨艺交流平台系统设计与实现

基于Spring Boot+vue的厨艺交流平台系统设计与实现

大家好，今天要和大家聊的是一款基于Spring Boot的“厨艺交流平台”系统的设计与实现。项目源码以及部署相关事宜请联系我，文末附上联系方式。项目简介基于Spring Boot的“厨艺交流平台”系统设计与实现的主要使用者分为管理员、普通用户和游客。没有…

阅读更多...

GPU、NPU与LPU：大语言模型（LLM）硬件加速器全面对比分析

GPU、NPU与LPU：大语言模型（LLM）硬件加速器全面对比分析

引言：大语言模型计算基础设施的演进随着大语言模型（LLM）的快速发展与广泛应用，高性能计算硬件已成为支撑LLM训练与推理的关键基础设施。目前市场上主要有三类处理器用于加速LLM相关任务：GPU（图形处理单元…

阅读更多...

强化学习-随机近似与随机梯度下降

强化学习-随机近似与随机梯度下降

强化学习-数学理论强化学习-基本概念强化学习-贝尔曼公式强化学习-贝尔曼最优公式强化学习-值迭代与策略迭代强化学习-蒙特卡洛方法强化学习-随机近似于随机梯度下降文章目录强化学习-数学理论一、前言二、再谈mean eatimation2.1 回顾蒙特卡洛法2.2 新角度解决求均值问题2…

阅读更多...

Linux纯命令行界面下SVN的简单使用教程

Linux纯命令行界面下SVN的简单使用教程

诸神缄默不语-个人技术博文与视频目录我用的VSCode插件是这个： 可以在文件中用色块显示代码修改了什么地方，点击色块还可以显示修改内容。文章目录 1. SVN安装2. checkout3. update1. 将文件加入版本控制 4. commit5. 查看SVN信息：info6.…

阅读更多...

python 初学攻略（上）

python 初学攻略（上）

废话写在前面，后面都是干货，这个语言教学到处都是。我这里直接给你搞定所有要用的就好了。环境安装（略） 输出函数print 转义字符二进制与字符编码标识符和保留字变量的定义和使用数据类型整数类型浮点类型布尔类型字符串…

阅读更多...

《基于大数据的相州镇新农村商务数据分析与研究》开题报告

《基于大数据的相州镇新农村商务数据分析与研究》开题报告

目录一、选题依据 1.选题背景 2.国内外研究现状与水平 （1）国外研究现状 （2）国内研究现状 3.发展趋势 4.研究意义二、研究内容 1.学术构思与思路 （1）主要研究内容 (2）拟解决的关键问…

阅读更多...

Linux : 环境变量

Linux : 环境变量

目录一环境变量 1.基本概念二常见环境变量三查看环境变量的方法 1.env:查看系统中所有环境变量 2. echo $NAME 四如何不带路径也能运行的自己的程序 1.将自己的程序直接添加到PATH指定的路径下五环境变量与本地变量 1.本地变量 2. 环境变量六C、C中main()…

阅读更多...

SQL-labs13-16闯关记录

SQL-labs13-16闯关记录

http://127.0.0.1/sqli-labs/less-13/ 基于POST单引号双注入变形 1，依然是一个登录框，POST型SQL注入 2，挂上burpsuite，然后抓取请求，构造请求判断漏洞类型和闭合条件 admin 发生了报错，根据提示闭合方式是(…

阅读更多...

2025-03-04 学习记录--C/C++-PTA 习题5-4 使用函数求素数和

2025-03-04 学习记录--C/C++-PTA 习题5-4 使用函数求素数和

合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。💪🏻 一、题目描述 ⭐️ 二、代码（C语言）⭐️ #include <stdio.h>// 函数声明：判断一个数是…

阅读更多...

Virtuose 6D TAO HF力反馈系统：加强力遥操作主手

Virtuose 6D TAO HF力反馈系统：加强力遥操作主手

Virtuose 6D TAO是一款搭载六主动自由度的力反馈设备，该产品自带被动式夹持器，工作空间大，可与EtherCAT接口通信，是轻松控制从机械臂的首选产品，特别适合工业遥操作、核工业遥操作等应用。产品特点 ▪ 六主动自由度、…

阅读更多...

使用AI后为什么思考会变得困难？

使用AI后为什么思考会变得困难？

使用AI后为什么思考会变得困难？ 我总结了四篇近期的研究论文，来展示AI是如何以及为什么侵蚀我们的批判性思维能力。作者使用AI制作的图像前言：作者在这篇文章中，借AI技术的崛起，揭示了一场悄然发生的思想博弈。表面…

阅读更多...

【Resis实战分析】Redis问题导致页面timeout知识点分析

【Resis实战分析】Redis问题导致页面timeout知识点分析

事故现象：前端页面返回timeout 事故回溯总结一句话： （1）因为大KEY调用量，随着白天自然流量趋势增长而增长，最终在业务高峰最高点期占满带宽使用100%。   （2&#x…

阅读更多...

FlashMLA(DeepSeek开源周，第一个框架)：含源码分析

FlashMLA(DeepSeek开源周，第一个框架)：含源码分析

1. 概述 FlashMLA 是由 DeepSeek 原创开发的一种深度学习框架，专门用于加速多头注意力机制（MLA）架构的推理过程。它通过优化内存管理和计算效率，显著提升了模型在高性能 GPU 上的推理速度。FlashMLA 主要适用于 DeepSeek 的架构模…

阅读更多...

点大商城V2-2.6.6.1全能版源码+最新排队免单插件功能

点大商城V2-2.6.6.1全能版源码+最新排队免单插件功能

一.介绍点大商城V2独立开源版本，版本更新至2.6.6，系统支持多端，前端为UNiapp，多端编译。二.安装环境： Nginx 1.22PHP7.3MySQL 5.7 推荐PHP 7.3（不得大于此版本，否则容易出bug） …

阅读更多...

行为模式---命令模式

行为模式---命令模式

概念命令模式是一种行为设计模式，它的核心思想就是将请求封装为一个对象，此对象包含与请求相关的所有信息。可以用不同的请求对客户进行参数化。命令模式通过将请求的发送者和接收者解耦，支持请求的排队、记录、撤销等操作。使用场景 1、…

阅读更多...

Graph RAG 迎来记忆革命：“海马体”机制让问答更精准！

Graph RAG 迎来记忆革命：“海马体”机制让问答更精准！

随着生成式 AI 技术的快速发展，RAG（Retrieval-Augmented Generation）和 Agent 成为企业应用大模型的最直接途径。然而，传统的 RAG 系统在准确性和动态学习能力上存在明显不足，尤其是在处理复杂上下文和关联性任务时表现不佳。近期，一篇论文提出了 HippoRAG 2，这一新型 R…

阅读更多...

Linux——基本指令

Linux——基本指令

我们今天学习Linux最基础的指令 ls 指令语法： ls [选项] [⽬录或⽂件] 功能：对于⽬录，该命令列出该⽬录下的所有⼦⽬录与⽂件。对于⽂件，将列出⽂件名以及其他信息。命令中的选项，一次可以传递多个 &#xff0c…

阅读更多...

推荐文章

最新文章