Skywork-MoE，1460亿MoE模型，采用MoE Upcycling技术

news2026/2/13 23:19:56

Skywork-MoE，1460亿MoE模型，采用MoE Upcycling技术

原创每日发现最新LLM 机器之心SOTA模型 2024年06月04日 18:27 北京

🏆 基座模型

①项目名称：Skywork-MoE

★Skywork-MoE是一款千亿模型，具有1460亿参数、16个专家和220亿激活参数的高性能混合专家（MoE）模型。该模型从Skywork-13B模型的密集型checkpoint初始化，采用MoE Upcycling技术，性能接近70B密集模型，而推理成本仅为密集模型1/3。

➡️一键收藏：

https://sota.jiqizhixin.com/project/skywork-moe

②项目名称：Nanbeige2-16B-Chat

★Nanbeige2-16B-Chat是Nanbeige实验室开发的最新16B模型，训练阶段使用了4.5T高质量训练数据。在对齐阶段，首先通过监督式微调（SFT）使用了100万样本进行训练，然后通过Curriculum Learning使用了40万高质量、难度更大的样本，最后通过直接偏好优化（DPO）整合了人类反馈。

➡️一键收藏：

https://sota.jiqizhixin.com/project/nanbeige2-16b-chat

③项目名称：DeTikZify

★DeTikZify是一种新颖的多模态语言模型，它能够基于草图和现有图形自动合成保留语义信息的TikZ图形程序。此外，DeTikZify还引入了一种基于MCTS的推理算法，能够迭代地完善其输出，而无需额外的训练。

➡️一键收藏：

https://sota.jiqizhixin.com/project/detikzify

④项目名称：EasyAnimate

★EasyAnimate是一个视频生成框架，用生成高分辨率长视频，基于基于类Sora结构和DIT，使用motion module、u-vit、slice-vae构建。EasyAnimate可生成不同分辨率的视频，以及训练基线模型和Lora模型进行风格转换。目前支持生成最多144帧（768x768, 6秒, 24fps）的视频。

➡️一键收藏：

https://sota.jiqizhixin.com/project/easyanimate

⑤项目名称：V-Express