Skywork-MoE,1460亿MoE模型,采用MoE Upcycling技术

news2024/9/21 18:30:21

Skywork-MoE,1460亿MoE模型,采用MoE Upcycling技术

原创 每日发现最新LLM 机器之心SOTA模型 2024年06月04日 18:27 北京

🏆 基座模型

项目名称:Skywork-MoE

图片

★Skywork-MoE是一款千亿模型,具有1460亿参数、16个专家和220亿激活参数的高性能混合专家(MoE)模型。该模型从Skywork-13B模型的密集型checkpoint初始化,采用MoE Upcycling技术,性能接近70B密集模型,而推理成本仅为密集模型1/3。

➡️一键收藏:

https://sota.jiqizhixin.com/project/skywork-moe

项目名称:Nanbeige2-16B-Chat

图片

★Nanbeige2-16B-Chat是Nanbeige实验室开发的最新16B模型,训练阶段使用了4.5T高质量训练数据。在对齐阶段,首先通过监督式微调(SFT)使用了100万样本进行训练,然后通过Curriculum Learning使用了40万高质量、难度更大的样本,最后通过直接偏好优化(DPO)整合了人类反馈。

➡️一键收藏:

https://sota.jiqizhixin.com/project/nanbeige2-16b-chat

③项目名称:DeTikZify

★DeTikZify是一种新颖的多模态语言模型,它能够基于草图和现有图形自动合成保留语义信息的TikZ图形程序。此外,DeTikZify还引入了一种基于MCTS的推理算法,能够迭代地完善其输出,而无需额外的训练。

➡️一键收藏:

https://sota.jiqizhixin.com/project/detikzify

④项目名称:EasyAnimate

★EasyAnimate是一个视频生成框架,用生成高分辨率长视频,基于基于类Sora结构和DIT,使用motion module、u-vit、slice-vae构建。EasyAnimate可生成不同分辨率的视频,以及训练基线模型和Lora模型进行风格转换。目前支持生成最多144帧(768x768, 6秒, 24fps)的视频。

➡️一键收藏:

https://sota.jiqizhixin.com/project/easyanimate

⑤项目名称:V-Express

图片

★腾讯开源V-Express,可以基于图片和音频生成高质量人像视频。该项目通过一系列渐进式的丢弃操作来平衡不同的控制信号,可以在生成视频的同时,有效考虑姿态、输入图像和音频。

➡️一键收藏:

https://sota.jiqizhixin.com/project/v-express

🛠️框架平台、必备工具

①项目名称:ChatTTS-ui

图片

★ChatTTS-ui 可以为最近爆火的TTS(文本转语音)模型ChatTTS,创建web界面。ChatTTS能够将文字直接合成为语音,并支持中英文及数字的混合输入。项目提供API接口,支持Windows、Linux和MacOS平台部署,同时支持GPU加速,提高语音合成效率。

➡️一键收藏:

https://sota.jiqizhixin.com/project/chattts-ui

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1911401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java-Redis-Clickhouse-Jenkins-MybatisPlus-Zookeeper-vscode-Docker-jdbc-xxljob

文章目录 Clickhouse基础实操windows docker desktop 下载clickhousespringboot项目配置clickhouse Redis谈下你对Redis的了解?Redis一般都有哪些使用的场景?Redis有哪些常见的功能?Redis支持的数据类型有哪些?Redis为什么这么快…

初识CPlusPlus

前言 也是好久没写博客了,那些天也没闲着,去练题去了。实际上练题也可以写练题的博客,但是觉得太简单了些,于是就没有继续写下去。如今又回来写博客,是因为有整理了新的知识C。内容不算多,大多数都是书本上…

评估测试用例有效性 5个方面

评估测试用例的有效性是确保软件测试活动能够达到预期目标的关键步骤,有助于测试团队优化测试计划,提高测试效率,减少返工,节省成本。如果缺乏对测试用例的有效性评估,可能会导致测试用例无法覆盖关键功能点&#xff0…

微服务 | Springboot整合Seata+Nacos实现分布式事务

1、分布式事务概念说明 分布式系统会把一个应用系统拆分为可独立部署的多个服务,因此需要服务与服务之间远程协作才能完成事务操作,这种分布式系统环境下由不同的服务之间通过网络远程协作完成事务称之为分布式事务,例如:用户注册…

一站式短视频矩阵开发,高效托管!

短视频矩阵系统源码SaaS解决方案提供全面的开发服务,包括可视化视频编辑、矩阵式内容分发托管以及集成的多功能开发支持。 短视频矩阵:引爆您的数字营销革命 短视频矩阵系统是一套多功能集成解决方案,专为提升在短视频平台上的内容创作、管理…

[C++] 由C语言过渡到C++的敲门砖

命名空间 在C/C中,变量、函数和后⾯要学到的类都是⼤量存在的,这些变量、函数和类的名称将都存在于全局作⽤域中,可能会导致很多冲突。使⽤命名空间的⽬的是对标识符的名称进⾏本地化,以避免命名冲突或名字污染 。 在同一个工程中…

【matlab】周期性信号分析

目录 信号预处理 周期性特征提取方法 频谱分析 傅里叶变换 快速傅里叶变换(FFT) 周期图法 Welch法 自相关分析 时频分析 基于模型的方法 时间序列分解 应用实例 提取信号的周期性特征是一个在信号处理领域广泛应用的技术,特别是在…

深入解析【C++ list 容器】:高效数据管理的秘密武器

目录 1. list 的介绍及使用 1.1 list 的介绍 知识点: 小李的理解: 1.2 list 的使用 1.2.1 list 的构造 知识点: 小李的理解: 代码示例: 1.2.2 list 迭代器的使用 知识点: 小李的理解&#xff1…

了解Adam和RMSprop优化算法

优化算法是机器学习和深度学习模型训练中至关重要的部分。本文将详细介绍Adam(Adaptive Moment Estimation)和RMSprop(Root Mean Square Propagation)这两种常用的优化算法,包括它们的原理、公式和具体代码示例。 RMS…

学习测试6-Linux基本命令

工具 xshell 远程连接工具官方链接 VMware 虚拟机官方链接 openSUSE 操作系统 操作系统工具 MobaXterm远程终端工具 开源中文版 Linux系统 Linux发行版本:Redhat 、Fedora、CentOS属红帽子系 ubuntu发音:乌班图 (汽车领域比较多),SUSE发音:素泽尔 Deb…

【Unity2D 2022:Canvas】制作NPC

一、创建NPC角色 1. 创建JambiNPC并同时创建Jambi站立动画 (1)点击第一张图片,按住shift不松,再选中后两张图片,拖到层级面板中 (2)将动画资源文件保存到Animation Clips文件夹中 (…

策划人必读:一场关于创意与市场的深度对话

活动策划、市场推广、品牌策划、营销策划,这四者在企业营销战略中各有侧重,但又相互促进;各有千秋,但又紧密相连,共同推动着企业的成长。 下面就来一一拆解,看看它们之间是怎么互相作用,打造出…

【方法】如何打开设置了密码的ZIP文件?

对于重要的ZIP文件,很多人会设置密码保护,那要如何打开设置了密码的ZIP文件呢?今天我们一起来看下,在记得密码和忘记密码的情况下,如何打开ZIP文件。 情况1: 如果知道ZIP文件原本设置的密码,我…

【2024——CUMCM】Matlab快速入门

目录 常识 disp and input 字符串合并 sum 提取矩阵指定位置的元素 指定行列 指定行or指定列(返回行/列向量) 指定某些行 指定全部元素,按列拼接 size repmat 矩阵的运算 基本运算 形状相同的矩阵运算 每个元素同时和常数相乘或相…

【IMU】 温度零偏标定

温度标定 IMU的零偏随着温度的变化而变化,在全温范围内形状各异,有些可能是单调的,有些可能出现拐点。 多项式误差温度标定 目的是对估计的参数进行温度补偿,获取不同温度时的参数值(零偏、尺度、正交)&…

关于10G光模块中SR, LR, LRM, ER 和 ZR的区别?

在10Gbps(10千兆比特每秒)光模块中,SR、LR、LRM、ER 和 ZR 是用来描述不同类型的模块及其适用的传输距离和光纤类型。下面是这些缩写的详细解释: 1.SR (Short Range) 2.LR (Long Range) 3.LRM (Long Reach Multimode) 4.ER (E…

移除元素的讲解,看这篇就够了!

一:题目 博主本文将用指向来形象的表示下标位的移动。 二:思路 1:两个整形,一个start,一个end,在一开始都 0,即这里都指向第一个元素。 2:在查到val之前,查一个&…

[数仓]七、离线数仓(PrestoKylin即席查询)

第1章 Presto 1.1 Presto简介 1.1.1 Presto概念 1.1.2 Presto架构 1.1.4 Presto、Impala性能比较 Presto、Impala性能比较_presto和impala对比-CSDN博客 测试结论:Impala性能稍领先于Presto,但是Presto在数据源支持上非常丰富,包括Hive、图数据库、传统关系型数据库、Re…

CentOS 8升级gcc版本

1、查看gcc版本 gcc -v发现gcc版本为8.x.x,而跑某个项目的finetune需要gcc-9,之前搜索过很多更新gcc版本的方式,例如https://blog.csdn.net/xunye_dream/article/details/108918316?spm1001.2014.3001.5506,但执行指令 sudo yu…

FastAPI是一个现代、快速(高性能)的Web框架

FastAPI是一个现代、快速(高性能)的Web框架,专门用于构建基于Python的API。以下是对FastAPI的详细介绍: 一、基本概述 定义与用途:FastAPI是一个开源项目,基于Starlette和Pydantic库构建而成,…