腾讯宣布混元文生图大模型开源: Sora 同架构,可免费商用

news2025/1/19 20:36:14

5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生图大模型采用了与 sora 一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

评测数据显示,最新的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型;整体能力属于国际领先水平。

自研新一代文生图模型

大模型的优异表现,离不开领先的技术架构。升级后的腾讯混元文生图大模型采用了全新的DiT架构(DiT,即Diffusion With Transformer),这也是Sora和 Stable Diffusion 3 的同款架构和关键技术,是一种基于Transformer架构的扩散模型。

过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量的提升,基于 Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。从 2023 年 7 月起,腾讯混元文生图团队就明确了基于DiT架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为DiT架构。

在DiT架构之上,腾讯混元团队在算法层面优化了模型的长文本理解能力,能够支持最多 256 字符的内容输入,达到行业领先水平。同时,在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。

中文原生也是腾讯混元文生图大模型的一大亮点,此前,像 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够。混元文生图是首个中文原生的DiT模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

全面开源,惠及行业

腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。《央视新闻》《新华日报》《深圳特区报》《南方都市报》《羊城晚报》等20余家媒体,也已经将腾讯混元文生图用于新闻内容生产。

腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。”

基于腾讯此次开源的文生图模型,开发者及企业无需重头训练,即可直接用于推理,并可基于混元文生图打造专属的AI绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也让模型的安全性和可靠性得到保障。

同时,基于开放、前沿的混元文生图基础模型,也有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。

据了解,腾讯在开源上一直持开放态度,已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块,目前在Github上已累计获得超 47 万开发者关注及点赞。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1674229.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

排序1——直接插入排序,希尔排序,选择排序,堆排序

1.排序的概念及其运用 1.1排序的概念 排序:所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。 稳定性:假定在待排序的记录序列中,存在多个具有相同的关键字的记录…

组合商标申请如何风控提高通过率!

最近一个老客户找到普推知产老杨,说要申请注册一个新的商标,是一个组合商标,有图形,两行文字,一行文字的拼音,还有三个字母的简称,组合商标在申请时会进行拆分审查,图形、文字、拼音…

C++干货--引用

前言: C的引用,是学习C的重点之一,它与指针的作用有重叠的部分,但是它绝不是完全取代指针(后面我们也会简单的分析)。 引用的概念: 引用 不是新定义一个变量 ,而 是给已存在变量取了一个别名 &#xf…

Rust学习笔记(中)

前言 笔记的内容主要参考与《Rust 程序设计语言》,一些也参考了《通过例子学 Rust》和《Rust语言圣经》。 Rust学习笔记分为上中下,其它两个地址在Rust学习笔记(上)和Rust学习笔记(下)。 错误处理 pani…

中北大学软件学院javaweb实验三JSP+JDBC综合实训(一)__数据库记录的增加、查询

目录 1.实验名称2.实验目的3.实验内容4.实验原理或流程图5.实验过程或源代码(一)编程实现用户的登录与注册功能【步骤1】建立数据库db_news2024和用户表(笔者使用的数据库软件是navicat)【步骤2】实现用户注册登录功能(与上一实验报告不同的是&#xff0…

LeetCode2215找出两数组的不同

题目描述 给你两个下标从 0 开始的整数数组 nums1 和 nums2 ,请你返回一个长度为 2 的列表 answer ,其中:answer[0] 是 nums1 中所有 不 存在于 nums2 中的 不同 整数组成的列表。answer[1] 是 nums2 中所有 不 存在于 nums1 中的 不同 整数组…

Kafka基础架构详解

Kafka基础架构 Kafka概述 1. Producer(生产者): 生产者是向 Kafka broker 发送消息的客户端。它负责将消息发布到指定的主题(Topic),并可以选择将消息发送到特定的分区(Partition&#xff09…

vwmare虚拟机迁移磁盘方法

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文整理 虚拟机迁移磁盘的方法 简单方便快上手 当前目标 当前迁移文件: 当前位置: 目的地: e盘虚拟机文件夹 迁移到当前目录。 实际操作 先打开虚拟机的设置,找到这个虚拟机当前的位置…

手机微信备份:防止数据丢失的明智之举

我们通过微信聊天、支付、购物等方式与他人进行交流和互动,而这些聊天记录和文件也成为了我们重要的数据资源。为了防止数据丢失给我们带来的不便和损失,手机微信备份成为了一项非常重要的任务。本文将为您介绍如何有效地备份手机微信数据,确…

windows和 Linux 下通过 QProcess 打开ssh 和vnc

文章目录 SSHSSH验证启动SSH一、口令登录二、公钥登录通过Qprocess 启动ssh VNC Viewer简介通过QProcess启动vncViewer SSH Secure Shell(SSH) 是由 IETF(The Internet Engineering Task Force) 制定的建立在应用层基础上的**安全网络协议**。它是专为远程登录会话(**甚至可以…

centos7安装zabbix-server

zabbixan-server安装 环境安装zabbix安装zabbix配置apachezabbix-UI前端配置修改zabbix为中文语言 环境 准备: centos7系统、mysql数据库/MariaDB数据库 mysql数据库可参照:https://blog.csdn.net/weixin_61367575/article/details/138774428?spm1001.…

网站设计模板简单又好看

在互联网时代,每个企业都需要拥有一个好看又具有吸引力的网站。一个简单却又好看的网站设计模板可以为企业带来许多好处。本文将探讨一些如何设计一个简单又好看的网站模板的技巧。 首先,一个好的网站设计模板应该具备简洁明了的布局。简单的布局能够使用…

有哪些值得买的开放式耳机推荐?2024年开放式运动耳机选购指南

开放式耳机因其独特设计,能在一定程度上保护听力。相较于传统封闭式耳机,开放式设计允许周围环境声音自然流入耳内,降低了耳内共振和声压,减少了耳道的不适感,从而减轻了对听力的潜在损害。对于追求音质与听力保护并重…

项目经理之路:裁员与内卷下的生存策略

作为一名项目经理,身处这个充满挑战与机遇的行业中,今年所面临的裁员潮和内卷化趋势无疑给我的工作带来了前所未有的压力。然而,正是这些压力和挑战,让我们更加深刻地思考了在这个快速变化的时代中,我们项目经理应该如…

【SolidWorks】在零件表面写字、改大小、旋转字的方法

博主在使用SolidWorks建模过程中需要在零件表面写字,并且改变字的大小,必要的时候还要旋转字体,这里就将写字、改字大小、旋转字的方法分享给大家。 1、准备工作。选择要写字的面,并新建草图,在草图模式下编辑。 2、写…

以大开放促进大开发 | 陕西粮农集团携手开源网安引领新时代西部大开发

​5月13日,开源网安与陕西粮农集团成功签署战略合作协议。双方将在网络安全保障体系建设及人才培养领域展开深度合作,共同筑牢陕西省数字经济建设安全屏障。陕西省粮农信息技术有限公司总经理解玮峰、陕西省粮农信息技术有限公司安全事业部负责人马德君、…

银河麒麟V10桌面版分区分析

前言:本文只讨论gpt分区uefi引导形式 ,了解分区方案的目的是方便恢复,还原,扩容等,普通用户使用无需了解这些细节。 先回顾分析windows和ubuntu默认分区用做对比 1、windows11默认分区 win11分区,如上图&am…

Linux - make与makefile

文章目录 什么是make和makefile如何使用依赖关系 和 依赖方法伪目标 写个程序-进度条换行和回车的区别 什么是make和makefile make是一个命令 makefile是一个文件 这就是make和makefile的本质 make和 ll , pwd ,su 一样都是命令 makefile和 test , test.c 一样都是…

内存卡惊现0字节!数据丢失怎么办?

在日常使用电子设备的过程中,有时我们会遇到一个令人困惑的问题——内存卡突然变成了0字节。这意味着原本存储在内存卡中的数据似乎在一夜之间消失得无影无踪,给用户带来极大的困扰。本文将详细解析内存卡0字节现象,探究其原因,并…

prompt工程策略(一:使用 CO-STAR 框架来搭建 prompt 的结构)

原文:我是如何赢得GPT-4提示工程大赛冠军的 为了让 LLM 给出最优响应,为 prompt 设置有效的结构至关重要。CO-STAR 框架是一种可以方便用于设计 prompt 结构的模板。该模板考虑了会影响 LLM 响应的有效性和相关性的方方面面,从而有助于得到更…