【国产AI绘图】快手把“可图”大模型开源了，这是一款支持中文的SDXL模型

news2025/4/16 15:34:27

Kolors 是由 Kuaishou Kolors 团队（快手可图）开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿对文本图像的训练，Kolors 在视觉质量、复杂语义的准确性以及中英文字符的文本渲染方面，与开源和专有模型相比都具有显著优势。此外，Kolors 还支持中文和英文输入，在理解和生成中文特定内容方面表现出色。更多详情，请参阅本技术报告。

在这里插入图片描述

在SD3中采用了T5来实现文本和图像之间的转换，而在Kolors中则采用清华智普的ChatGLM来实现中英文的能力。同时相较于腾讯的混元大模型采用DiT的架构，它则继续沿用sdxl的vae架构，估计DreamBooth和Lora稍加修改就可以适配它的微调

人工评估

在人工评估方面，我们邀请了 50 位图像专家对不同模型生成的结果进行比较评估。专家们根据三个标准对生成的图像进行评分：视觉吸引力、文本忠实度和总体满意度。在评估中，Kolors 的总体满意度得分最高，在视觉吸引力方面也明显领先于其他模型。

Model	总体满意度平均值	视觉效果平均值	文字忠实度平均值
Adobe-Firefly	3.03	3.46	3.84
Stable Diffusion 3	3.26	3.50	4.20
DALL-E 3	3.32	3.54	4.22
Midjourney-v5	3.32	3.68	4.02
Playground-v2.5	3.37	3.73	4.04
Midjourney-v6	3.58	3.92	4.18
Kolors	3.59	3.99	4.17

机器评估

我们使用 KolorsPrompts 的 MPS（多维人类偏好分数）作为机器评估的评价指标。Kolors 获得了最高的 MPS 分数，这与人工评估的结果一致。

Models	Overall MPS
Adobe-Firefly	8.5
Stable Diffusion 3	8.9
DALL-E 3	9.0
Midjourney-v5	9.4
Playground-v2.5	9.8
Midjourney-v6	10.2
Kolors	10.3

在这里插入图片描述

Quick Start

要求

Python 3.8 或更高版本
PyTorch 1.13.1 或更高版本
Transformers 4.26.1 或更高版本
建议使用CUDA 11.7 或更高版本

版本库克隆和依赖安装：

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install

Weights 下载：

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

或

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

推理

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图”"
# 图片将保存至 "scripts/outputs/sample_test.jpg"

本地测试结果
在这里插入图片描述
感谢大家花时间阅读我的文章，你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容，请多多关注我的动态！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1903822.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！