Kolors 是由 Kuaishou Kolors 团队(快手可图)开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿对文本图像的训练,Kolors 在视觉质量、复杂语义的准确性以及中英文字符的文本渲染方面,与开源和专有模型相比都具有显著优势。此外,Kolors 还支持中文和英文输入,在理解和生成中文特定内容方面表现出色。更多详情,请参阅本技术报告。
在SD3中采用了T5来实现文本和图像之间的转换,而在Kolors中则采用清华智普的ChatGLM来实现中英文的能力。同时相较于腾讯的混元大模型采用DiT的架构,它则继续沿用sdxl的vae架构,估计DreamBooth和Lora稍加修改就可以适配它的微调
人工评估
在人工评估方面,我们邀请了 50 位图像专家对不同模型生成的结果进行比较评估。专家们根据三个标准对生成的图像进行评分:视觉吸引力、文本忠实度和总体满意度。在评估中,Kolors 的总体满意度得分最高,在视觉吸引力方面也明显领先于其他模型。
Model | 总体满意度平均值 | 视觉效果平均值 | 文字忠实度平均值 |
---|---|---|---|
Adobe-Firefly | 3.03 | 3.46 | 3.84 |
Stable Diffusion 3 | 3.26 | 3.50 | 4.20 |
DALL-E 3 | 3.32 | 3.54 | 4.22 |
Midjourney-v5 | 3.32 | 3.68 | 4.02 |
Playground-v2.5 | 3.37 | 3.73 | 4.04 |
Midjourney-v6 | 3.58 | 3.92 | 4.18 |
Kolors | 3.59 | 3.99 | 4.17 |
机器评估
我们使用 KolorsPrompts 的 MPS(多维人类偏好分数)作为机器评估的评价指标。Kolors 获得了最高的 MPS 分数,这与人工评估的结果一致。
Models | Overall MPS |
---|---|
Adobe-Firefly | 8.5 |
Stable Diffusion 3 | 8.9 |
DALL-E 3 | 9.0 |
Midjourney-v5 | 9.4 |
Playground-v2.5 | 9.8 |
Midjourney-v6 | 10.2 |
Kolors | 10.3 |
Quick Start
要求
- Python 3.8 或更高版本
- PyTorch 1.13.1 或更高版本
- Transformers 4.26.1 或更高版本
- 建议使用CUDA 11.7 或更高版本
版本库克隆和依赖安装:
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
Weights 下载:
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
或
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
推理
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
# 图片将保存至 "scripts/outputs/sample_test.jpg"
本地测试结果
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!