一、模型介绍
Kolors 是快手 Kolors 团队基于潜在扩散的大规模文本转图片生成模型。经过数十亿个文本-图片对的训练,Kolors 在视觉质量、复杂语义准确性和中英文文本渲染方面均比开源和闭源模型具有显著优势。此外,Kolors 支持中英文输入,在理解和生成中文特定内容方面表现出色。有关更多详细信息,请参阅此技术报告。
具有以下特点
- 出色的视觉质量 :Kolors 能够生成具有高分辨率和逼真度的图像。例如在生成自然风光、人物肖像等方面,能够呈现出令人惊艳的效果。
- 复杂语义准确性 :能够准确理解和表达复杂的语义信息,避免生成模糊或错误的图像,当处理包含多个元素和关系的文本描述时,仍能生成符合要求的准确图像。
- 中英文文本渲染能力 :无论是中文还是英文的文本输入,都能有效地转化为高质量的图片,满足不同语言用户的需求。
二、部署流程
环境要求:
- Python 3.8 或更高版本
- PyTorch 1.13.1 或更高版本
- Transformers 4.26.1 或更高版本
- 推荐:CUDA 11.7 或更高版本
(1)存储库克隆和安装依赖项
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolorscd Kolors
#创建环境
conda create --name kolors python=3.8
conda activate kolors
#依赖项安装
pip install -r requirements.txt
python3 setup.py install
(2)模型下载
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
或者
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
(3)推理
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
# The image will be saved to "scripts/outputs/sample_text.jpg"
注意:模型路径需与脚本中的一致
三、网页演示
python3 scripts/sampleui.py
进入webui页面如下: