一、模型介绍
Kolors 是快手 Kolors 团队基于潜在扩散的大规模文本转图片生成模型。经过数十亿个文本-图片对的训练,Kolors 在视觉质量、复杂语义准确性和中英文文本渲染方面均比开源和闭源模型具有显著优势。此外,Kolors 支持中英文输入,在理解和生成中文特定内容方面表现出色。
具有以下特点
- 出色的视觉质量 :Kolors 能够生成具有高分辨率和逼真度的图像。例如在生成自然风光、人物肖像等方面,能够呈现出令人惊艳的效果。
- 复杂语义准确性 :能够准确理解和表达复杂的语义信息,避免生成模糊或错误的图像,当处理包含多个元素和关系的文本描述时,仍能生成符合要求的准确图像。
- 中英文文本渲染能力 :无论是中文还是英文的文本输入,都能有效地转化为高质量的图片,满足不同语言用户的需求。
二、模型搭建流程
1. 创建容器实例
(1)进入算家云的“应用社区”,点击搜索找到"kolors",点击“创建应用”,即可进入容器平台
【注】模型较大,需扩容数据盘
(2)点击进入之后会自动匹配模型,选择显卡,点击“立即创建”即可创建实例
也可以点击”专业创建“,自主选择 GPU 型号、计费方式等配置
2. 启动项目
在“项目实例”页面点击对应实例的“WebShell”,进入终端操作页面
3. 终端操作
进入命令操作页后,输入或者复制粘贴一下命令
【注】模型较大,需扩容数据盘
- 下载模型及进行推理
cd Kolors
conda activate kolors
python d.py #下载模型
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”" #进行推理
下载模型:
进行推理:
- 启动webui
export GRADIO_SERVER_NAME=0.0.0.0
export GRADIO_SERVER_PORT=8080
python3 scripts/sampleui.py #打开页面
如图所示:
注意:模型路径需与推理脚本路径设置一致。
如根据代码行中的路径,脚本路径为
ckpt_dir = '/root/sj-tmp/Kwai-Kolors/Kolors/'
根据需求修改
text_encoder_path = os.path.join(ckpt_dir, 'text_encoder')
vae_path = os.path.join(ckpt_dir, 'vae')
scheduler_path = os.path.join(ckpt_dir, 'scheduler')
unet_path = os.path.join(ckpt_dir, 'unet')
4. 开启外部访问
返回“项目实例”列表,选择并点击对应实例的“更多”-“开放端口”操作。
5. 获取访问地址,并开始使用
打开浏览器,在地址栏 Ctrl+V 粘贴复制的访问地址进行访问,即可开始使用 kolors。
以上就是在算家云搭建 Kolors 的流程,具体使用方式可进入算家云应用社区查看该模型的使用说明。
点击应用社区(suanjiayun.com) ,选择模型,一键开启 AI 之旅!