深度学习落地实战：大模型生成图片

news2026/2/12 19:53:31

前言

大家好，我是机长

本专栏将持续收集整理市场上深度学习的相关项目，旨在为准备从事深度学习工作或相关科研活动的伙伴，储备、提升更多的实际开发经验，每个项目实例都可作为实际开发项目写入简历，且都附带完整的代码与数据集。可通过百度云盘进行获取，实现开箱即用

正在跟新中~

深度学习落地实战_机＿长的博客-CSDN博客

项目背景

大模型生成图片项目利用先进的深度学习技术，特别是基于Transformer结构的大型AI模型，如Stable Diffusion、DALL-E等，实现了从文本描述到高质量图像的自动转换。这些模型通过在海量图像-文本对上进行训练，学会了理解自然语言并据此创作出丰富多样、细节逼真的图像作品。项目旨在打破传统图像创作的界限，让非专业用户也能轻松实现创意可视化，广泛应用于艺术设计、广告营销、游戏开发等领域。通过简单的文字输入，即可激发无限创意，开启图像生成的新纪元。

项目运行环境

平台：windows 10
语言环境：python 3.8
编辑器：PyCharm
PyThorch版本：1.8

1.创建并跳转到虚拟环境

python -m venv myenv

myenv\Scripts\activate.bat

2. 虚拟环境pip命令安装其他工具包

pip install torch torchvision torchaudio

注：此处只示范安装pytorch，其他工具包安装类似，可通过运行代码查看所确实包提示进行安装

3.pycharm 运行环境配置

进入pytcharm =》点击file =》点击settings=》点击Project：...=》点击 Python Interpreter，进入如下界面

点击add =》点击Existing environment =》点击 ... =》选择第一步1创建虚拟环境目录myenv\Scripts\下的python.exe文件点击ok完成环境配置

文心大模型ERNIE-ViLG简介

随着AIGC（人工智能生成内容）技术的兴起，内容生产方式正经历前所未有的变革。文心大模型，作为这一领域的佼佼者，以其高效、精准、定制化的能力，重新定义了内容创造的边界。ERNIE-ViLG作为文心大模型在跨模态文生图领域的杰出代表，展现了从文本到图像的非凡创造力。

ERNIE-ViLG不仅能够理解复杂的文本描述，还能根据这些描述生成逼真、符合要求的图像。无论是风景、人物还是抽象概念，ERNIE-ViLG都能轻松驾驭，为用户带来前所未有的创作体验。通过PaddleHub平台，开发者只需简单几行代码，即可接入ERNIE-ViLG的强大能力，实现图文生成的自动化和智能化。

PaddleHub作为文心大模型的官方应用平台，提供了丰富的预训练模型资源，覆盖了CV、NLP、Audio、Video、工业应用等多个领域。这些模型不仅质量上乘，而且全部开源下载，支持离线运行，大大降低了开发者的使用门槛。此外，PaddleHub还具备一键模型预测、服务化部署、迁移学习等便捷功能，让深度学习模型的应用变得更加简单高效。

总之，文心大模型ERNIE-ViLG的推出，不仅为内容创作者提供了全新的创作工具，也为AI技术的普及和应用开辟了新的道路。

效果说明

宇航员

模型介绍与加载

文心ERNIE-VILG参数规模达到 10g亿，是目前为止全球最大规模中文跨模态生成模型，在文本生成图像、图像描述等跨模态生成任务上效果全球领先，在图文生成领域S-C0C0、C0C0-CN、AIC-ICc 等数据集上取得最好效果。你可以输入一段文本描述以及生成风格，模型就会根据输入的内容自动创作出符合要求的图像。

import paddlehub as hub
from docarray import DocumentArray, Document

ernie_vilg_module = hub.Module(name='ernie_vilg')

模型生成说明

result = erniv_vilg_module.generate_image(text_prompts=text_prompts, style=style, topk=6, output_dir='./output')

参数

text prompts(str):输入的语句，描述想要生成的图像的内容
style(Optional[st]) 生成图像的风格，当前支持'油画’,水彩”,“粉笔画,卡通,儿童画,蜡笔画’。
topk(Optional[int]):保存前多少张图，最多保存10张,
output dir(Optional[str]):保存输出图像的目录，默认为"ernievilg_output”。

返回
images(List(PlL.lmage)):返回生成的所有图像列表，PIL的lmage格式。

五、Prompt 设计原则

text prompts:图像生成内容
style:图像风格

例如text prompts:“山水，亭子，动物”
style:“油画”

完整可运行代码

import paddlehub as hub


# from docarray import DocumentArray, Document


def run(text_prompts='美女', style="油画"):
    erniv_vilg_module = hub.Module(name='ernie_vilg')

    # 古风|油画|水彩画|卡通画|二次元|浮世绘|蒸汽波艺术|low poly|像素风格|概念艺术|未来主义|赛博朋克|写实风格|洛丽塔风格|巴洛克风格|超现实主义

    result = erniv_vilg_module.generate_image(text_prompts=text_prompts, style=style, topk=6, output_dir='./output')

    # DocumentArray([Document().load_pil_image_to_datauri(image) for image in result[:6]]).plot_image_sprites()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1937632.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！