3张照片打造专属形象!酷蛙FaceChain解密个人写真开源项目,人人AIGC!

news2024/11/24 19:00:14

一、背景说明

各类AI写真软件由于其精准的个人形象+精美的生成效果引爆了朋友圈传播,证件照满足了用户刚需,古装照等风格照满足了用户“美照”的需求。

酷蛙FaceChain开源项目团队推出了开源版本,希望结合开源社区开发者的力量,可以让图片应用更有趣、更好玩、也有更多应用场景。该开源项目短短几天内,star数已经突破500。欢迎大家点击链接(能按照到本地体验,如果觉得好的可以点个star,你们的鼓励是我们最大的动力,我们将不断推陈出新,扩展应用):https://github.com/modelscope/facechain。在线体验,魔搭社区创空间体验环境:人物写真生成。

二、效果展示

商务证件照生成案例如下(已经过授权~)

输入:

输出:

三、原理讲解(重点来了!)

这一部分我们为大家揭秘个人写真模型的核心技术点。

个人写真模型流程图

1、基本原理:

个人写真模型的能力来源于Stable Diffusion模型的文生图功能,输入一段文本或一系列提示词,输出对应的图像。我们考虑影响个人写真生成效果的主要因素:写真风格信息,以及用户人物信息。为此,我们分别使用线下训练的风格LoRA模型和线上训练的人脸LoRA模型以学习上述信息。LoRA是一种具有较少可训练参数的微调模型,在Stable Diffusion中,可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到LoRA模型中。因此,个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于微调Stable Diffusion模型的图像与文本标签数据,得到人脸LoRA模型;推断阶段基于人脸LoRA模型和风格LoRA模型生成个人写真图像。

2、训练阶段:

输入:用户上传的包含清晰人脸区域的图像

输出:人脸LoRA模型

描述:首先,我们分别使用基于朝向判断的图像旋转模型,以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像,得到包含正向人脸的图像;接下来,我们使用人体解析模型和人像美肤模型,以获得高质量的人脸训练图像;随后,我们使用人脸属性模型和文本标注模型,结合标签后处理方法,产生训练图像的精细化标签;最后,我们使用上述图像和标签数据微调Stable Diffusion模型得到人脸LoRA模型。

3、推断阶段:

输入:训练阶段用户上传图像,预设的用于生成个人写真的输入提示词

输出:个人写真图像

描述:首先,我们将人脸LoRA模型和风格LoRA模型的权重融合到Stable Diffusion模型中;接下来,我们使用Stable Diffusion模型的文生图功能,基于预设的输入提示词初步生成个人写真图像;随后,我们使用人脸融合模型进一步改善上述写真图像的人脸细节,其中用于融合的模板人脸通过人脸质量评估模型在训练图像中挑选;最后,我们使用人脸识别模型计算生成的写真图像与模板人脸的相似度,以此对写真图像进行排序,并输出排名靠前的个人写真图像作为最终输出结果。

附(流程图中模型链接):

[1]  人脸检测+关键点模型DamoFD:https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damof

[2]  图像旋转模型:创空间内置模型

[3]  人体解析模型M2FP:M2FP多人人体解析

[4]  人像美肤模型ABPN:ABPN人像美肤

[5]  人脸属性模型FairFace:人脸属性识别模型FairFace

[6]  文本标注模型Deepbooru:https://github.com/KichangKim/DeepDanbooru

[7]  模板脸筛选模型FQA:人脸质量模型FQA

[8]  人脸融合模型:图像人脸融合

[9]  人脸识别模型RTS:人脸识别OOD模型

四、直播回放

搜索揭秘酷蛙FaceChain开源项目:3张照片打造AI个人写真

【联播渠道】

  • 魔搭ModelScope社区视频号

  • 阿里云视频号

  • 阿里达摩院扫地僧视频号

五、开源招募

酷蛙FaceChain项目已开源,我们计划后续联合开源社区的力量不断打磨该开源项目,解锁更多高阶玩法,进行更深层次的算法创新,并发表相应顶会论文。如果你对该开源项目感兴趣,对该开源项目的未来有憧憬与信仰,想一起搞点事情,欢迎扫码加入:

初步需要打磨的模块如下:

1.)更多写真风格lora模型训练

2.)自适应基模+多lora融合模块探索

3.)专业的face prompt模型训练

4.)专业的SD人物写真基模训练

5.)人物属性的更多prompt探索

6.)swap face模块的打磨优化

7.)女性专业美颜后处理模块探索

8.)高阶应用探索:(例如:表情包、人物动态视频、游戏角色设计、影视动画角色设计等)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/874762.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux之openoffice安装

一、openoffice简介 OpenOffice是一个开源的办公软件套件,包含了文本编辑器、电子表格、演示文稿、数据库和绘图等应用程序。它可以在多个操作系统上运行,包括Windows、Mac OS X和Linux等。OpenOffice的目标是提供一个完全免费、功能齐全的办公软件套件&…

【LeetCode】【数据结构】栈与队列必刷OJ题

👀樊梓慕:个人主页 🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》 🌝每一个不曾起舞的日子,都是对生命的辜负 目录 前言: 【LeetCode】20.有效的括号(栈的…

1289. 下降路径最小和 II

题目描述: 给你一个 n x n 整数矩阵 grid ,请你返回 非零偏移下降路径 数字和的最小值。 非零偏移下降路径 定义为:从 grid 数组中的每一行选择一个数字,且按顺序选出来的数字中,相邻数字不在原数组的同一列。 示例&am…

企业级备份 - 让您的数据安全防线坚韧如山

产品定义 数据威胁无处不在,不论数据处于何地,以何种形态体现,数据安全都至关重要。备份作为数据安全的最后一道防线,需要慎之又慎。针对数据备份与恢复的企业级应用,联想凌拓 (Lenovo NetApp) 与华睿泰 (Veritas) 共同…

【C++】速识string

一、创建string对象 1、文档 2、常用 并不是所有的用法都需要熟记于心,我们只需记住常用的即可,对于并不常用的,我们可以在用到的时候查看文档学习使用。 void Test1() {string s1;string s2("Hello World");s1 "Hello …

Android 10.0 禁止二次展开QuickQSPanel设置下拉QSPanel高度

1.前言 在10.0的系统定制化需求中,在进行systemui的ui定制开发中,有些需要对原生systemui下拉状态栏中的二次展开QSPanel修改成 一次展开禁止二次展开,所以就需要修改QuickQSpanel的高度,然后在QuickQsPanel做定制,然后禁止二次展开就可以了 如图: 2.禁止二次展开Quic…

ubuntu下FFmpeg安装和使用以及CMakeLists.txt模板

sudo apt install ffmpeg sudo apt-get install libavfilter-devcmakelist模板 CMakeLists.txt cmake_minimum_required(VERSION 3.16) project(ffmpeg_demo)# 设置ffmpeg依赖库及头文件所在目录,并存进指定变量 set(ffmpeg_libs_DIR /usr/lib/x86_64-linux-gnu) …

【Windows 常用工具系列 7 -- 禁用win10自带的微软输入法】

文章目录 1.1 输入法配置 1.1 输入法配置 首先建议采用搜狗输入法,这个更符合中国人的输入习惯,强烈建议删除微软自带的中文输入法,删除方式见: 点击电脑主屏幕左下角开始图标,选择设置: 选择“时间和语…

AutoxJS脚本保姆级教程

目录 引言 准备工作 脚本开发 邮件提示(不使用邮件推送的可以跳过这步) 节假日判断(不需要判断节假日的可以跳过) 问题及技巧归总 JS语法错误:软件更新 按钮或组件无法找到 使用定时器等待组件出现 root环境下…

Scratch 之 单个角色模糊特效

想给单独一个角色用模糊特效,怎么办!!! 完全不用慌,最近,我做出了超好用的个体模糊特效,用起来超级简单,接下来进入讲解。 1.原理 前几天,我闲来无事,摘下眼镜…

【2023年11月第四版教材】《第4章-信息系统管理之管理要点(第四版新增章节)(第二部分)》

信息系统管理之管理要点(第四版新增章节)(第二部分) 2 管理要点2.1 数据管理能力成熟度评估模型DCMM详细表格简要表格 2.2 组织的管理成熟度2.3 能力模型2.4 智能运维能力框架2.5 安全保护等级 2 管理要点 2.1 数据管理能力成熟度…

华为云classroom赋能--Devstar使应用开发无需从零开始

华为云DevStar为开发者提供业界主流框架代码初始化能力,通过GUI、API、CLI等多种方式,将按模板生成框架代码的能力推送至用户桌面。同时基于华为云服务资源、成熟的DevOps开发工具链和面向多场景的众多开发模板,提供一站式创建代码仓、自动生…

js的练习

这里写目录标题 工具代码运行结果 工具 HBuilder X 代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title><script>window.onload function() // 需要在body加载完成之后&#xff0c;才能通过docu…

HCIP BGP小综合

BGP小综合 AS配置AS1AS2 中的小自治系统64512AS2 中的小自治系统64513AS3 测试 首先该实验分成三个AS&#xff0c;AS2里面有联邦&#xff0c;所以配置顺序 要先将IBGP通&#xff0c;然后配置AS1,AS3和联邦 AS配置 AS1 R1 # bgp 1router-id 1.1.1.1peer 12.1.1.2 as-number …

C++ 网络编程项目fastDFS分布式文件系统(二)-redis部分

目录 1. 数据库类型 1.1 基本概念 1.2 关系/非关系型数据库搭配使用 2. Redis 2.1 基本知识点 2.2 redis常用命令 - String类型 - List类型 - Set类型 - SortedSet 类型 - Hash类型 Key 相关的命令 2.3 redis配置文件 2.4 redis数据持久化 3 hiredis的使用 1. 数据…

人类:我觉得1+1=956446,你觉得呢?大模型:啊对对对

大模型太「听话」了怎么办&#xff1f; 大型语言模型&#xff08;LLM&#xff09;的自然语言理解与生成能力一直备受称赞&#xff0c;特别是 ChatGPT 等对话式语言模型能够与人类流畅、自然地进行多轮对话。然而&#xff0c;最近一篇 Google DeepMind 的论文研究发现 LLM 普遍存…

FPGA GTP全网最细讲解 aurora 8b/10b协议OV5640摄像头视频传输 提供2套工程源码和技术支持

目录 1、前言免责声明 2、我这里已有的 GT 高速接口解决方案3、GTP 全网最细解读GTP 基本结构GTP 发送和接收处理流程GTP 的参考时钟GTP 发送接口GTP 接收接口GTP IP核调用和使用 4、设计思路框架OV5640摄像头配置及采集视频数据组包GTP aurora 8b/10b数据对齐视频数据解包图像…

WinCC V7.5 中的C脚本对话框不可见,将编辑窗口移动到可见区域的具体方法

WinCC V7.5 中的C脚本对话框不可见&#xff0c;将编辑窗口移动到可见区域的具体方法 由于 Windows 系统更新或使用不同的显示器&#xff0c;在配置C动作时&#xff0c;有可能会出现C脚本编辑窗口被移动到不可见区域的现象。 由于该窗口无法被关闭&#xff0c;故无法进行进一步…

WebRTC音视频通话-RTC直播本地视频及相册视频文件

WebRTC音视频通话-RTC直播本地视频及相册视频文件 WebRTC音视频通话-RTC直播本地视频文件效果图如下 WebRTC音视频通话-RTC直播本地视频文件时候&#xff0c;用到了AVPlayer、CADisplayLink。 一、通过AVPlayer播放本地视频 AVPlayer是什么&#xff1f; AVPlayer是基于AV…

进程间的通信

进程的通信&#xff0c;光是听概念就知道这是一个非常重要的知识点&#xff0c;但是之前学习的概念其实都无法实现真正意义上的进程间的通信&#xff1a; 子进程调用exit或Exit或_exit&#xff0c;然后父进程通过wait可以知道其状态&#xff0c;这虽然实现了消息的传递&#x…