社区供稿 | FaceChain 开源项目原理解析

news2024/9/26 5:18:09

一、背景说明

各类 AI 写真软件由于其精准的个人形象+精美的生成效果引爆了朋友圈传播,证件照满足了用户刚需,古装照等风格照满足了用户“美照”的需求。

FaceChain 是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低三张照片即可获得独属于自己的个人形象数字替身。FaceChain 支持在 Gradio 的界面中使用模型训练和推理能力,也支持资深开发者使用 Python 脚本进行训练推理。同时,FaceChain 欢迎开发者对本Repo进行继续开发和贡献。该项目开源 2 周,star 数近 4K,欢迎大家点击链接体验。

GitHub 开源地址:
https://github.com/modelscope/facechain 
(觉得好用,star 起来~~)

HuggingFace Space体验地址:

https://huggingface.co/spaces/modelscope/FaceChainhttps://huggingface.co/spaces/modelscope/FaceChainhttps://

3754b283ea998428e75c98ae82aac6d9.png 78a04c75dd15b48a1c0f936116bdaedc.png

二、功能特性

一个 ID 多个风格形象写真一键体验:

b9f25ee234d03f10fe0a1fd41b8dcb8d.png

现成风格模型即插即用,支持用户在训练时选择不同的风格模型,以生成不同风格的个人数字形象,下图为凤冠霞帔风格模型 xiapei lora model 示例,更多优质风格lora模型,可以参考 Civitai:

示例地址: 
https://www.liblibai.com/modelinfo/f746450340a3a932c99be55c1a82d20c

Civitai 网址: 
https://civitai.com/

99749a8c3df2a1eba6a71b0a1d25b79b.png

个性化 prompt,支持用户增加个性化的 prompt,实现变装等效果,如下图,服饰选择提示词: The lord of the rings, ELF, Arwen Undomiel, beautiful, upper_body, best quality, Professional

723e5a0d5180b73f95bddbe9d646a7e9.png

其他功能 ongoing:

  • 基于 ControlNet 或 Composer 等方式,支持指定 poses

  • 增加个性化美颜特效模块

  • 基模升级,SD 1.5 升级为 SDXL

  • 兼容 WebUI 使用

三、算法介绍

基本原理

个人写真模型的能力来源于 Stable Diffusion 模型的文生图功能,输入一段文本或一系列提示词,输出对应的图像。我们考虑影响个人写真生成效果的主要因素: 写真风格信息,以及用户人物信息。为此,我们分别使用线下训练的风格 LoRA 模型和线上训练的人脸 LoRA 模型以学习上述信息。LoRA 是一种具有较少可训练参数的微调模型,在 Stable Diffusion 中,可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到 LoRA 模型中。因此,个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于微调 Stable Diffusion 模型的图像与文本标签数据,得到人脸 LoRA 模型; 推断阶段基于人脸 LoRA 模型和风格 LoRA 模型生成个人写真图像。

be8559306e94d60eb79708d4a0e5a6fb.png

训练阶段

输入: 用户上传的包含清晰人脸区域的图像
输出: 人脸 LoRA 模型

描述: 首先,我们分别使用基于朝向判断的图像旋转模型,以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像,得到包含正向人脸的图像; 接下来,我们使用人体解析模型和人像美肤模型,以获得高质量的人脸训练图像; 随后,我们使用人脸属性模型和文本标注模型,结合标签后处理方法,产生训练图像的精细化标签; 最后,我们使用上述图像和标签数据微调 Stable Diffusion 模型得到人脸 LoRA 模型。

推理阶段

输入: 训练阶段用户上传图像,预设的用于生成个人写真的输入提示词
输出: 个人写真图像

描述:首先,我们将人脸 LoRA 模型和风格 LoRA 模型的权重融合到 Stable Diffusion 模型中; 接下来,我们使用 Stable Diffusion 模型的文生图功能,基于预设的输入提示词初步生成个人写真图像; 随后,我们使用人脸融合模型进一步改善上述写真图像的人脸细节,其中用于融合的模板人脸通过人脸质量评估模型在训练图像中挑选; 最后,我们使用人脸识别模型计算生成的写真图像与模板人脸的相似度,以此对写真图像进行排序,并输出排名靠前的个人写真图像作为最终输出结果。

四、全球开发者邀请

酷蛙 FaceChain 项目已开源,我们计划后续联合开源社区的力量不断打磨该开源项目,解锁更多高阶玩法 (比如人物表情包、人物连环画故事、虚拟试衣间……),并进行更深层次的算法创新,发表相应顶会论文。如果你对该开源项目感兴趣,对该开源项目的未来有憧憬与信仰,欢迎报名加入。

8327a03b096b3b766b9415bdb5d74798.png

点击 阅读原文 即可报名~



本文转载自社区供稿内容,不代表官方立场。了解更多,请关注知乎“ModelScope小助理”。

如果你有好的文章希望通过我们的平台分享给更多人,请通过这个链接与我们联系: 

https://hf.link/tougao

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/934719.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

十五、pikachu之CSRF

文章目录 一、CSRF概述二、CSRF实战2.1 CSRF(get)2.2 CSRF之token 一、CSRF概述 Cross-site request forgery 简称为“CSRF”,在CSRF的攻击场景中攻击者会伪造一个请求(这个请求一般是一个链接),然后欺骗目标用户进行点击&#xf…

对标 GPT-4?科大讯飞刘庆峰:华为GPU技术能力已与英伟达持平

科大讯飞创始人、董事长刘庆峰在亚布力中国企业家论坛第十九届夏季高峰会上透露了关于自家大模型进展的一些新内容。刘庆峰认为,中国在人工智能领域的算法并没有问题,但是算力方面似乎一直被英伟达所限制。 以往的“百模大战”中,训练大型模型…

mysql下载

网址 MySQL :: Download MySQL Community Serverhttps://dev.mysql.com/downloads/mysql/ 2、选择MSI进行安装 3、这里我选择离线安装 4、这里我选择直接下载 5、等待下载安装即可

改变癌症诊断!梯度提升方法可准确预测癌症患者的生存风险!

一、引言 癌症是全球范围内一种严重的疾病,对人类健康造成了巨大的威胁。据世界卫生组织统计,癌症是全球首要死因之一,每年有数百万人因癌症而丧生 [1]。然而,早期的癌症诊断和治疗非常重要,可以显著提高患者的存活率和…

滑动窗口系列4-Leetcode322题零钱兑换-限制张数-暴力递归到动态规划再到滑动窗口

这个题目是Leecode322的变种,322原题如下: 我们这里的变化是把硬币变成可以重复的,并且只有coins数组中给出的这么多的金币,也就是说有数量限制: package dataStructure.leecode.practice;import java.util.Arrays; i…

ChatGPT癌症治疗“困难重重”,真假混讲难辨真假,准确有待提高

近年来,人工智能在医疗领域的应用逐渐增多,其中自然语言处理模型如ChatGPT在提供医疗建议和信息方面引起了广泛关注。然而,最新的研究表明,尽管ChatGPT在许多领域取得了成功,但它在癌症治疗方案上的准确性仍有待提高。…

华为OD机试 - 完全数计算(Java 2023 B卷 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、Java算法源码五、效果展示六、纵览全局 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(A卷B卷)》。 刷的越多&…

Lalamu-免费视频口型同步工具,创建属于你自己的虚拟数字人

什么是Lalamu? Lalamu 是一款视频口型同步应用程序。该应用程序由 Lalamu Entertainment 开发,允许用户对视频中的任何面孔进行口型同步。无论是人物、人体模型、书籍封面、艺术品、演员、婴儿、蜡像,甚至银行账单上的面孔,Lalamu 都可以让…

FreeSWITCH 1.10.10 简单图形化界面4 - 腾讯云NAT设置

FreeSWITCH 1.10.10 简单图形化界面4 - 腾讯云NAT设置 0、 界面预览1、 查看IP地址2、 修改协议配置3、 开放腾讯云防火墙4、 设置ACL5、 设置协议中ACL,让PBX匹配内外网6、 重新加载SIP模块7、 查看状态8、 测试一下 0、 界面预览 http://myfs.f3322.net:8020/ 用…

尝试自主打造一个有限状态机(二)

前言 上一篇文章我们从理论角度去探索了状态机的定义、组成、作用以及设计,对状态机有了一个基本的认识,这么做有利于我们更好地去分析基于实际应用的状态机,以及在自主设计状态机时也能更加地有条不紊。本篇文章将从状态机的实际应用出发&am…

AI项目四:基于mediapipe的钢铁侠操作(虚拟拖拽)

若该文为原创文章,转载请注明原文出处。 一、介绍 在B站看到使用CVZone进行虚拟物体拖放,模仿钢铁侠电影里的程序操作!_哔哩哔哩_bilibili 是使用CVZone方式实现的,代码教程来源https://www.computervision.zone,感兴趣可以测试…

MathType7.4mac最新版本数学公式编辑器安装教程

MathType7.4中文版是一款功能强大且易于使用的公式编辑器。该软件可与word软件配合使用,有效提高了教学人员的工作效率,避免了一些数学符号和公式无法在word中输入的麻烦。新版MathType7.4启用了全新的LOGO,带来了更多对数学符号和公式的支持…

全国自考02325《计算机系统结构》历年真题试卷及答案 年份:202304

2023 年4 月高等教育自学考试全国统一命题考试 计算机系统结构试题答案及评分参考 (课程代码 02325) 一、选择题:本大题共 10小题,每小题1分 1.D 2.B 3.D 4.A 5.B 6.C 7.D 8.D 9. A 10.C 二、填空题:本大题共 10小题&#xff…

如何加入微信群?微信加群教程,如何加更多的群聊?

微信群是人们交流互动的重要平台之一,加入合适的微信群可以拓宽人脉、获取信息和分享经验。下面小编将分享三个方法,帮助你轻松加入心仪的微信群。 方法一:扫描二维码加入 很多微信群会设置专属的二维码,方便他人加入。当你得到某…

Linux操作系统--shell编程(条件判断)

(1).基本的语法 test condition [ condition ] 注意condition前后要有空格;在使用该种表达式的时候,条件非空即为 true,[ hello ]返回 true,[ ] 返回 false。我们可以通过echo $?来判断上一次执行的情况来判断真假(0真1假)。

详解预处理

全文目录 前言预定义符号#define 定义标识符常量#define 定义宏#define 替换规则# 宏参数转换字符串## 宏参数拼接带有副作用的宏参数 宏与函数的对比#undef 移出宏定义命令行定义条件编译#include 文件包含头文件的包含方式头文件的重复包含 前言 前面我们学习了程序的编译和…

【C语言基础】源文件与头文件详解

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…

Office Tool Plus 使用与激活

Office Tool Plus 一个强大且实用的 Office 部署工具。 可以免费激活使用office各种版本 体验了一下,觉得很不错,我介绍一下我使用的方式: 1.安装软件 访问官网:Office Tool Plus 选择ZIP的包,下载后解压&#xff0c…

Huggingface托管机器学习模型及API提供

推荐:用 NSDT编辑器 快速搭建可编程3D场景 我想在我的网络和移动应用程序中使用机器学习模型,但要做到这一点,我必须在某个地方托管我的机器学习应用程序。 托管预先训练的 ML 模型称为推理。 我只想添加一些 Python ML 代码并快速获得 REST…

一段简单的汇编语言源程序【2】

此文章主要记录代码的编写,编译,连接,调试过程,相关工具的安装和使用介绍在前面的文章中已提供。 主要功能通过栈实现两个数的交换 源代码如下: assume cs:codesg codesg segmentmov ax,2000Hmov ss,axmov sp,0add s…