本文的方法包含两部分条件,strong semantic and weak spatial conditions,也就是面部图片+landmark图片+text
methods
ID Embedding:使用人脸识别模型或者reid模型提取ID Embedding;
Image Adapter:和ip-adapter类似;
IdentityNet:controlnet,但是有一些变化,1)使用五个人脸关键点two for the eyes, one for the nose, and two for the mouth,2)cross attention只以id embedding作为条件,不包含text embedding;
实验
数据:LAION-face 50million+自收集10million
id embedding使用antelopev2 https://github.com/deepinsight/insightface
萌宠系的小动物配上可爱的 BGM,场景情绪感直接拉满。用 AI 做超萌宠物视频,涨粉确实香, 分享一个有趣的 AI 宠物玩法,使用用 AI 生成超萌动物(水獭),做成宠物互动的场景式,这种视频播…