【论文阅读】DeepAC:实时六自由度目标跟踪的深度主动轮廓

news2024/11/27 15:43:24

Deep Active Contour for Real-time 6-DoF Object Tracking

ICCV 2023
Project Page


【Question&Thinking】

  1. 解决的问题?
  • RGB 视频的实时六自由度目标跟踪
  1. 现有的问题?
  2. 提出的方法?
  3. 达到的效果?
  4. 存在的问题?

Abstract

  本文解决了RGB 视频的实时六自由度目标跟踪问题。先前基于优化的方法通过基于手工特征将投影模型与图像对齐来优化物体姿态,这很容易出现次优解决方案。最近的基于学习的方法使用神经网络来预测位姿,但其通用性或计算效率有限。我们提出了一种基于学习的主动轮廓模型,以充分利用这两个方法。
  具体来说,在给定初始姿态的情况下,将目标模型投影到图像平面上以获得初始轮廓,并利用一个轻量级网络预测轮廓应该如何移动以匹配真实目标边界,从而提供梯度来优化目标姿态。我们还设计了一个有效的优化算法,通过姿势监督来端到端训练我们的模型。在半合成和真实世界的6自由度目标跟踪数据集上的实验结果表明,模型在姿势精度方面明显优于最先进的方法,同时在移动设备上实现了实时性能。


1. Introduction

  基于视频的 6-DoF 对象跟踪:在给定预定义对象 CAD 模型和第一帧中的初始姿势的情况下,从 RGB 图像序列跟踪刚性对象的位姿。 在增强现实和机器人操纵到人机交互中具有广泛的应用。这些应用要求跟踪算法是实时的,并且不需要进行对特定对象的训练。
 六自由度目标跟踪对目标姿态进行优化的主要方法:

  •  基于关键点法对包括在二维图像和三维真实模型之间匹配关键点。SIFT [25]、 ORB [30]或 BRISK [19]等关键点特性已经被广泛应用于此类任务中。对丰富纹理的依赖缩小了这些方法的适用性。
  •  基于边缘的跟踪方法[6,33,53,32]依赖于边缘(显式或隐式)来计算两个连续图像之间的相对姿态。这些方法在处理背景杂乱和运动模糊时面临挑战,从而限制了它们的有效性。为了解决这个问题,更新的基于边缘的方法[46,44,14,13,39]进一步结合本地颜色信息,以提高准确性。
  •  基于区域的方法[28,40,41,36]。基本前提是物体区域的颜色统计可以从背景中区分出来。随着近年来的不断进步,基于区域的方法现在能够仅利用无纹理的 3D 模型,即使在噪声和杂乱的图像中也能高效、准确地跟踪对象。
     然而,这些基于优化的方法的一个缺点是需要手工制作的特征经过仔细调整的超参数,这在现实世界的场景中可能不稳健。
  • 基于端到端学习的方法来增强 6-DoF 对象检测和跟踪的鲁棒性。 这些方法回归几何参数,例如相机姿势 [54, 16] 和物体坐标 [3, 12, 45],或采用渲染和比较 [23,15, 55, 24, 48] 策略来迭代地细化位姿。 尽管显示出有希望的结果,但姿势回归方法的准确性有限且泛化性差,而渲染和比较方法的计算成本昂贵且不适用于实时应用。

 本文提出了一种基于学习的主动轮廓模型(DeepAC) 结合传统优化方法和基于学习方法的优点,实现了鲁棒性和实时性。受基于区域的方法 RBGT [35]的启发,DeepAC 将预测轮廓周围的局部区域作为输入,并预测更新轮廓的方向。与依赖于手工特征和统计假设的传统方法不同,采用网络来估计方向,如图1所示。具体来说,该方法提出了一个三相管道。首先,DeepAC 使用带有 MobileNetV2[31]的 FPN-Lite 网络提取当前图像的多级特征,并投影三维对象模型以从最后一帧姿态获取二维轮廓。然后,设计边界预测网络,利用轮廓周围局部区域的特征作为输入,并输出真实边界位置的概率分布。最后,利用基于边界概率的牛顿法对六自由度目标姿态进行优化。优化过程是可微分的网络输出,允许使用地面真实姿态作为监督训练特征提取和边界预测网络,从而消除了手工中间监督的需要。Alt
图1 深活动轮廓线的基本思想。在给定初始目标姿态的情况下,将目标模型投影到图像上,对投影轮廓上的一组点进行采样,利用网络预测每个采样点的真实边界位置沿法线的分布,并对姿态进行优化,使投影轮廓与预测边界对齐。

主要贡献:

  • 一个新颖的基于学习的实时6自由度目标跟踪主动轮廓模型。
  • 根据图像特征进行轮廓演化的轻量级网络,确保鲁棒性和高效性。
  • 一种高效的优化算法,允许对整个流程进行端到端的姿态监控训练。

2. Related Work

2.1 基于关键点的优化

  早期的基于关键点的方法[25,30,19]涉及通过利用局部特征匹配[34,42,18,17]或光流[11,43,27]技术建立2D-3D 相关性。尽管演示了一个显着的性能,这种方法需要存在的纹理对象模型。

2.2 基于边缘的优化

  为了减轻对纹理模型的需求,研究者们转向了基于边缘的方法,这种方法通常依赖于对物体边缘位移的分析。例如,RAPiD [6]通过沿着正交方向在接近投影边缘的地方寻找明显的梯度来估计连续帧之间的相对姿态。为了增强跟踪的稳定性,Si-mon 和 Berger [33]实现了可靠的估计技术,减少了异常值对 RAPiD 优化的影响。进一步的改进包括结合局部颜色信息[32] ,集成用于初始化的粒子过滤器[44,39] ,以及添加用于姿态优化的边缘权重[44,14]。然而,基于边缘的方法在处理背景杂波和运动模糊方面仍然存在困难。

2.3 基于区域的优化

  最近,基于区域的方法在复杂环境下跟踪无纹理物体方面取得了显著的成功。本文的研究工作可以追溯到 PWP3D [28]的工作,它有效地结合了颜色分割统计模型和目标渲染边界距离场来优化目标姿态。随后的工作中的 RBOT 估计[40]和 RBOT 跟踪[41]扩大了这种方法,结合时间一致的本地颜色直方图,以及利用 Gaussian-Newton 方法优化能量函数。RBGT [35]引入了预先计算的多视点稀疏对应线,并建立了一个符合正态分布的概率模型。这允许快速收敛的目标姿态使用牛顿方法。该领域的最新进展 SRT3D [36]引入了平滑步长函数,同时考虑了全局和局部不确定性,比现有方法提供了显著的改进。ICG 方法[37]通过将光栅深度信息与区域统计信息相结合,取得了比几种基于学习的方法更好的性能。然而,由于需要定义多种手工特征和参数,基于区域的目标跟踪性能往往受到影响,这在实际应用中表现出明显的局限性。

2.4 基于学习的方法

  一种方法是直接预测旋转和平移参数,如[54,16]。另一种方法[3,12,45]通过回归对应于每个像素的目标坐标来生成2D-3D 对应,然后用 PnP 求解器估计6-DoF 姿态。然而,准确估计目标的姿态在一个单一的拍摄设置可能是具有挑战性的。为了克服这个问题,各种研究[23,15,55,24,48]已经利用迭代再细化技术,产生更精确的结果。这种方法背后的关键思想涉及一个迭代的“渲染和比较”方案。在每次迭代中,使用当前的目标姿态估计来渲染三维模型,并将渲染后的图像与实际图像进行比较以获得姿态更新,从而改善两者之间的对齐。PoseRBPF [4]训练一个码本来估计粒子过滤器的后验概率,用于实例级的目标跟踪。最近的目标跟踪方法[47,49,50]集成了深度信息,以消除对 CAD 模型的需要。当前基于学习的方法的主要不足之处在于,它们需要使用高端的图形处理器,因此不适合部署在移动应用程序中,例如扩增实境。相反,我们的框架通过将一个轻量级神经网络结合到一个基于优化的方法中来解决这个限制,允许在移动设备上进行快速处理,同时在姿态精度上取得显著的改善


3. Methods

3.1. Overview

  给定一个三维 CAD 模型 M M M,一个图像序列 I k { I_k } Ik和第一帧的初始姿态,该方法采用当前帧的单个 RGB 图像 I k { I_k } Ik和前一帧的姿态 P k − 1 P_{k-1} Pk1迭代恢复当前姿态 P k P_{k} Pk。首先,将三维模型 M M M投影到图像平面上,利用前一个位姿 P k − 1 P_{k-1} Pk1获得二维轮廓,并根据局部区域提取轮廓特征图(3.2节)。然后,利用轮廓特征映射估计边界概率映射(第3.3节)。最后,基于边界概率图对当前姿态 P k P_{k} Pk进行了优化(3.4节)。该方法的概述如图2所示。
alt 图2
图2.提出的方法概述。
1.该方法利用 FPN-Lite CNN 提取当前裁剪帧 I k { I_k } Ik的多级特征 F k { F_k } Fk,并用对应线模型表示轮廓的局部区域。(第3.2节)。
2.轮廓特征映射 F k c F_{k}^{c} Fkc是通过对图像特征映射上的一系列对应线进行采样,然后通过边界预测模块来预测边界位置概率 B k B_k Bk (第3.3节)来建立的。
3.一个可微优化层被用来以一种从粗到细的方式估计姿态 P k P_{k} Pk(第3.4节)

3.2. Contour Feature Map Extraction

  我们使用从前一帧估计的位姿 P k − 1 P_{k-1} Pk1来初始化当前帧的位姿 P k P_{k} Pk。姿态 P P P 定义为 [ R , t ] [ R,t ] [Rt] ,其中 R R R 是三维旋转, t t t 是三维平移。然后对三维模型 M M M 进行投影,获取二维轮廓线,并计算其二维边界框,用于提取裁剪后的图像 I k I_k Ik。三维模型 M M M 由一个三角形网格表示,网格的顶点 X i = [ X i , Y i , Z i ] ∈ R 3 X_ i = [ Xi,Yi,Zi ]∈ R^3 Xi=[XiYiZi]R3,其中 i = 1 , . . , n i = 1,. . ,n i=1..n。利用带有 MobileNetV2[31]的 FPN-Lite 网络从裁剪后的图像 I k I_k Ik 中提取多级特征。该特征映射由 F k ∈ R W s × H s × D s F_k ∈ \begin{aligned}\mathbb{R}^{W_s\times H_s\times D_s}\end{aligned} FkRWs×Hs×Ds表示,表示一系列由粗到精的特征,其中 s 表示水平索引。从粗到精的设计使得图像能够编码更大的空间上下文,从而提高了跟踪精度,特别是在涉及大位移的情况下。我们在图3中可视化多级特征映射。在补充材料中详细介绍了所提出的网络结构。
alt
图3 多级特征映射。不同层次的特征图反映了不同的感受野。主成分分析是用来降低尺寸的特征映射菲克,然后可视化的 RGB 颜色。
  受到 RBGT[35], 的启发,论文使用对应线模型 (Correspondence Line Model) 描述二维轮廓的局部区域。具体来说,对应线模型在二维轮廓上均匀采样若干个二维点,并建立相应的对应线 l i \boldsymbol{l}_{i} li。每条对应线由一个中心点 c i = [ c x i , c y i ] ⊤ ∈ R 2 \mathbf{c}_i=[c_{x_i},c_{y_i}]^\top\in\mathbb{R}^2 ci=[cxi,cyi]R2和一个单位法向量 n i = [ n x i , n y i ] ⊤ ∈ R 2 \mathbf{n}_i=\begin{bmatrix}n_{x_i},n_{y_i}\end{bmatrix}^\top\in\mathbb{R}^2 ni=[nxi,nyi]R2组成,它们通过三维轮廓点 X c i \mathbf{X}_{c_i} Xci及其相关的三维法向量 N c i \boldsymbol{N}_{c_{i}} Nci投影到二维图像平面上得到。通过在特征图 c F k _{c}{F}_{k} cFk上插值采样这些二维点集 (使用 PyTorch 的 grid_sample 函数),可生成轮廓特征图 c t F k ∈ R ( 2 m + 1 ) × n c l × D s \begin{aligned}&_{ct}\mathbf{F}_k\in\mathbb{R}^{(2m+1)\times n_{cl}\times D_s}\end{aligned} ctFkR(2m+1)×ncl×Ds , n c l \mathbf{n}_{c_l} ncl是采样的二维轮廓点的数量。

3.3. Boundary Map Prediction

在这里插入图片描述

3.4. Pose Optimization

在这里插入图片描述
为了最大化该似然估计,本小节采用了迭代牛顿法和 Tikhonov 正则化来优化位姿求解。具体的位姿更新方式如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5. Supervision

在这里插入图片描述
其中,P是 Huber 鲁棒核函数。为了避免困难样例对模型训练产生不利影响,论文采用了条件损失函数:只有在前一次迭代优化后所得的位姿在真实解附近时,才将其纳入损失函数的计算中;如果某次迭代优化后所得的位姿偏离真实解过大,则忽略其对应的损失项。这样可以保证模型只使用可信度高的训练样本。

4. Experiments

1 与基于优化的方法比较

(1)RBOT 数据集

在 RBOT 数据集上,论文采用 5cm−5◦召回率,来评估定位的精度。具体而言,每一帧图像是否被成功定位取决于其平移误差是否小于 5cm 且旋转误差是否小于 5◦。

实验结果表明,在常规、动态光照和场景遮挡下,现有的基于优化的方法已经非常接近性能上限,SRT3D 和 LDT3D 的 5cm−5◦召回率已接近或超过 95%。在这三种情况下,DeepAC 表现出了相似的性能,在常规和动态光照情况下小幅领先,在场景遮挡情况下略微落后。但是,在噪声情况下,所提方法显著优于其他基于优化的方法,5cm−5◦召回率从 83.2% 提高到 88.0%,这一结果证明了 DeepAC 对图像噪声具有较强的鲁棒性。
在这里插入图片描述
(2)BCOT 数据集

论文在 BCOT 数据集上对所提方法进行了实验验证,并采用 ADD-(s) d 和厘米 - 度召回率来评估位姿估计的精度。与在 RBOT 数据集上进行的实验不同,在 BCOT 数据集上,增加了一些更严格的评价指标,即 ADD-0.02d、ADD-0.05d、 ADD-0.1d 以及 2cm−2◦召回率,以评估算法的高精度定位能力。其中,d 表示物体模型 3D 包围盒的最大长度。

实验结果表明,DeepAC 在所有阈值下的 ADD-(s) d 和厘米 - 度召回率均优于其他基于优化的基线方法。特别是,在非常严格的 ADD-(s) d 标准下,所提方法表现出显著的优势,相比于排名第二的 LDT3D,在 ADD-0.02d、ADD-0.05d 和 ADD-0.1d 上分别提高了 9.1 个百分点、14.1 个百分点和 9.6 个百分点。这些结果充分表明了 DeepAC 具有高精度定位的能力。
在这里插入图片描述

(3) OPT 数据集

在 OPT 数据集上,论文先计算不同误差阈值 s 下的 ADD-(s) d 得分,再通过计算曲线下面积 (AUC) 得分来衡量视频序列中物体位姿估计的质量。其中,误差阈值 s 的范围设定为 [0, 0.2]。

下表显示了 DeepAC 在六个物体上均优于当前最先进的基于优化的方法,在 AUC 分数上取得了明显提升。在平均 AUC 分数方面,DeepAC 达到 16.69,比排名第二的方法 SRT3D 高出 6.10%。这些结果表明 DeepAC 在真实场景下具有优异的跟踪能力。 whaosoft aiot http://143ai.com
在这里插入图片描述
2 与基于学习的方法比较

为了验证 DeepAC 模型在不同数据集上具有很好的泛化能力,论文在 RBOT 数据集上与当前最先进的基于学习的方法进行了对比实验。论文选取了除 “Clown” 物体外 (因为其纹理图有误) 所有序列作为测试集,并使用平均 ADD-(s) d 和厘米 - 度召回率作为评估指标。为了与其他基于学习的方法公平比较,所提方法 DeepAC 使用相同的训练数据和方式,并记作 DeepAC−。
在这里插入图片描述

实验结果显示,其他典型的基于学习的方法定位精度远低于 DeepAC,这充分说明了 DeepAC 在不同数据集上具有很强大且稳定的泛化能力。

3 消融分析

论文通过消融实验分析 DeepAC 中三个主要的设计对物体六自由度定位性能的影响,分别是:1) 统计信息融入;2) 多层特征提取;3) 边界不确定性估计。实验在 RBOT 和 BCOT 数据集上进行,并将结果展示在下表。
在这里插入图片描述

应用前景

该研究成果在民用和军事领域都有广泛的应用。在民用领域,该研究可用于强现实、机器人操作和人机交互等众多应用。在军事领域,该研究可用于支持空中无人装备与巡飞弹在复杂光照条件下对目标的多角度实时跟踪与打击。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2201542.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pnpm设置镜像源

# 查询当前使用的镜像源 pnpm get registry# 设置为淘宝镜像源 pnpm config set registry https://registry.npmmirror.com/# 还原为官方镜像源 pnpm config set registry https://registry.npmjs.org/参考链接 https://blog.csdn.net/weixin_45046532/article/details/139681…

谷歌地图服务地址汇总

写在前面&#xff1a; 1.参考自谷歌地图TMS地图服务地址收集&#xff0c;测试可用_谷歌地图url订阅订阅地址-CSDN博客&#xff0c;在这里备份一下&#xff0c;防止遗忘 2.需要翻墙 3.下面通过openlayers加载各风格地图 <!Doctype html> <html> <head><met…

MyBatis之ResultMap的association和collection

association例子演示 实体类演示 Data //书籍 public class Book {private String id;private String name;private String author;private Double price;private Integer del;private Date publishdate;private String info;//把出版社对象当作属性private Publisher pub;//-…

通过Express + Vue3从零构建一个用户认证与授权系统(二)数据库与后端项目搭建与实现

前言 上一篇完成了系统的相关设计文档的编写&#xff0c;本文将详细介绍如何一步步使用 TypeScript 和 Express 搭建一个模块化、类型安全的用户认证与授权系统&#xff0c;包括数据库设计、后端项目搭建、用户认证、角色与权限管理、错误处理以及 Swagger 文档集成。 项目准…

Solidity优质例子(二)物流的增删改查智能合约(附truffle测试)

本合约非常适合新手学习&#xff0c;其包含了基本的增删改查功能以及各个方式的不同之处的总结&#xff0c;本套合约我也编写了truffle测试&#xff0c;学习truffle测试的小伙伴也有福了~ 该合约的主要作用是通过区块链技术实现物流追踪系统的透明化、自动化与防篡改特性&#…

windows C++-移除界面工作线程(一)

本文档演示了如何使用并发运行时将 Microsoft 基础类 (MFC) 应用程序中由用户界面 (UI) 线程执行的工作移动到工作线程。 本文档还演示了如何提高冗长绘制操作的性能。 通过将阻塞性操作&#xff08;例如&#xff0c;绘制&#xff09;卸载到工作线程来从 UI 线程中移除工作&am…

Python爬虫使用示例-古诗词摘录

一、分析需求 目标地址&#xff1a; https://www.sou-yun.cn/Query.aspx?typepoem&id二、提取诗句 import os import re import requests import parsel#url https://www.sou-yun.cn/PoemIndex.aspx?dynastyTang&author14976&typeJie urlhttps://www.sou-yun.…

移动app的UI和接口自动化测试怎么进行?

标题&#xff1a;从0到1&#xff1a;移动App的UI和接口自动化测试 导语&#xff1a;移动App的快速发展使得UI和接口自动化测试成为了确保应用质量的重要环节。本文将从零开始介绍移动App的UI和接口自动化测试的基本概念以及如何进行测试。 第一部分&#xff1a;了解移动App自动…

【React】如何在MacBook的vscode中配置React环境

作者&#xff1a;CSDN-PleaSure乐事 欢迎大家阅读我的博客 希望大家喜欢 使用环境&#xff1a;Vscode 安装Node.js和npm 首先我们需要完成Node和npm的配置。 官网下载 下载安装包 首先最安全稳定的方法就是从官网下载。我们首先进入node.js的官网https://nodejs.org下载长期…

如何让你的Mac右键菜单栏更加的丰富多样

Mac电脑的右键菜单栏不如Windows的丰富&#xff0c;虽然可以在系统设置一些常用功能&#xff0c;但是种类不够丰富&#xff0c;这对于一些用惯了Windows的人来说可以说是非常的不习惯&#xff0c;不管是工作使用还是日常使用来说都有一些影响&#xff0c;如何才能让Mac的右键菜…

日常场景图像分割系统源码&数据集分享

日常场景图像分割系统源码&#xff06;数据集分享 [yolov8-seg-LSKNet&#xff06;yolov8-seg-LAWDS等50全套改进创新点发刊_一键训练教程_Web前端展示] 1.研究背景与意义 项目参考ILSVRC ImageNet Large Scale Visual Recognition Challenge 项目来源AAAI Global Al lnnov…

如何解决与kernel32.dll相关的常见错误:详细指南解析kernel32.dll文件缺失、损坏或错误加载问题

当你的电脑中出现错误kernel32.dll丢失的问题&#xff0c;会导致电脑不能出现正常运行&#xff0c;希望能够有效的帮助你有效的将丢失的kernel32.dll文件进行修复同时也给大家介绍一些关于kernel32.dll文件的相关介绍&#xff0c;希望能够有效的帮助你快速修复错误。 kernel32.…

Golang | Leetcode Golang题解之第464题我能赢吗

题目&#xff1a; 题解&#xff1a; func canIWin(maxChoosableInteger, desiredTotal int) bool {if (1maxChoosableInteger)*maxChoosableInteger/2 < desiredTotal {return false}dp : make([]int8, 1<<maxChoosableInteger)for i : range dp {dp[i] -1}var dfs …

实战OpenCV之视频处理

基础入门 视频是由一系列连续的图像帧组成的&#xff0c;这些帧按照一定的速率连续播放&#xff0c;从而形成动态画面。与视频相关的主要参数有&#xff1a;分辨率、帧率、码率、编解码器、帧类型、文件格式等&#xff0c;下面分别进行介绍。 1、帧率。表示每秒显示的图像帧数&…

(01)python-opencv基础知识入门(图片的读取与视频打开)

前言 一、图像入门 1.1 读取图像cv.imread() 1.2 数组数据转换cv.cvtColor() 1.3数据窗口展示 1.4图像保存 1.5图像的截取 1.6 图像的比例缩放 二、视频入门 参考文献 前言 OpenCV 于 1999 年由 Gary Bradsky 在英特尔创立&#xff0c;第一个版本于 2000 年问世。Vad…

Golang | Leetcode Golang题解之第468题验证IP地址

题目&#xff1a; 题解&#xff1a; func validIPAddress(queryIP string) string {if sp : strings.Split(queryIP, "."); len(sp) 4 {for _, s : range sp {if len(s) > 1 && s[0] 0 {return "Neither"}if v, err : strconv.Atoi(s); err …

毕业设计项目-古典舞在线交流平台的设计与实现(源码/论文)

项目简介 基于springboot实现的&#xff0c;主要功能如下&#xff1a; 技术栈 后端框框&#xff1a;springboot/mybatis 前端框架&#xff1a;html/JavaScript/Css/vue/elementui 运行环境&#xff1a;JDK1.8/MySQL5.7/idea&#xff08;可选&#xff09;/Maven3&#xff08…

一台电脑轻松接入CANFD总线-来可CAN板卡介绍

在工业控制领域&#xff0c;常常使用的总线技术有CAN(FD)、RS-232、RS-485、Modbus、Profibus、Profinet、EtherCAT等。RS-485以其长距离通信能力著称&#xff0c;Modbus广泛应用于PLC等设备&#xff0c;EtherCAT则以其低延迟和高实时性在自动化系统中备受青睐。 其中&#xf…

实时开放词汇目标检测(论文复现)

实时开放词汇目标检测&#xff08;论文复现&#xff09; 本文所涉及所有资源均在传知代码平台可获取 文章目录 实时开放词汇目标检测&#xff08;论文复现&#xff09;概述模型框架使用方式配置环境训练和评估训练评估 演示效果Gradio Demo 概述 YOLO-World是由腾讯人工智能实验…

Comfyui 学习笔记5

1.图像处理小工具&#xff0c;沿某个轴反转Image Flip 2. reactor换脸 3. 通过某人的多张照片进行训练 训练的模型会保存在 models/reactor/face/下面&#xff0c;使用时直接load就好 4. 为一个mask 更加模糊 羽化 5. 指定位置替换&#xff0c;个人感觉这种方式进行换脸的融…