【活体检测模型】活体检测思路推演

news2026/2/14 14:09:12

ref:https://arxiv.org/pdf/1611.05431.pdf
https://github.com/miraclewkf/ResNeXt-PyTorch
用分类的思想做活体检测，要求准确的分出正负样本，否则，支付宝被别人用了，问题就很严重。
大部分的商用场景还是摇摇头、张张口，配合动作来做。但其实这件事很尬，尤其是人多的时候。
所以分类上有所突破是关键。
数据集：CASIA-SURF dataset
如何提升准确度？

1.需要细粒度的分类

Real 与 Attack 在整体上差别较小，但在细节上差别较大。
在这里插入图片描述
抠出patch块特征，眼睛、鼻子、嘴…等等。
用固定位置去抠，或者整张图去抠。
一张图片抠多少个块？？？这是一个网络的超参数。patch的大小是多少32*32？？
抠20个patch，然后投票，看是否能再二分类的基础上有提升？？

融合训练

RGB三通道+depth+IR 变成 5个channel的32*32 来融合可以尝试一下。
作者用的是Multi-stream fusion with MFE：多模态擦除式融合

在这里插入图片描述
concat和add是不一样的， concat会保留更多的特征。但是融合多了会有过拟合风险。
数据量每增加多少，而模型的参数量却扩大了三倍（因为是单独提的特征）。就容易发生过拟合。
作者在论文中drop的不是神经元，而是模态！！！！
从三个模态中随机选择一个模态设置成0；
dropout 不适合cnn？
dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是「暂时」，对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。