欧几里得度量和余弦度量的可取消生物识别方案

便捷的生物识别数据是一把双刃剑，在为生物识别认证系统的繁荣铺平道路的同时，也带来了个人隐私问题。为了缓解这种担忧，提出了各种生物特征模板保护方案来保护生物特征模板免于信息泄露。现有提案的优势是基于汉明度量，它忽略了一个事实，即主要部署的生物特征识别系统（例如面部、语音、步态）生成实值模板，更适用于欧几里德度量和余弦度量。此外，由于基于相似性的攻击的出现，这些方案在被盗令牌设置下并不安全。在本文中，我们提出了一种简洁的生物识别模板保护方案来应对这一挑战。所提出的方案是为欧几里德度量和余弦度量而不是汉明距离设计的。简洁的生物特征模板保护方案主要由距离保持、单向和混淆模块组成。具体来说，我们采用位置敏感哈希函数同时实现距离保持和单向特性，并使用取模运算实现多对一映射。我们还从三个方面深入分析了所提出的方案：不可逆性、不可链接性和可撤销性。此外，还对众所周知的人脸数据库进行了全面的实验。所有的结果都表明了所提出方案的有效性。我们采用位置敏感哈希函数同时实现距离保持和单向特性，并使用模运算实现多对一映射。我们还从三个方面深入分析了所提出的方案：不可逆性、不可链接性和可撤销性。此外，还对众所周知的人脸数据库进行了全面的实验。所有的结果都表明了所提出方案的有效性。我们采用位置敏感哈希函数同时实现距离保持和单向特性，并使用模运算实现多对一映射。我们还从三个方面深入分析了所提出的方案：不可逆性、不可链接性和可撤销性。此外，还对众所周知的人脸数据库进行了全面的实验。所有的结果都表明了所提出方案的有效性。

介绍

指纹、虹膜、人脸等生物识别技术已成为军事、金融、监控、公安等领域认证系统的热门选择，具有广阔的应用前景。通常，生物认证方案包括两个阶段：注册和验证。在注册过程中，传感器捕获用户的生物特征样本（例如面部、虹膜或手指的图像），然后使用特征提取器从生物特征中生成生物特征向量（即普通生物特征模板） . 在验证中，传感器捕获用户的新生物特征样本，并使用相同的特征提取器从该新图像中提取新的生物特征模板。然后将新的生物特征模板与登记的生物特征模板进行比较。如果它们在某个度量空间中相似或接近，验证成功。在过去的几十年中，已经进行了无数的研究来提高生物特征认证算法的识别准确性。近年来，基于深度学习的生物特征认证方案在识别精度方面取得了显着进步[例如人脸（Deng et al.2020 年；计算技术研究所2020 ; 兰詹等人。2019 年）、语音（Baevski 等人2021 年；Conneau 等人2020 年；Xu 等人2020 年）和步态（Fan 等人2020 年；Chao 等人2022 年）)]。最先进的基于深度学习的方法输出一个实值生物特征向量，不同生物特征模板之间的相似性通常用欧氏距离或余弦距离来衡量。从技术上讲，生物特征提取的设计目标是使类内距离（即同一用户的不同特征向量之间的距离）尽可能小，同时使类间距离（即同一用户的特征向量之间的距离）尽可能小。不同的用户）尽可能大，以优化错误接受率（FAR）和错误拒绝率（FRR）。

然而，随着生物识别认证系统的大规模部署，对敏感生物识别数据的隐私问题正在出现。最近的研究 Mai 等人。（2018 年）、Gomez-Barrero 和 Galbally（2020 年）和 Wang 等人。( 2021b) 表明原始生物特征图像可以很容易地从普通生物特征模板重建，这对个人隐私构成严重威胁。近年来，已经提出了许多保护隐私的生物特征认证方案来保护普通生物特征模板。生物特征模板保护 (BTP) 方案是一种众所周知的方法，它从普通生物特征向量生成转换（加密、投影）模板。BTP方案可以看作是对普通生物特征向量的保距不可逆变换，因此可以在不降低识别准确率的情况下，增强现有生物特征认证系统的隐私保护。请注意，转换函数需要一个密钥（即用户提供的令牌）才能从生物特征向量生成 BTP。除了，BTP 方案需要是不可链接和可撤销的。可撤销是指一旦攻击者窃取了BTP，合法用户可以使用新的token发布一个独立于原BTP的新BTP。Unlinkability 要求同一用户的不同生物特征生成的两个 BTP 是独立的。

当前的大多数 BTP 方案（Chin 等人2006 年；Rathgeb 等人2014 年；Pillai 等人2011 年；Lai 等人2017 年；Sadhya 等人2019 年；Sadhya 和 Raman 2019 年）都是为 Hamming 中的二进制生物识别模板设计的公制。考虑到大多数生物特征识别方法在现实中都是生成具有欧几里德或余弦距离度量的实值模板(如人脸、语音、步态)，因此迫切需要促进欧几里德或余弦度量的BTP研究。到目前为止，只有少数 BTP 方案被提出用于欧氏或余弦度量。例如，Biohashing (Jin et al. 2004) 是第一个用于人脸图像的 BTP 方案。它首先在普通生物特征模板上应用随机投影，实现欧几里得度量中的降维和保距。这里，随机投影是由 Johnson-Lindenstrauss 引理 (Goel et al. 2005 ) 激发的，用于随机投影的正交基向量组由用户的随机种子生成。然后使用阈值对投影值进行二值化。此外，可以对二进制字符串的结果进行哈希处理以供用户验证。

Pathak 和 Raj ( 2012 ) 首先引入了局部敏感哈希 (LSH) 来为实值语音信号生成可取消的生物识别模板。语音特征向量首先经过欧几里得 LSH 处理，然后将结果向量的密码哈希值存储为 BTP。值得注意的是，不同于随机投影仅实现欧几里得度量的降维，LSH函数将欧几里得向量离散化，结果向量直接在汉明距离中进行比较。LSH 函数保证了欧氏距离或余弦距离较小的向量有较大的碰撞可能性。这样，一定程度上保留了距离。近年来，Jin 等人。（2018 年）和 Sadhya 等人。( 2019）提出了“最大索引”（IOM）散列法，这是 LSH 的一种特殊形式，用于构建可取消的生物特征模板。赖等。( 2021 ) 也提出了一种基于余弦 LSH 的 BTP 生成方案 (Charikar 2002 )。

此外，还提出了一些基于深度学习的 BTP 方案（Mai 等人2021 年；Hahn 和 Marcel 2021 年；Kumar Pandey 等人2016 年）。这些方案通常训练一个多层神经网络来实现从欧氏向量到随机分布码字的映射。然而，与概念上更简单且数据无关的基于 LSH（或基于随机投影）的 BTP 方案相比，这些基于深度学习的方案在重新发布新模板时可能需要重新训练整个网络。

目前，基于距离保持哈希的方案的一个主要问题（Jin 等人2004 年；Pillai 等人2011 年；Gomez-Barrero 等人2014 年；Lai 等人2017 年；Jin 等人2018 年；Sadhya 等人。2019；Lai 等人2021）是他们在被盗令牌设置中很容易受到攻击，在这些设置中，对手可以获得用户的密钥。帕特里克等人。和 Ghammam 等人。( 2020 ) 成功地使用线性方程和二次规划对 Biohashing、URP-IoM 和 GRP-IoM 方案进行密码分析。毫不奇怪，大多数 BTP 方案通常会泄露转换后模板之间的相似性分数，攻击者可以发起基于相似性的攻击（Wang 等人，2016 年）。2021a ; 陈等。2019 ; 董等。2019 ; 赖等。2021 )，其中可以以迭代方式基于相似性得分构建目标模板。

保护生物特征数据免受基于相似性的攻击的问题已成为最紧迫的研究问题。陈等。( 2019 ) 提出了一种基于深度学习方法的生物特征模板安全量化方法，该方法通过最小化哈希空间中类间距离的方差来获得较小的信息泄漏。他们通过虹膜实验证明了他们的方法具有出色的识别性能。但是，为了最小化散列值的类间距离的方差，他们要求不同类的散列距离是等距的。这种情况导致编码空间和编码长度应该足够大和足够长以构建具有更多类的数据集。当等人。( 2020) 提出了另一种基于学习的生物识别模板保护方法。他们提出的模型通过单次和多次注册进行训练，以高概率将生物特征数据编码为预定义的输出。然而，这两种方法 (Chen et al. 2019 ; Dang et al. 2020 ) 都具有很强的数据依赖性，需要预先定义和预先训练。如果场景或数据库发生变化，可能需要重新训练。正如 Chen 等人所指出的。( 2019 )，当不同转换模板的相似性得分分布呈现线性特性时，基于相似性的攻击就会发挥作用。因此，这些攻击在非线性情况下是无效的。赖等。( 2021) 提供了一种抵抗基于相似度攻击的解决方案，它通过计算子集内部的相似度，然后通过一个阈值计算整体相似度来实现非线性。然而，如果对手能够知道模板生成的算法细节，十进制模板可以很容易地转换回二进制模板。因此，关系变为线性，对手可以进行基于相似性的攻击。总的来说，目前还不清楚如何在令牌被盗的情况下构建一个安全的 BTP 方案来抵御基于相似性的攻击。

在本文中，我们首先提出了一种安全的 BTP 方案，用于在被盗令牌设置下的欧几里得度量和余弦度量下的实值生物特征模板。具体而言，首先将保持距离的散列函数应用于实值生物特征向量以生成散列码向量。然后设计一个多对一的映射函数并将其应用于哈希码向量中的每个值以生成受保护的模板。此外，基于阈值的匹配器被设计用于将输入与存储的模板进行比较。由于设计，通过引入多对一映射机制以及哈希函数和多对一映射函数的新颖组合来实现不可逆性。最后，2020 年；拉查姆等人。2013 ) 和令牌被盗场景下的基于相似性的攻击。为了评估性能，我们进行了综合实验，以研究欧几里得 LSH 选择和模函数选择的影响，并将其与现有技术的准确性进行比较。最后，我们彻底进行了安全和隐私分析，尤其是在不可逆性、不可爱性和可撤销性方面。

相似度分数的阈值

在模板匹配阶段，阈值对判断两个模板是否来自同一个人起着重要作用。如果两个模板之间的相似度得分超过阈值，则模板被识别为来自同一个人。同时，如果相似度得分低于阈值，则模板被识别为来自不同的人。在本文中，我们采用通常的做法（Jin et al. 2018；Lai et al. 2021），将阈值设置在 FAR 等于 FRR 的点。图 4显示了模板在不同人之间（即类间比较）和同一个人之间（即类内比较）的相似性得分分布。红色区域的面积代表 FAR，蓝色区域的面积代表 FRR。绿色垂直线与 X 轴的交叉点设置为阈值。如果阈值增加，绿色垂直线在 X 轴上从左向右移动，我们可以看到 FRR 增加而 FAR 减少。当 FAR 等于 FRR 时，相应的相似度得分被设置为阈值。

图 4

、、和余弦 LSH 在、、下的欧几里德 LSH 方案的阈值。a - d显示基于欧几里德 LSH 方案的结

欧几里德 LSH 宽度c的影响

欧几里得 LSH 的宽度影响距离保持散列的等错误率 (EER)。EER与宽度c的关系如图5所示。可以观察到，当c增加且时，EER 会降低。当c超过 0.2 时，EER 没有显着变化。原因如下：基于方程式。 2，可得：当c增大时，单欧几里德LSH函数的输出范围减小，即减小。对于类内比较，LSH的输出值有较大的碰撞可能性。但是对于类间比较，由于LSH的输出值还是很大，碰撞的可能性并没有提高太多。因此，FRR 减少而 FAR 很少增加。结果，EER 将降低。当c增大，时，对于类间比较，因为LSH的输出值比较小，碰撞的可能性也会提高，就像类内的情况一样。因此，FRR 减少而 FAR 增加。

结论

在本文中，我们提出了一种简洁的安全生物识别模板保护方案，该方案可以在令牌被盗场景下抵御强大的基于相似性的攻击。在该方案中，我们不仅引入了多对一映射机制，而且引入了距离保持散列和多对一映射的新颖组合，以克服现有 BTP 方案的弱点。此外，我们通过采用LSH函数实现距离保持散列和设计模函数来实现多对一映射来实例化该方案。最后，我们对实例化进行了全面的理论和实验分析。