在 Hub 上使用 Presidio 进行自动 PII 检测实验

news2025/1/13 7:54:12

我们在 Hugging Face Hub 上托管的机器学习 (ML) 数据集中发现了一个引人关注的现象: 包含个人未经记录的私密信息。这一现象为机器学习从业者带来了一些特殊挑战。

在本篇博客中,我们将深入探讨含有一种称为个人识别信息 (PII) 的私密信息的各类数据集,分析这些数据集存在的问题,并介绍我们在数据集 Hub 上正在测试的一个新功能,旨在帮助应对这些挑战。

包含个人识别信息 (PII) 的数据集类型

我们注意到包含个人识别信息 (PII) 的数据集主要有两种类型:

  1. 标注的 PII 数据集: 例如由 Ai4Privacy 提供的PII-Masking-300k,这类数据集专门用于训练 PII 检测模型。这些模型用于检测和掩盖 PII,可以帮助进行在线内容审核或提供匿名化的数据库。https://hf.co/datasets/ai4privacy/pii-masking-300k

  2. 预训练数据集: 这些通常是大规模的数据集,往往有数 TB 大小,通常通过网络爬虫获得。尽管这些数据集一般会过滤掉某些类型的 PII,但由于数据量庞大和 PII 检测模型的不完善,仍可能有少量敏感信息遗漏。

机器学习数据集中的个人识别信息 (PII) 面临的挑战

机器学习数据集中存在的个人识别信息 (PII) 会为从业者带来几个挑战。首先,它引发了隐私问题,可能被用来推断个人的敏感信息。

此外,如果未能妥善处理 PII,它还可能影响机器学习模型的性能。例如,如果一个模型是在包含 PII 的数据集上训练的,它可能学会将特定的 PII 与特定的结果关联起来,这可能导致预测偏见或从训练集生成 PII。

数据集 Hub 上的新实验: Presidio 报告

为了应对这些挑战,我们正在数据集 Hub 上试验一项新功能,使用Presidio——一种开源的最先进的个人识别信息 (PII) 检测工具。Presidio 依赖检测模式和机器学习模型来识别 PII。

Presidiohttps://github.com/microsoft/presidio

通过这个新功能,用户将能够看到一个报告,估计数据集中 PII 的存在情况。这一信息对于机器学习从业者非常有价值,帮助他们在训练模型前做出明智的决策。例如,如果报告指出数据集包含敏感的 PII,从业者可能会选择使用像 Presidio 这样的工具进一步过滤数据集。

数据集所有者也可以通过使用这些报告来验证他们的 PII 过滤流程,从而在发布数据集之前受益于这一功能。

Presidio 报告的一个示例

让我们来看一个关于这个预训练数据集的 Presidio 报告的示例:

预训练数据集https://hf.co/datasets/allenai/c4

6c6510cc33108ed660a93c3f79f3a9ff.png
Presidio report

在这个例子中,Presidio 检测到数据集中有少量的电子邮件和敏感个人识别信息 (PII)。

结论

机器学习数据集中个人识别信息 (PII) 的存在是机器学习社区不断发展的挑战之一。在 Hugging Face,我们致力于保持透明度,并帮助从业者应对这些挑战。通过在数据集 Hub 上试验诸如 Presidio 报告之类的新功能,我们希望赋予用户做出明智决策的能力,并构建更健壮、更符合道德标准的机器学习模型。

我们还要感谢国家信息与自由委员会 (CNIL) 对GDPR 合规性的帮助。他们在指导我们应对人工智能和个人数据问题的复杂性方面提供了宝贵的帮助。请在这里查看他们更新的人工智能操作指南。

  • GDPR 合规性的帮助https://hf.co/blog/cnil

  • CNIL 人工智能操作指南https://www.cnil.fr/fr/ai-how-to-sheets

敬请期待更多关于这一激动人心发展的更新!


英文原文:https://hf.co/blog/presidio-pii-detection

原文作者: Quentin Lhoest, Margaret Mitchell, Omri M, Omri Mendels

译者: Evinci

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1971125.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

965不加班还赚钱,金融科技岗真的绝了!

薪资福利好、稳定有前景、大部分965不加班…… 如果你在观望新机会,金融科技岗的这些特质一定非常吸引人。‍‍‍‍‍‍ 特别是在如今的求职环境中,可观的薪资和稳定的环境已经能够打败90%以上的公司了,更别说金融科技岗的工作强度相比互联…

生产计划问题的不同最优化工具软件求解

一、优化求解软件简介 众所周知,常用的优化工具软件有Lingo、Mathcad和MATLAB。 1. LINGO是Linear Interactive and General Optimizer的缩写,即“交互式的线性和通用优化求解器”,由美国LINDO系统公司(Lindo System Inc.&…

Photoshop 滤镜使用详解(全集 · 2024版)

Photoshop 内置了约 120 多个滤镜 Fitler。 Ps菜单:滤镜 Fitler 滤镜,根据一定的规律和运算规则,改变像素的排列、组合、RGB 值与分布等,从而实现图像的各种特殊、奇妙的效果。 可将滤镜作用于选区、图层、通道、蒙版和智能对象&a…

采购在供应链管理中有什么作用?8个步骤拆解供应链采购流程!

在当今全球化和竞争激烈的商业环境中,供应链管理的重要性日益凸显。采购作为供应链中的关键环节,不仅关系到企业成本控制和利润空间,更是企业战略实施和市场竞争力的重要体现。本文将深入探讨供应链采购流程的各个方面,从需求识别…

CreateCustomShape函数怎么在C++调用,参数需要用SAFEARRAY

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

关于去中心化自治组织DAO

DAO(Decentralized Autonomous Organizations)代表了一种变革性的治理和组织管理方法,利用区块链技术创建透明、民主和自我管理的实体。通过自动化决策过程并减少对传统等级结构的依赖,DAO使各种社区团体能够共同管理资源、项目和…

技术分享 | 自动化测试中如何高效定位元素?

在自动化测试中,元素定位是一项非常重要的工作。良好的元素定位可以帮助测试人员处理大量的测试用例,加快测试进度,降低工作负担。但是在实际的测试工作中,我们常常遇到各种各样的定位问题,比如元素定位失败、元素选择…

【数学建模】评价类模型:优劣解距离法

【数学建模】评价类模型:优劣解距离法 目录 【数学建模】评价类模型:优劣解距离法 1:前言 2:算法 1. 将原始矩阵正向化(统一为极大型) 2. 正向矩阵标准化(消除量纲) 3. 计算得分并归一化 3:例题 4&#xff1a…

【C++】学习笔记——C++的类型转换

文章目录 二十三、C的类型转换1. C语言中的类型转换2. C类型转换static_castreinterpret_castconst_castdynamic_cast 未完待续 二十三、C的类型转换 1. C语言中的类型转换 在C语言中,如果赋值运算符左右两侧类型不同,或者形参与实参类型不匹配&#x…

书单 | 大模型的书那么多,如何快速选到适合自己的那一本?来,教你!

大模型的书这么多,该怎么选呢? 本期书单就来教大家怎么快速地从众多大模型书中选到你想要的那一本! 大模型基础 大模型入门不可错过的一本书,就是这本大模型界的经典畅销书**《大规模语言模型》**!系统性强&#xf…

Excel函数基础(二)

1、单元格名称 框选单元格(不含标题),公式选项卡->定义名称, 或者框选单元格后,在左上角的栏位直接输入要定义的名字,按下enter键即可 这样在使用函数时,数据范围参数可以用定义的名称来替…

4款翻译软件分享,告别职场困境

作为一名初入职场的新人,我经常会遇到各种需要翻译的文件,从合同到项目报告,再到专业资料,无一不考验着我的语言能力。幸运的是,我遇到了几款超级给力的翻译软件——福昕翻译在线、福昕翻译客户端、海鲸AI翻译和deepl翻…

Python | Leetcode Python题解之第310题最小高度树

题目: 题解: class Solution:def findMinHeightTrees(self, n: int, edges: List[List[int]]) -> List[int]:if n 1:return [0]g [[] for _ in range(n)]deg [0] * nfor x, y in edges:g[x].append(y)g[y].append(x)deg[x] 1deg[y] 1q [i for …

太厉害了,使用WebGL SDK居然可以添加这么多图层!

想象一下,你在网页上展示一张地图,不仅有基本的点、线、面,还能叠加三维模型、高分辨率影像、地形数据,甚至实时的车辆轨迹。这听起来是不是很酷?今天,我们就来聊聊如何用Mapmost WebGL SDK,轻松…

【Unity Shader】切线空间下计算凹凸映射

// Upgrade NOTE: replaced mul(UNITY_MATRIX_MVP,*) with UnityObjectToClipPos(*)Shader "Unlit/NormalTangent" {Properties{_Color("Color Tint", Color) (1, 1, 1, 1)_MainTex("Main Tex", 2D) "While"{}//法线纹理_BumpMap(&q…

windows11高级电源设置中【睡眠】里面的 【在此时间后休眠】没有了

系统更新后发现电脑的定时休眠功能没了,打开电源选项发现【在此时间后休眠】这个功能直接没了如下 1、添加【在此时间后休眠】选项 step1: 用管理员身份打开命令提示符 step2:输入 reg add HKLM\System\CurrentControlSet\Control\Power /v …

[数据集][目标检测]辣椒病害成熟度检测数据集VOC+YOLO格式2748张5类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2748 标注数量(xml文件个数):2748 标注数量(txt文件个数):2748 标注…

cocos creator 3.x中动态加载 resources 文件夹下的图片时提示找不到

文件目录如下 类型为spriteFrame 代码案例 图片设置为 sprite-frame、texture 或其他图片类型后,将会在 资源管理器 中生成一个对应类型的资源。但如果直接加载 equipments/testea,得到的类型将会是 ImageAsset,必须指定路径到具体的子资源…

微信小程序开发之自定义组件

微信小程序支持自定义组件,允许开发者创建可复用的自定义组件库,提高开发效率并增强代码的可维护性。 自定义组件分为全局组件和局部组件。 一、下面展示全局组件 创建components 目录,如图所示: 创建组件文件夹: 利用微信开发…

常用排序算法的实现与介绍

常用排序算法的实现与介绍 在计算机科学中,排序算法是非常基础且重要的一类算法。本文将通过C语言代码实现,介绍几种常见的排序算法,包括冒泡排序、选择排序、插入排序和快速排序。以下是这些排序算法的具体实现和简要介绍。 1. 冒泡排序&am…