【自然语言处理】第3部分：识别文本中的个人身份信息

news2026/2/13 21:28:09

自我介绍

做一个简单介绍，酒架年近48 ，有20多年IT工作经历，目前在一家500强做企业架构．因为工作需要，另外也因为兴趣涉猎比较广，为了自己学习建立了三个博客，分别是【全球IT瞭望】，【架构师酒馆】和【开发者开聊】，有更多的内容分享，谢谢大家收藏。
企业架构师需要比较广泛的知识面，了解一个企业的整体的业务，应用，技术，数据，治理和合规。之前4年主要负责企业整体的技术规划，标准的建立和项目治理。最近一年主要负责数据，涉及到数据平台，数据战略，数据分析，数据建模，数据治理，还涉及到数据主权，隐私保护和数据经济。因为需要，比如数据资源入财务报表，另外数据如何估值和货币化需要财务和金融方面的知识，最近在学习财务，金融和法律。打算先备考CPA，然后CFA，如果可能也想学习法律，备战律考。
欢迎爱学习的同学朋友关注，也欢迎大家交流。微信小号【ca_cea】

在文本文档中查找个人身份信息（PII）可能很有用，原因有几个，但我多次遇到的一个用例是帮助匿名文本，以便：

与第三方共享数据
遵守GDPR等法规要求
将PII替换为模拟数据，用作机器学习和其他探索性分析的训练数据

我将尝试自动化查找PII的过程，在本系列文章中，我们将探索一些流行的开源工具和技术，以便在我们自己的数据中识别不同类型的PII。

到目前为止，我们已经找到了查找人名、电子邮件地址、电话号码和信用卡号码的方法。让我们看看我们还能找到哪些其他类型的PII。

介绍Hugging Face

Hugging Face是一个流行的Python库，包含预先训练的人工智能模型，可用于各种自然语言处理（NLP）任务，包括命名实体识别（NER）。正如我们在前几篇文章中所讨论的，NER是一种非常有用的检测文本中PII的技术。

Python示例

让我们看看我们将如何使用拥抱脸。

先决条件：

应至少安装TensorFlow 2.0或PyTorch中的一个。然后在您选择的终端中键入以下内容：

pip install transformers

我们将尝试看看“拥抱脸”在识别某些文本中的位置方面做得有多好：

from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)

sequence = "In west Philadelphia born and raised. On the playground was where I spent most of my days. "
sequence += "I got in one little fight and my mom got scared. "
sequence += "She said 'You're movin' with your auntie and uncle in Bel Air'!"

output = ner(sequence)

print(output)

让我们看看这个代码打印的内容：

[
{'entity_group': 'LOC', 'score': 0.99.., 'word': 'Philadelphia', 'start': 8, 'end': 20},
{'entity_group': 'LOC', 'score': 0.99.., 'word': 'Bel Air',
'start': 194, 'end': 201}
]

它只使用默认的英语语言模型和设置就很好地检测到了这两个位置词。给人印象深刻的

根据我的经验，“拥抱脸”在检测位置方面比我们迄今为止讨论的其他工具要好，所以如果发现位置对你来说很重要，那么一定要试一试。它非常灵活，周围有一个很大的社区，有很好的文档，并且被广泛使用。