Elasticsearch:如何通过 3 个简单步骤从 Elastic 数据中删除个人身份信息

news2024/9/20 18:40:37

作者:Peter Titov

对于任何组织来说,个人身份信息 (Personally Identifiable information, PII) 合规性都是一个日益严峻的挑战。 无论你是在电子商务、银行、医疗保健还是其他数据敏感的领域,PII 都可能会在无意中被捕获和存储。 拥有结构化日志,可以轻松快速识别、删除和保护敏感数据字段; 但非结构化消息又如何呢? 或者也许是呼叫中心转录?

Elasticsearch 凭借其在机器学习领域的长期经验,提供了各种引入自定义模型的选项,例如大语言模型 (LLM),并提供了自己的模型。 这些模型将有助于实施 PII 编辑。

如果你想了解有关自然语言处理、机器学习和 Elastic 的更多信息,请务必查看以下相关文章:

  • Elasticsearch 中使用 PyTorch 进行现代自然语言处理简介
  • Elastic Redact 处理器文档
  • Elastic Learned Sparse Encoder 简介:Elastic 用于语义搜索的 AI 模型
  • 访问 Elastic 中的机器学习模型

在本博客中,我们将向你展示如何利用 Elasticsearch 在机器学习中加载经过训练的模型的能力以及 Elastic 摄取管道的灵活性来设置 PII 修订。

具体来说,我们将逐步建立一个用于人员和位置识别的命名实体识别 (NER)模型,以及部署用于自定义数据识别和删除的编辑处理器。 然后,所有这些都将与摄取管道相结合,我们可以在其中使用 Elastic 机器学习和数据转换功能从数据中删除敏感信息。

加载训练好的模型

在开始之前,我们必须将 NER 模型加载到 Elasticsearch 集群中。 这可以通过 Docker 和 Elastic Eland 客户端轻松完成。 从命令行,让我们通过 git 安装 Eland 客户端:

git clone https://github.com/elastic/eland.git

导航到最近下载的客户端:

cd eland/

现在让我们构建客户端:

docker build -t elastic/eland .

从这里,你就可以将经过训练的模型部署到 Elastic 机器学习节点! 请务必替换你的用户名、密码、es-cluster-hostname 和 esport。

如果你使用 Elastic Cloud 或已签名证书,只需运行以下命令:

docker run -it --rm --network host elastic/eland eland_import_hub_model --url https://<username>:<password>@<es-cluster-hostname>:<esport>/ --hub-model-id dslim/bert-base-NER --task-type ner --start

如果你使用自签名证书,请运行以下命令:

docker run -it --rm --network host elastic/eland eland_import_hub_model --url https://<username>:<password>@<es-cluster-hostname>:<esport>/ --insecure --hub-model-id dslim/bert-base-NER --task-type ner --start

从这里,你将见证 Eland 客户端从 HuggingFace 下载经过训练的模型并自动将其部署到你的集群中!

针对我的情况,我更倾向于使用已经发布好的 eland。详细的安装步骤,请参阅文章 “Elasticsearch:如何在 Elastic 中实现图片相似度搜索”。我们可以使用如下的命令来进行:

  eland_import_hub_model --url https://<user>:<password>@<hostname>:<port> \
  --hub-model-id dslim/bert-base-NER \
  --task-type ner \
  --ca-certs <your certificate> \
  --start

在我的电脑上,我使用:

通过机器学习概述 UI “Synchronize your jobs and trained models.” 单击蓝色超链接来同步新加载的训练模型。

 

 

就是这样! 恭喜,你刚刚将第一个经过训练的模型加载到 Elasticsearch 中! 

创建编辑处理器和摄取管道

在 DevTools 中,我们配置 redact 处理器和推理处理器,以利用我们刚刚加载的 Elastic 训练模型。 这将创建一个名为 redact 的摄取管道,然后我们可以使用它从我们希望的任何字段中删除敏感数据。 在此示例中,我将重点关注 “message” 字段。 注意:在撰写本文时,redact 处理器处于实验阶段,必须通过 DevTools 创建。

Redact 处理器简介:Redact 处理器使用 Grok 规则引擎来模糊输入文档中与给定 Grok 模式匹配的文本。 该处理器可用于通过配置检测电子邮件或 IP 地址等已知模式来隐藏个人识别信息 (PII)。 与 Grok 模式匹配的文本将替换为可配置字符串,例如匹配电子邮件地址的 <EMAIL>,或者如果愿意,只需将所有匹配项替换为文本 <REDACTED>。

我们在 Dev Tools 下打入如下的命令:

PUT _ingest/pipeline/redact
{
  "processors": [
    {
      "set": {
        "field": "redacted",
        "value": "{{{message}}}"
      }
    },
    {
      "inference": {
        "model_id": "dslim__bert-base-ner",
        "field_map": {
          "message": "text_field"
        }
      }
    },
    {
      "script": {
        "lang": "painless",
        "source": """
           String msg = ctx['message'];
           for (item in ctx['ml']['inference']['entities']) {
             msg = msg.replace(item['entity'], '<' + item['class_name'] + '>')
           }
           ctx['redacted']=msg
        """
      }
    },
    {
      "redact": {
        "field": "redacted",
        "patterns": [
          "%{EMAILADDRESS:EMAIL}",
          "%{IP:IP_ADDRESS}",
          "%{CREDIT_CARD:CREDIT_CARD}",
          "%{SSN:SSN}",
          "%{PHONE:PHONE}"
        ],
        "pattern_definitions": {
          "CREDIT_CARD": """\d{4}[ -]\d{4}[ -]\d{4}[ -]\d{4}""",
          "SSN": """\d{3}-\d{2}-\d{4}""",
          "PHONE": """\d{3}-\d{3}-\d{4}"""
        }
      }
    },
    {
      "remove": {
        "field": [
          "ml"
        ],
        "ignore_missing": true,
        "ignore_failure": true
      }
    }
  ],
  "on_failure": [
    {
      "set": {
        "field": "failure",
        "value": "pii_script-redact"
      }
    }
  ]
}

好的,但是每个处理器的真正作用是什么? 让我们在这里详细介绍每个处理器:

  1. SET 处理器创建 redacted 字段,该字段从 message 字段复制过来,并稍后在管道中使用。
  2. INFERENCE 处理器调用我们加载的 NER 模型,用于消息字段来识别名称、位置和组织。
  3. 然后,SCRIPT 处理器从消息字段中替换编辑字段内检测到的实体。
  4. 我们的 REDACT 处理器使用 Grok 模式来识别我们希望从编辑字段(从 message 字段复制而来)中删除的任何自定义数据集。
  5. REMOVE 处理器从索引中删除无关的 ml.* 字段; 请注意,一旦我们验证数据被正确编辑,我们就会向该处理器添加 “message”。
  6. ON_FAILURE / SET 处理器会捕获任何错误,以防万一出现错误。

分割你的 PII

现在已经配置了包含所有必要步骤的摄取管道,让我们开始测试从文档中删除敏感数据的效果。 导航到 Stack Management,选择 Ingest Pipelines 并搜索redact,然后单击结果。

 

 

 

在这里,我们将通过添加一些文档来测试我们的管道。 下面是一个示例,你可以复制并粘贴以确保一切正常工作。 

{"_source":{"message": "John Smith lives at 123 Main St. Highland Park, CO. His email address is jsmith123@email.com and his phone number is 412-189-9043.  I found his social security number, it is 942-00-1243. Oh btw, his credit card is 1324-8374-0978-2819 and his gateway IP is 192.168.1.2"}}

只需按下 “Run the pipeline” 按钮,您你看到以下输出:

下一步是什么?

将此摄取管道添加到要建立索引的数据集并验证其是否满足预期后,你可以添加要删除的消息字段,以便不会对 PII 数据建立索引。 只需更新你的 REMOVE 处理器以包含 message 字段并再次模拟即可仅看到已编辑的字段。

再次运行测试 pipeline。我们发现 message 字段消失了。

 

结论

通过这种分步方法,你现在已准备好并能够检测和编辑整个索引中的任何敏感数据。

以下是我们所讨论内容的快速回顾:

  • 将预训练的命名实体识别模型加载到 Elastic 集群中
  • 配置 Redact 处理器和推理处理器,以在数据摄取期间使用经过训练的模型
  • 测试示例数据并修改摄取管道以安全删除个人身份信息

准备好开始了吗? 注册 Elastic Cloud 并尝试我上面概述的特性和功能,以从 OpenTelemetry 数据中获得最大价值和可见性。

本文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。 当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

在这篇博文中,我们可能使用了第三方生成式人工智能工具,这些工具由其各自所有者拥有和运营。 Elastic 对第三方工具没有任何控制权,我们对其内容、操作或使用不承担任何责任,也不对你使用此类工具可能产生的任何损失或损害负责。 使用人工智能工具处理个人、敏感或机密信息时请务必谨慎。 你提交的任何数据都可能用于人工智能培训或其他目的。 无法保证你提供的信息将得到安全或保密。 在使用之前,你应该熟悉任何生成式人工智能工具的隐私惯例和使用条款。

Elastic、Elasticsearch 和相关标志是 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。 所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/675939.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

丰田汽车投资人要求董事长下台

&#x1f699; 丰田电动车推广不力&#xff0c;股东要求董事长下台 Toyota faced down two proxy votes at its annual general meeting. In an unusual challenge to the management of a Japanese company, activist investors in America and Europe recommended voting aga…

跨境电商产品的评价怎么获取?

对于在亚马逊、沃尔玛、eBay、Wish、Newegg、速卖通、阿里国际站、Shopee、Lazada、Temu、乐天、Toktok、Joom、Ozon等跨境电商平台的卖家来说&#xff0c;产品评价和补单&#xff08;增加订单数&#xff09;是一个常见但至关重要的话题 优质的产品评价可以向潜在买家展示我们…

想学习大数据,主要学什么?

什么是大数据 什么是“大数据”呢&#xff1f;如果从字面意思来看&#xff0c;大数据指的是巨量数据。那么可能有人会问&#xff0c;多大量级的数据才叫大数据&#xff1f;不同的机构或学者有不同的理解&#xff0c;难以有一个非常定量的定义&#xff0c;只能说&#xff0c;大…

【技术干货】高精度室内定位方案,影响UWB定位精度的因素分析

物联网时代&#xff0c;室内定位已然成为物联网建设的技术纽带&#xff0c;想要真正发挥位置数据的价值&#xff0c;就需要采集的位置数据有足够精度。基于UWB技术的厘米级UWB高精度室内定位方案已广泛应用于物联网各行业领域的人员定位及资产管理。本篇小编就来带大家了解一下…

QGIS 3D功能操作说明

QGIS可以轻松快速地创建 3D 地图和可视化。可用于3d数据效果浏览及与2D数据的对比及数据的打印输出。具体功能如下。 1.在 QGIS 中&#xff0c;您可以通过几个简单的步骤创建 3D 模型。 (1)在QGIS中添加3D 数据的数据层&#xff0c;例如DEM&#xff0c;以供3D功能使用。 …

快速下载操作系统镜像文件-ubuntu-centos

一键搞定镜像文件下载 操作方式 链接地址&#xff1a;阿里云镜像文件链接地址 点击【OS镜像】弹框中选择相应版本 弹框中选择好相应的发行版本后点击【下载】即可

将数组内的元素变为指定格式的字符串类型numpy.char.mod()方法

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 将数组内的每个元素 修改为指定格式的字符串 numpy.char.mod() [太阳]选择题 关于以下代码说法错误的一项是? import numpy as np a np.array([1, 2, 3]) print("【显示】a ",a) p…

前端Vue自定义导航栏菜单 定制左侧导航菜单按钮 中部logo图标 右侧导航菜单按钮

前端Vue自定义导航栏菜单 定制左侧导航菜单按钮 中部logo图标 右侧导航菜单按钮&#xff0c; 下载完整代码请访问uni-app插件市场地址&#xff1a;https://ext.dcloud.net.cn/plugin?id13152 效果图如下&#xff1a; # cc-navHeader #### 使用方法 使用方法 在page.json设…

轻量级的深度学习框架Tinygrad

Tinygrad是一个轻量级的深度学习库&#xff0c;它提供了一种简化和直观的方法来理解和实现神经网络。在本文中&#xff0c;我们将探讨Tinygrad及其主要功能&#xff0c;以及它如何成为那些开始深度学习之旅的人的有价值的工具。 什么是Tinygrad? Tinygrad是一个开源的深度学习…

Redis持久化机制介绍

Redis持久化 1.Redis持久化2.Redis 的持久化机制是什么&#xff1f;各自的优缺点&#xff1f;2.1.RDB&#xff1a;是Redis DataBase缩写快照2.2.AOF&#xff1a;持久化2.3.AOF和RDB优缺点是什么&#xff1f; 3. 如何选择合适的持久化方式4.Redis持久化数据和缓存怎么做扩容&…

[Pytorch]Broadcasting广播机制

文章目录 Broadcasting广播机制BroadcastableBroadcasting Broadcasting广播机制 Broadcasting机制用于在不同维度的张量进行运算时进行维度的自动增加与扩展&#xff0c;Broadcasting机制使用的前提是两个参与运算的张量是可broadcastable的。 Broadcastable 怎样的两个向量…

【libdatachannel】pycharm运行streamer的信令服务及streamer与js客户端联调1

一 信令服务&#xff1a;启动py服务器 ssl必须额外指定 # Usage: ./server.py [[host:]port] [SSL certificate file]文档给出了服务的启动命令&#xff1a; python3 -m http.server --bind 127.0.0.1 8080 直接运行&#xff1a; python的信令服务 #!/usr/bin/env python # # …

图的广度优先遍历和深度优先遍历

前言&#xff1a;在上一篇博客我们学习了图的基本操作&#xff0c;包括图的建立、结点插入与删除等操作&#xff0c;怎么判断我们建立的图是否正确&#xff0c;很简单把它输出出来就是&#xff0c;但是如何输出它&#xff0c;这就是图的遍历问题了。 一.图的遍历 图的遍历是指…

初识C语言的static关键字(修饰局部变量、全局变量和函数)

目录 学习目标 1.static 修饰局部变量 2.static 修饰全局变量 3.static 修饰函数 学习目标 static修饰局部变量static修饰全局变量static修饰函数 1.static 修饰局部变量 &#xff08;1&#xff09;static修饰局部变量后&#xff0c;这时局部变量就是静态的局部变量。 &am…

光模块安规认证简介

背景 认证是指由认证机构证明产品、服务、管理体系符合相关技术规范的强制性要求或者标准的合格评定活动。其中产品认证是通过对产品的不同层级认证实现各级材料的可追溯性。认证按照内容分类大致包括&#xff1a;安全、电磁兼容&#xff08;EMC&#xff09;和环保等。按照必要…

PyTorch 中通道在最后的内存格式(beta)

PyTorch 中通道在最后的内存格式&#xff08;beta&#xff09; 什么是通道在最后 通道在最后的内存格式是在保留内存尺寸的顺序中对 NCHW 张量进行排序的另一种方法。 通道最后一个张量的排序方式使通道成为最密集的维度&#xff08;又称为每像素存储图像&#xff09;。 例如…

Java——《面试题——SpringCloud》

前文 java——《面试题——基础篇》 Java——《面试题——JVM篇》 Java——《面试题——多线程&并发篇》 Java——《面试题——Spring篇》 Java——《面试题——SpringBoot篇》 Java——《面试题——MySQL篇》​​​​​​ 目录 前文 1、什么是SpringCloud 2、什…

实战:NPMYARN构建工具实践-2023.6.22(测试成功)

实战&#xff1a;NPM&YARN构建工具实践-2023.6.22(测试成功) 目录 推荐文章 https://www.yuque.com/xyy-onlyone/aevhhf?# 《玩转Typora》 实验环境 gitlab/gitlab-ce:15.0.3-ce.0 jenkins/jenkins:2.346.3-2-lts-jdk11 openjdk 11.0.18 [rootDevops6 ~]#npm -v 6.14.12…

智能汽车 | 整车控制器(VCU)系统框图,功能拆解及供应商排名

摘要&#xff1a; 随着新能源EE架构的迭代及控制单元集成度越来越高&#xff0c;VCU的功能可能会被拆解到中央控制器域控制器&#xff0c;或者拆解到多合一的控制单元&#xff1b; VCU&#xff08;Vehicle Control Unit&#xff09;即整车控制器&#xff0c;是新能源汽车控制系…

JavaSE基础语法--static成员

假设我们现在有一个场景&#xff0c;定义一个学生类。 class Student{private String name;private int age;private int classroom_num;public Student(String name, int age, int classroom_num) {this.name name;this.age age;this.classroom_num classroom_num;} } pu…