如何在脱敏数据中使用BERT等预训练模型

如何在脱敏数据中使用BERT等预训练模型

news2026/2/13 1:23:00

前几天有朋友问了一下【小布助手短文本语义匹配竞赛】的问题，主要是两个；

如何在脱敏数据中使用BERT；
基于此语料如何使用NSP任务；

比赛我没咋做，因为我感觉即使认真做也打不过前排大佬[囧]，太菜了；不过我可以分享一下我自己的经验；

对于脱敏语料使用BERT，一般可以分为两种：

第一种就是直接从零开始基于语料训练一个新的BERT出来使用；

第二种就是按照词频，把脱敏数字对照到中文或者其他语言【假如我们使用中文】，使用中文BERT做初始化，然后基于新的中文语料训练BERT；

大家可以先看一下当时我的回复：

然后我发现很多朋友对于预训练模型其实理解的还是不深刻，很疑惑为什么在脱敏数据中也可以训练BERT等预训练模型；

其实这一点很容易理解，就像我截图中说到的：

最开始BERT是用英文语料训练出来的，然后有朋友基于中文语料开源了中文的BERT；

那么我的脱敏数字就是类似于中文的一种另外的语言，你可以看成是【X】语言，我们当然可以基于【X】语言的语料去训练一个新的BERT或者其他的预训练模型了；

有的朋友谈到了NSP任务如何去使用的问题；

很明显，在当前这个任务中是一个文本匹配的形式；

语料不是我们自己有主动的去获取的能力，所以构造一个NSP任务的格式比较困难；

但是NSP任务仅仅是一种任务形式，我们完全可以基于训练语料构造一个是否匹配的任务，可以称之为类NSP任务；

基于此，测试数据是使用不了的，因为测试数据没有label；

不过，我自己认为可以测试数据使用MLM任务，训练数据使用MLM+类NSP任务；

更加具体大家可以看我当时的回复：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1106083.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

RK3288 Android11 RTL8723DS WiFi 和蓝牙Bluetooth 适配

RK3288 Android11 RTL8723DS WiFi 和蓝牙Bluetooth 适配

目录一、RTL8723DS WiFi 适配 --- 篇章1、原理图分析（WiFi部分）补充:RTL8723DS时钟输入源讲解 2、根据原理图修改设备树和编辑驱动文件3、实验验证4、RTL8723DS WIFI驱动参考文档和博客网站二、RTL8723DS 蓝牙Bluetooth 适配 --- 篇章1、原理图分析&am…

阅读更多...

使用 LF Edge eKuiper 将物联网流处理数据写入 Databend

使用 LF Edge eKuiper 将物联网流处理数据写入 Databend

作者：韩山杰 Databend Cloud 研发工程师 https://github.com/hantmac LF Edge eKuiper LF Edge eKuiper 是 Golang 实现的轻量级物联网边缘分析、流式处理开源软件，可以运行在各类资源受限的边缘设备上。eKuiper 的主要目标是在边缘端提供一个流媒体软件…

阅读更多...

怎样正确做 Web 应用的压力测试？

怎样正确做 Web 应用的压力测试？

Web应用，通俗来讲就是一个网站，主要依托于浏览器来访问其功能。那怎么正确做网站的压力测试呢？ 提到压力测试，我们想到的是服务端压力测试，其实这是片面的，完整的压力测试包含服务端压力测试和前端压力测…

阅读更多...

hue实现对hiveserver2 的负载均衡

hue实现对hiveserver2 的负载均衡

如果你使用的是CDH集群那就很是方便的在Cloudera Manager中，进入HDFS Service 进入Instances标签页面，点击Add Role Instances按钮，如下图所示点击Continue按钮，如下图所示返回Instances页面，选择HttpFS角色…

阅读更多...

Jmeter测试添加凭证和导出压测结果

Jmeter测试添加凭证和导出压测结果

选中测试计划中的HTTP请求，右键-->添加配置元件-->HTTP信息头管理器，在窗口中添加如果是post请求，还需在信息头管理器中添加Content-Type:application/json 导出聚合报告

阅读更多...

数学建模——最大流问题（配合例子说明）

数学建模——最大流问题（配合例子说明）

目录一、最大流有关的概念例1 1、容量网络的定义 2、符号设置 3、建立模型 3.1 每条边的容量限制 3.2 平衡条件 3.3 网络的总流量 4、网络最大流数学模型 5、计算二、最小费用流例2 【符号说明】【建立模型】 （1）各条边的流量限制 &a…

阅读更多...

（Python）使用Matplotlib将x轴移动到绘图顶部

（Python）使用Matplotlib将x轴移动到绘图顶部

移动前： 我们有两种方法可以实现这个目标： import warnings warnings.filterwarnings(ignore)import numpy as np import matplotlib.pyplot as pltcolumn_labels list(ABCD) row_labels list(WXYZ)data np.random.rand(4, 4)fig, ax plt.subplots(…

阅读更多...

手写商用Java虚拟机HotSpot，疯狂磨砺技术中

手写商用Java虚拟机HotSpot，疯狂磨砺技术中

在当前Java行业激烈竞争的形式下，唯有掌握技术，心中才不能慌。在多年前，我就开始苦练底层技术，但是眼看百遍也不如手过一遍，所以我打算把虚拟机的精华实现部分用手敲出来，这个过程注定不会轻松，…

阅读更多...

基于springboot的学生宿舍管理系统(源码+LW+调试)

基于springboot的学生宿舍管理系统(源码+LW+调试)

项目描述临近学期结束，还是毕业设计，你还在做java程序网络编程，期末作业，老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下，你想解决的问…

阅读更多...

副业兼职做什么好呢？七个线上兼职线下副业可供选择

副业兼职做什么好呢？七个线上兼职线下副业可供选择

生活节奏的加快，人们的生活压力也与日俱增。为了缓解压力、增加收入，许多人都开始寻找副业兼职的机会。副业兼职不仅可以帮助我们应对经济困境，更可以为我们的生活注入新的乐趣和意义。但是在众多的副业兼职选择中，该如何找到适合…

阅读更多...

(1)攻防世界web-Training-WWW-Robots

(1)攻防世界web-Training-WWW-Robots

1.开启环境，查看网页翻译一下 2.前往robots.txt 命令：http://61.147.171.105:57663/robots.txt 3.前往fl0g.php 命令：http://61.147.171.105:57663/fl0g.php 4.得到flag cyberpeace{92ec1ef9b6d900100399093b9ae9e386}

阅读更多...

python烟花代码

python烟花代码

下面是一个用Python编写的简单烟花特效代码，使用了Pygame库来实现图形显示。请确保你已经安装了Pygame库，如果没有安装，可以使用pip install pygame来安装。 import pygame import random# 初始化Pygame pygame.init()# 屏幕大小 width, hei…

阅读更多...

热点报告 | 解压经济成为新风向，素人改造踩中用户痛点

热点报告 | 解压经济成为新风向，素人改造踩中用户痛点

您是否曾有以下困惑？打开小红书首页推荐，似乎已经被算法教育成了成熟的信息茧房，想要找到下一个热点，又忧虑一叶以障目；看着搜索框热词，又担心无法掌握热词背后的话题命脉，难以在浮光掠影中寻找…

阅读更多...

【学位论文】GB/T 7714-2015引用的快捷操作方法

【学位论文】GB/T 7714-2015引用的快捷操作方法

GB/T 7714-2015《信息与文献参考文献著录规则》于2015年12月1日开始实施，成为了目前国内主流的学位论文引用格式之一。本文介绍一种比较方便简单的引用方法。 7714示例： [1] He K, Gkioxari G, Dollr P, et al. Mask r-cnn[C]//Proceedings of the IEEE …

阅读更多...

web安全之XSS攻击

web安全之XSS攻击

什么是XSS攻击 XSS（Cross-Site Scripting）又称跨站脚本，XSS的重点不在于跨站点，而是在于脚本的执行。XSS是一种经常出现在 Web 应用程序中的计算机安全漏洞，是由于 Web 应用程序对用户的输入过滤不足而产生的。常见…

阅读更多...

基于react18+arco+zustand通用后台管理系统React18Admin

基于react18+arco+zustand通用后台管理系统React18Admin

React-Arco-Admin轻量级后台管理系统解决方案基于vite4构建react18后台项目ReactAdmin。使用了reactarco-designzustandbizcharts等技术架构非凡后台管理框架。支持 dark/light主题、i18n国际化、动态路由鉴权、3种经典布局、tabs路由标签等功能。技术框架编辑器&#xff…

阅读更多...

pip install huggingface_hub时报错

pip install huggingface_hub时报错

pip install huggingface_hub时报错： 可以尝试：pip install --upgrade huggingface_hub 进行安装方法参考了：https://blog.csdn.net/m0_72295867/article/details/132060750

阅读更多...

vue.js - 断开发送的请求，解决接口重复请求数据错误问题（vue中axios多次相同请求中断上一个）

vue.js - 断开发送的请求，解决接口重复请求数据错误问题（vue中axios多次相同请求中断上一个）

描述进入页面时第一个接口还在请求，立即切换tab请求第二个接口。但是第二个接口响应比第一个接口响应快，页面展示的时第一个接口的数据，如图：解决方法判断如果是相同的接

阅读更多...

谷歌浏览器跨域及--disable-web-security无效解决办法

谷歌浏览器跨域及--disable-web-security无效解决办法

谷歌浏览器跨域设置 （1）创建一个目录，例如我在C盘创建MyChromeDevUserData文件夹 （2） 在桌面选择谷歌浏览器右键 -> 属性 -> 快捷方式 -> 目标，添加--disable-web-security --user-data-dirC:\M…

阅读更多...

第六届物业管理创新发展论坛在深召开，鹏业受邀参加并发表主题演讲

第六届物业管理创新发展论坛在深召开，鹏业受邀参加并发表主题演讲

10月12日至14日，由中国物业管理协会（以下简称“中物协”）主办，物业管理行业唯一报备商务部的国际性展会——2023中国国际物业管理产业博览会（以下简称“物博会”）在深圳会展中心隆重举行。本届物博会同期还…

阅读更多...

推荐文章

最新文章