如何在脱敏数据中使用BERT等预训练模型

news2024/11/18 9:34:09

前几天有朋友问了一下【小布助手短文本语义匹配竞赛】的问题,主要是两个;

  1. 如何在脱敏数据中使用BERT;
  2. 基于此语料如何使用NSP任务;

比赛我没咋做,因为我感觉即使认真做也打不过前排大佬[囧],太菜了;不过我可以分享一下我自己的经验;

对于脱敏语料使用BERT,一般可以分为两种:

第一种就是直接从零开始基于语料训练一个新的BERT出来使用;

第二种就是按照词频,把脱敏数字对照到中文或者其他语言【假如我们使用中文】,使用中文BERT做初始化,然后基于新的中文语料训练BERT;

大家可以先看一下当时我的回复:

img

img

然后我发现很多朋友对于预训练模型其实理解的还是不深刻,很疑惑为什么在脱敏数据中也可以训练BERT等预训练模型;

其实这一点很容易理解,就像我截图中说到的:

最开始BERT是用英文语料训练出来的,然后有朋友基于中文语料开源了中文的BERT;

那么我的脱敏数字就是类似于中文的一种另外的语言,你可以看成是【X】语言,我们当然可以基于【X】语言的语料去训练一个新的BERT或者其他的预训练模型了;

有的朋友谈到了NSP任务如何去使用的问题;

很明显,在当前这个任务中是一个文本匹配的形式;

语料不是我们自己有主动的去获取的能力,所以构造一个NSP任务的格式比较困难;

但是NSP任务仅仅是一种任务形式,我们完全可以基于训练语料构造一个是否匹配的任务,可以称之为类NSP任务;

基于此,测试数据是使用不了的,因为测试数据没有label;

不过,我自己认为可以测试数据使用MLM任务,训练数据使用MLM+类NSP任务;

更加具体大家可以看我当时的回复:

img

img

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1106083.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RK3288 Android11 RTL8723DS WiFi 和 蓝牙Bluetooth 适配

目录 一、RTL8723DS WiFi 适配 --- 篇章1、原理图分析(WiFi部分)补充:RTL8723DS时钟输入源讲解 2、根据原理图修改设备树和编辑驱动文件3、实验验证4、RTL8723DS WIFI驱动参考文档和博客网站 二、RTL8723DS 蓝牙Bluetooth 适配 --- 篇章1、原理图分析&am…

使用 LF Edge eKuiper 将物联网流处理数据写入 Databend

作者:韩山杰 Databend Cloud 研发工程师 https://github.com/hantmac LF Edge eKuiper LF Edge eKuiper 是 Golang 实现的轻量级物联网边缘分析、流式处理开源软件,可以运行在各类资源受限的边缘设备上。eKuiper 的主要目标是在边缘端提供一个流媒体软件…

怎样正确做 Web 应用的压力测试?

Web应用,通俗来讲就是一个网站,主要依托于浏览器来访问其功能。 那怎么正确做网站的压力测试呢? 提到压力测试,我们想到的是服务端压力测试,其实这是片面的,完整的压力测试包含服务端压力测试和前端压力测…

hue实现对hiveserver2 的负载均衡

如果你使用的是CDH集群那就很是方便的 在Cloudera Manager中,进入HDFS Service 进入Instances标签页面,点击Add Role Instances按钮,如下图所示 点击Continue按钮,如下图所示 返回Instances页面,选择HttpFS角色…

Jmeter测试添加凭证和导出压测结果

选中测试计划中的HTTP请求,右键-->添加配置元件-->HTTP信息头管理器,在窗口中添加 如果是post请求,还需在信息头管理器中添加Content-Type:application/json 导出聚合报告

数学建模——最大流问题(配合例子说明)

目录 一、最大流有关的概念 例1 1、容量网络的定义 2、符号设置 3、建立模型 3.1 每条边的容量限制 3.2 平衡条件 3.3 网络的总流量 4、网络最大流数学模型 5、计算 二、最小费用流 例2 【符号说明】 【建立模型】 (1)各条边的流量限制 &a…

(Python)使用Matplotlib将x轴移动到绘图顶部

移动前: 我们有两种方法可以实现这个目标: import warnings warnings.filterwarnings(ignore)import numpy as np import matplotlib.pyplot as pltcolumn_labels list(ABCD) row_labels list(WXYZ)data np.random.rand(4, 4)fig, ax plt.subplots(…

手写商用Java虚拟机HotSpot,疯狂磨砺技术中

在当前Java行业激烈竞争的形式下,唯有掌握技术,心中才不能慌。在多年前,我就开始苦练底层技术,但是眼看百遍也不如手过一遍,所以我打算把虚拟机的精华实现部分用手敲出来,这个过程注定不会轻松,…

基于springboot的学生宿舍管理系统(源码+LW+调试)

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下,你想解决的问…

副业兼职做什么好呢?七个线上兼职线下副业可供选择

生活节奏的加快,人们的生活压力也与日俱增。为了缓解压力、增加收入,许多人都开始寻找副业兼职的机会。副业兼职不仅可以帮助我们应对经济困境,更可以为我们的生活注入新的乐趣和意义。但是在众多的副业兼职选择中,该如何找到适合…

(1)攻防世界web-Training-WWW-Robots

1.开启环境,查看网页 翻译一下 2.前往robots.txt 命令:http://61.147.171.105:57663/robots.txt 3.前往fl0g.php 命令:http://61.147.171.105:57663/fl0g.php 4.得到flag cyberpeace{92ec1ef9b6d900100399093b9ae9e386}

python烟花代码

下面是一个用Python编写的简单烟花特效代码,使用了Pygame库来实现图形显示。请确保你已经安装了Pygame库,如果没有安装,可以使用pip install pygame来安装。 import pygame import random# 初始化Pygame pygame.init()# 屏幕大小 width, hei…

热点报告 | 解压经济成为新风向,素人改造踩中用户痛点

您是否曾有以下困惑?打开小红书首页推荐,似乎已经被算法教育成了成熟的信息茧房,想要找到下一个热点,又忧虑一叶以障目;看着搜索框热词,又担心无法掌握热词背后的话题命脉,难以在浮光掠影中寻找…

【学位论文】GB/T 7714-2015引用的快捷操作方法

GB/T 7714-2015《信息与文献参考文献著录规则》于2015年12月1日开始实施,成为了目前国内主流的学位论文引用格式之一。本文介绍一种比较方便简单的引用方法。 7714示例: [1] He K, Gkioxari G, Dollr P, et al. Mask r-cnn[C]//Proceedings of the IEEE …

web安全之XSS攻击

什么是XSS攻击 XSS(Cross-Site Scripting)又称跨站脚本,XSS的重点不在于跨站点,而是在于脚本的执行。XSS是一种经常出现在 Web 应用程序中的计算机安全漏洞,是由于 Web 应用程序对用户的输入过滤不足而产生的。 常见…

基于react18+arco+zustand通用后台管理系统React18Admin

React-Arco-Admin轻量级后台管理系统解决方案 基于vite4构建react18后台项目ReactAdmin。使用了reactarco-designzustandbizcharts等技术架构非凡后台管理框架。支持 dark/light主题、i18n国际化、动态路由鉴权、3种经典布局、tabs路由标签 等功能。 技术框架 编辑器&#xff…

pip install huggingface_hub时报错

pip install huggingface_hub时报错: 可以尝试:pip install --upgrade huggingface_hub 进行安装 方法参考了:https://blog.csdn.net/m0_72295867/article/details/132060750

vue.js - 断开发送的请求,解决接口重复请求数据错误问题(vue中axios多次相同请求中断上一个)

描述 进入页面时第一个接口还在请求,立即切换tab请求第二个接口。但是第二个接口响应比第一个接口响应快,页面展示的时第一个接口的数据,如图: 解决方法 判断如果是相同的接

谷歌浏览器跨域及--disable-web-security无效解决办法

谷歌浏览器跨域设置 (1)创建一个目录,例如我在C盘创建MyChromeDevUserData文件夹 (2) 在桌面选择谷歌浏览器右键 -> 属性 -> 快捷方式 -> 目标,添加--disable-web-security --user-data-dirC:\M…

第六届物业管理创新发展论坛在深召开,鹏业受邀参加并发表主题演讲

10月12日至14日,由中国物业管理协会(以下简称“中物协”)主办,物业管理行业唯一报备商务部的国际性展会——2023中国国际物业管理产业博览会(以下简称“物博会”)在深圳会展中心隆重举行。 本届物博会同期还…