论文阅读——ELECTRA

news2024/11/18 18:37:20

论文下载:https://openreview.net/pdf?id=r1xMH1BtvB

另一篇分析文章:ELECTRA 详解 - 知乎

一、概述

对BERT的token mask 做了改进。结合了GAN生成对抗模型的思路,但是和GAN不同。

不是对选择的token直接用mask替代,而是替换为一个生成器网络产生的token。

然后训练模型时并不是只被破坏的token,而是训练一个辨别模型来预测这些被破坏的输入的每一个token是否是被生成模型生成的样本替代的。因为将GANs应用于文本很困难,所以生成损坏token的生成器是以最大似然进行训练的。

小generator和大discriminator共同训练,但判别器的梯度不会传给生成器

fine-tuning 时丢弃generator,只使用discriminator

二、网络结构和训练

1、模型训练两个网络G和D。

        G:给定位置t,将该位置token替换为mask,输入到G,G输出一个概率,结合softmax层,来产生mask位置的xt,从而G产生损坏的输入。输出只在mask的token中计算分数,不是所有的token。

        D:给定位置t,D预测xt是否是真的。输出只在mask的token中预测是不是真的,不是所有的。

        对于给定一个随机位置序列,原始输入对应位置替换为[MASK] token,输入G,G学习恢复原始序列。D来分辨哪些token是被生成器产生的样本替换的。

文本损坏过程描述为:

2、损失函数为:

MLM损失的计算只计算m个,即m个被masked tokens

Disc损失 t的取值到 1..n,每个token都会更新参数

        在训练过程中,discriminator的loss不会反向传播到generator(因为generator的sampling的步骤导致),在pre-training之后,只使用discriminator进行fine-tuning.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1142070.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中国两轮“技术派”绿源,为全球电动市场带来跨越式方案

历史越长的行业,遇到变革之时,需要经历的考验、做出的突破就越多。两轮电动车,这个非常本土化的赛道,就是如此。 中国是两轮电动车产销大国,自上世纪晚期开始,中国两轮电动车迅速发展,绿源等一…

【Linux】虚拟机部署与发布J2EE项目(Windows版本)

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是Java方文山,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的专栏《微信小程序开发实战》。🎯&#x1f3a…

优思学院|精益管理的八步法

精益管理是什么?所谓的精,即少而精,不投入多余的生产要素,只是在适当的时间生产必要数量的市场急需产品(或下道工序急需的产品);所谓的益,即所有经营活动都要有益有效,具…

【C语言】字符函数与字符串函数

简单不先于复杂,而是在复杂之后。 目录 0. 前言 1. 函数介绍 1.1 strlen 1.1.1 介绍 1.1.2 strlen 函数模拟实现 1.1.2.1 计数器方法 1.1.2.2 递归方法 1.1.2.3 指针 - 指针方法 1.2 strcpy 1.2.1 介绍 1.2.2 strcpy 函数模拟实现 1.3 strcat 1…

TSINGSEE青犀睡岗离岗检测算法——确保加油站安全运营

众所周知,加油站是一个需要24小时营业的场所,由于夜间加油人员较少,员工极易处于疲劳或者睡眠状态,为保障安全和效率,通过TSINGSEE青犀睡岗离岗检测算法在加油站场景中,可以及时发现工作人员的疲劳状况&…

Python---while循环中else的基本语法(是同级关系)

为什么需要在while循环中添加else结构 循环可以和else配合使用, else下方缩进的代码指的是当循环正常结束之后要执行的代码。 强调: 循环 正常结束,else之后要执行的代码。 非正常结束,其else中的代码是不会执行的。&#…

【软考系统架构设计师】2023年系统架构师冲刺模拟习题之《数据库系统》

在数据库章节中可能会考察以下内容: 文章目录 数据库完整性约束🌟数据库模式🌟🌟ER模式🌟关系代数🌟🌟并发控制🌟数据仓库与数据挖掘🌟🌟反规范化技术&#x…

【卖断货攻略】抢先看:美国全品类30天爆量近2亿刀!

距离10月27日黑五大促正式上线不足6小时,你上车了吗? 看到TikTok美国市场近期的GMV走势图,就感觉这届黑五将不简单。 为助力跨境商家在这个关键节点做好最后准备,本期超店有数将从选品、营销两大角度为大家盘点现阶段TikTok Shop…

体系结构评估——(三)风险承担者

风险承担者分为系统生产者、系统消费者、系统服务人员和其他四大类。 其中系统生产者有:软件系统架构师、开发人员、维护人员、集成人员、测试人员、标准专家、 性能工程师、安全专家、项目经理、产品线经理。 系统消费者有:客户、最终用户、应用开发…

特征工程优化

参考链接 https://www.bilibili.com/video/BV1WN4y1k7R1/?buvidXU0E30D0C6006B7F1EE1425156434CFEC440F&from_spmidtm.recommend.0.0&is_story_h5false&midfMtk7pz9LsVpSyGt0Mcizg%3D%3D&p1&plat_id116&share_fromugc&share_mediumandroid&sh…

政务钉钉扫码登录(前端)

前提 使用 iframe 嵌入专有钉钉二维码页面,本篇仅说前端;需要申请 client_id 应用标识,但这里不赘述。详见此处;回调地址 redirect_uri,与服务器相关人员确认,但这里不赘述;扫码登录官方说明 …

LeetCode 1465. 切割后面积最大的蛋糕

矩形蛋糕的高度为 h 且宽度为 w,给你两个整数数组 horizontalCuts 和 verticalCuts,其中: horizontalCuts[i] 是从矩形蛋糕顶部到第 i 个水平切口的距离 verticalCuts[j] 是从矩形蛋糕的左侧到第 j 个竖直切口的距离 请你按数组 horizontalC…

【优选算法系列】第二节.双指针(202. 快乐数和11. 盛最多水的容器)

作者简介:大家好,我是未央; 博客首页:未央.303 系列专栏:优选算法系列 每日一句:人的一生,可以有所作为的时机只有一次,那就是现在!!!&#xff01…

了解接口测试只需3分钟

为什么要做接口测试? 在公司里,客户端和服务端通常是由不同的团队开发的,在项目开发过程中,客户端和服务端开发的进度不一致,比如服务端先开发完了,这个时候可以先对服务端进行接口测试,确保服…

douyin ios 8404六神参数学习记录

玩那么久安卓了,也终于换一换ios终端分析分析,还是熟悉的x-gorgon,x-argus,x-medusa那些参数。 随便抓个抖音 ios版本的接口: 像评论接口: https://api26-normal-hl.amemv.com/aweme/v2/comment/list/?…

OpenCV官方教程中文版 —— 傅里叶变换

OpenCV官方教程中文版 —— 傅里叶变换 前言一、原理二、Numpy 中的傅里叶变换三、OpenCV 中的傅里叶变换四、为什么拉普拉斯算子是高通滤波器? 前言 本小节我们将要学习: • 使用 OpenCV 对图像进行傅里叶变换 • 使用 Numpy 中 FFT(快速…

Linux下进程地址空间初步理解

进程地址空间 进程地址空间是操作系统为每个进程分配的一块内存空间,用于存储进程的代码、数据和堆栈等信息。进程地址空间是逻辑上独立而相互隔离的,每个进程拥有自己独立的地址空间,进程之间不能直接访问彼此的地址空间。 代码段&#xff…

<多线程章节四>如何使用synchronized解决线程不安全问题(原子性、内存可见性…)等等

文章目录 💡专栏导读💡文章导读💐线程不安全示例💐锁的特性💐产生线程不安全的原因:💐加锁的三种方式: 💡专栏导读 本篇文章收录于多线程,也欢迎翻阅博主的其…

mavros黑白名单设置

链接: mavros设置黑白名单 设置mavros黑白名单主要是通过插件的参数进行设置,如下: 这里是在px4_pluginlists.yaml参数文件中设置 plugin_blacklist: # common - safety_area - 3dr_radio - actuator_control - hil_controls - ftp - global_position …

表的约束【MySQL】

文章目录 什么是约束DEFAULT(默认约束)NULL 与 NOT NULL(非空约束)COMMENT(注释约束)ZEROFILL(零填充约束)UNIQUE(唯一键约束)*PRIMARY KEY(主键约…