论文笔记:利用词对比注意增强预训练汉字表征

news2024/10/7 8:26:33

整理了 ACL2020短文 Enhancing Pre-trained Chinese Character Representation with Word-aligned Att)论文的阅读笔记

  • 背景
  • 模型
  • 实验

论文地址:论文

背景

  近年来,以 BERT 为代表的预训练模型在 NLP 领域取得取得了非常显著的效果。但是,已有的中文预训练模型大多以汉字为基本单位,根据汉字的外部语境学习表征,基于字粒度计算 Attention , 没有利用中文的分词知识。本文提出了一种新的词对齐注意来挖掘显式词信息,对各种基于字符的中文预训练语言模型的表征进行增强。

模型

  对于n个字符的输入序列表示为 S = [ c 1 , c 2 , . . . , c n ] S=[c_1,c_2,...,c_n] S=[c1,c2,...,cn] c j c_j cj表示输入序列的第j个字符,也就是汉字。使用分词工具 π \pi π对序列进行分词: π ( S ) = [ w 1 , w 2 , . . . , w m ] , ( m < = n ) \pi(S)=[w_1,w_2,...,w_m],(m<=n) π(S)=[w1,w2,...,wm],(m<=n),这里面的w就是一个个子序列,代表了由几个字符构成的词语,它们是不相交的,表述为 w i = { c s , c s + 1 , . . . , c s + l − 1 } w_i=\{c_s,c_{s+1},...,c_{s+l-1}\} wi={cs,cs+1,...,cs+l1}
  对于预训练的输出的字符级的表示,首先算一个自注意矩阵 A c ∈ R n × n A_c\in R^{n×n} AcRn×n A c = F ( H ) = s o f t m a x ( ( K W k ) ( Q W + q ) T d ) A_c = F(H)=softmax(\frac{(KW_k)(QW+q)^T}{\sqrt d}) Ac=F(H)=softmax(d (KWk)(QW+q)T)  其中,K和Q都是H(预训练模型最后一层的字符级表示)分别作为kays和quire参与计算, W k W_k Wk W q W_q Wq是可学习参数,维度是d×d, A c A_c Ac矩阵在不考虑词边界的情况下对字符级之间的相似度进行建模。
  本文的做法就是,利用这个相似度矩阵和上面的分词信息,在单词内部对字符相似度进行整和,首先将 A c A_c Ac表示为 [ a c 1 , a c 2 , . . . , a c n ] [a_c^1,a_c^2,...,a_c^n] [ac1,ac2,...,acn]其中 a c i a_c^i aci就是 A c A_c Ac矩阵的一行,它表示某个字符对其它字符的注意力向量,利用分词结果对注意力矩阵进行划分: π ( A c ) = [ { a c 1 , a c 2 } , { a c 3 } , . . . , { a c n − 1 , a c n } ] \pi(A_c)=[\{a_c^1,a_c^2\},\{a_c^3\},...,\{a_c^{n-1},a_c^n\}] π(Ac)=[{ac1,ac2},{ac3},...,{acn1,acn}]  然后,本文设计了一个聚合模块对词内注意力进行聚合,将根据分词结果划分好的注意力序列 a c s , . . . , a c s + l − 1 {a_c^s,...,a_c^{s+l-1}} acs,...,acs+l1转变成一个统一的 a w i a_w^i awi,它对应着词 w i w_i wi,具体计算过程为: a w i = λ M a x p o o l i n g ( { a c s , . . . , a c s + l − 1 } ) + ( 1 − λ ) M e a n p o o l i n g ( { a c s , . . . , a c s + l − 1 } ) a_w^i=\lambda Maxpooling(\{a_c^s,...,a_c^{s+l-1}\})+(1-\lambda)Meanpooling(\{a_c^s,...,a_c^{s+l-1}\}) awi=λMaxpooling({acs,...,acs+l1})+(1λ)Meanpooling({acs,...,acs+l1}) A ^ c [ s : s + l − 1 ] = e l ⋅ a w i \hat A_c[s:s+l-1]=e_l\cdot a_w^i A^c[s:s+l1]=elawi  其中, λ \lambda λ是一个自适应学习的参数, e l e^l el是一个全1向量,也就是说把这个词内的注意力结果进行聚合统一了。最终得到增强后的H: H ^ = A ^ c V W \hat H=\hat A_cVW H^=A^cVW  其中,V就是H,W是一个科学系矩阵,这样我们就通过分词对预训练模型的结果进行了增强。
在这里插入图片描述
  也可以进行多头的,在多头注意力架构下,最终结果为: H ˉ = C o n c a t ( H ^ 1 , H ^ 2 , , . . . , H ^ K ) \bar H=Concat(\hat H^1,\hat H^2,,...,\hat H^K) Hˉ=Concat(H^1,H^2,,...,H^K)  此外,由于歧义和非形式化输入的风险,分割器通常是不可靠的,特别是在域外数据上,这可能导致错误传播和令人不满意的模型性能。我们也可以使用多个不同的分词器(M个)得到M个最终的表示 H ˉ 1 , . . . , H ˉ M \bar H^1,...,\bar H^M Hˉ1,...,HˉM,文中建议的融合方式为: H ~ = ∑ m = 1 M t a n h ( H ˉ m W g ) \tilde H=\sum_{m=1}^Mtanh(\bar H^mW_g) H~=m=1Mtanh(HˉmWg)

实验

  选择了三个公开可用的中文预训练模型作为基本编码器:BERT、ERNIE和BERT-wwm。在5个中文自然语言处理任务和6个公共基准数据集上进行了实验。实验设置:
在这里插入图片描述实验结果:在这里插入图片描述消融实验:在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1466441.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于git子模块实践(一)

背景 在日常项目开发中&#xff0c;随着项目的迭代&#xff0c;不可避免的是主项目会引入到很多三方库&#xff0c;或者自研的一些模块。有一种场景&#xff0c;就是这些模块&#xff0c;是随着开发而进行迭代&#xff0c;且多个项目公用的&#xff0c;这种情况&#xff0c;在…

【算法与数据结构】回溯算法、贪心算法、动态规划、图论(笔记三)

文章目录 七、回溯算法八、贪心算法九、动态规划9.1 背包问题9.2 01背包9.3 完全背包9.4 多重背包 十、图论10.1 深度优先搜索10.2 广度优先搜索10.3 并查集 最近博主学习了算法与数据结构的一些视频&#xff0c;在这个文章做一些笔记和心得&#xff0c;本篇文章就写了一些基础…

HTML5和CSS3提高

一、HTML5的新特性 增加了一些新的标签&#xff0c;新的表单&#xff0c;新的表单属性&#xff0c;IE9以上版本的浏览器才支持 注意&#xff1a; 这些语义化标准主要针对搜索引擎的 新标签可以使用多次 在IE9中需要把这些元素转化为块级元素 新增的多媒体标签 主要包含两个…

Vue事件处理之v-on

1. 使用及定义 定义方法 function 方法名称(接受的event或是什么都不写) {//不管方法后括号内写与不写event,都可以接受到方法内表达式 }//定义一个接受参数的方法,此时也会在传入event function 方法名称(传入参数) {//可接受传入参数与event方法内表达式 } //定义一个接受参…

DevOps 周期的 6 个 C

中型到大型软件开发项目涉及许多人员、多个团队、资源、工具和开发阶段。它们都需要以某种方式进行管理和简化&#xff0c;不仅可以获得所需的产品&#xff0c;而且还要确保将来在不断变化的环境下易于管理和维护。组织通常遵循许多项目管理模型和技术。DevOps 是其中之一&…

如何通过Jenkins进行自动化构建项目

1. 介绍 Jenkins 是一个开源的持续集成&#xff08;CI&#xff09;和持续交付&#xff08;CD&#xff09;工具&#xff0c;旨在自动化软件开发过程中的构建、测试和部署。它是一个基于 Java 编写的自动化服务器&#xff0c;在软件开发生命周期的各个阶段提供自动化支持。 官方…

ARM服务器部署Kafka集群

安装前必备的条件是: (1)安装jdk(提供环境); (2)安装zookeeper(注册kafka信息); 需要这方面信息的可以查看我之前写的文档; 一.下载安装包 Kafka官网下载地址 Apache Kafka 根据自己需要下载相应的版本 目前最新的版本是3.6.1。 二.解压安装包 服务器上传下载好的kafk…

MIT6.S081学习——二、相关命令行整理

MIT6.S081学习——二、相关命令行整理 1 添加user代码到xv6中并编译2 git版本管理 1 添加user代码到xv6中并编译 问题&#xff1a;如何让在xv6中运行copy.c 答&#xff1a;在xv6中运行copy.c文件&#xff0c;你需要先将该文件添加到xv6源代码目录中&#xff0c;然后修改Makefil…

备战蓝桥杯---动态规划(应用3之空间优化)

话不多说&#xff0c;直接看题&#xff1a; 我们不妨把问题抽象一下&#xff1a; 首先&#xff0c;我们由裴蜀定理知道如果两个数互质&#xff0c;那么axbyc一定有整数解&#xff08;只要c为1的倍数也就是整数&#xff09;&#xff0c;因此问题就转换为求选一些数使他们gcd1&a…

240Hz高刷电竞显示器 - HKC VG253KM

&#x1f389;&#x1f389;&#x1f389; 各位电竞爱好者们&#xff0c;今天给大家带来一款神秘武器&#xff0c;一款能够让你在游戏中大展拳脚的高刷电竞显示器 - HKC VG253KM&#xff01;&#x1f525;&#x1f525;&#x1f525; 这款显示器&#xff0c;哎呀&#xff0c;真…

windows前后端项目部署

装好windows虚拟机 1.远程连接 计算机右击属性&#xff0c;高级防火墙设置&#xff0c;远程连接服务允许 2.安装jdk,tomcat&#xff0c;解压工具 把安装包拖进去 双击安装解压软件 jdk安装 双击安装 配置环境变量&#xff08;复制jdk路径&#xff09; 计算机右击属性高级…

Unity 2021.3发布WebGL设置以及nginx的配置

使用unity2021.3发布webgl 使用Unity制作好项目之后建议进行代码清理&#xff0c;这样会即将不用的命名空间去除&#xff0c;不然一会在发布的时候有些命名空间webgl会报错。 平台转换 将平台设置为webgl 设置色彩空间压缩方式 Compression Format 设置为DisabledDecompre…

Linux学习方法-框架学习法——Linux驱动架构的演进

配套视频学习链接&#xff1a;https://www.bilibili.com/video/BV1HE411w7by?p4&vd_sourced488bc722b90657aaa06a1e8647eddfc 目录 Linux驱动演进的过程 Linux驱动的原始架构(Linux V2.4) 平台总线架构(platform) Linux设备树 Linux驱动演进的趋势 Linux驱动演进的过程…

python 3.7.3的安装

参考 Linux安装Python3.7-良许Linux教程网 (lxlinux.net) 1、Index of /ftp/python/3.7.9/ 1、安装gcc&#xff0c;yum -y install gcc 2、 yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel…

Redis篇之缓存雪崩、击穿、穿透详解

学习材料&#xff1a;https://xiaolincoding.com/redis/cluster/cache_problem.html 缓存雪崩 什么是缓存雪崩 在面对业务量较大的查询场景时&#xff0c;会把数据库中的数据缓存至redis中&#xff0c;避免大量的读写请求同时访问mysql客户端导致系统崩溃。这种情况下&#x…

【前端素材】推荐优质后台管理系统Frest平台模板(附源码)

一、需求分析 定义 后台管理系统是一种用于管理和控制网站、应用程序或系统后台操作的软件工具&#xff0c;通常由授权用户&#xff08;如管理员、编辑人员等&#xff09;使用。它提供了一种用户友好的方式来管理网站或应用程序的内容、用户、数据等方面的操作&#xff0c;并…

【SpringCloudAlibaba系列--OpenFeign组件】OpenFeign的配置、使用与测试以及OpenFeign的负载均衡

步骤一 准备两个服务&#xff0c;provider和consumer 本文使用kotlin语言 provider是服务的提供者&#xff0c;由provider连接数据库 RestController RequiredArgsConstructor RequestMapping("/provider/depart") class DepartController(private val departServ…

使用Postman和JMeter进行signature签名

一、前言 ​ 有些接口的请求会带上sign&#xff08;签名&#xff09;进行请求&#xff0c;各接口对sign的签名内容、方式可能不一样&#xff0c;但一般都是从接口的入参中选择部分内容组成一个字符串&#xff0c;然后再进行签名操作, 将结果赋值给sign; 完整规范的接口文档都会…

对Redis锁延期的一些讨论与思考

上一篇文章提到使用针对不同的业务场景如何合理使用Redis分布式锁&#xff0c;并引入了一个新的问题 若定义锁的过期时间是10s&#xff0c;此时A线程获取了锁然后执行业务代码&#xff0c;但是业务代码消耗时间花费了15s。这就会导致A线程还没有执行完业务代码&#xff0c;A线程…

C++案例->评委打分、员工分组

#include<iostream> using namespace std; #include<vector> #include<string> #include<deque> #include<algorithm> #include<ctime> /* 有5名选手&#xff1a;选手ABCDE&#xff0c;10个评委分别对每一名选手打分&#xff0c;去除最高分…