Global Attention Decoder for Chinese Spelling Error Correction(ACL2021)

news2024/9/21 22:45:04

Global Attention Decoder for Chinese Spelling Error Correction(ACL2021)

一.概述

在这里插入图片描述

作者认为现有的纠错方法大多是基于局部上下文信息进行纠错,没有考虑句子中错词的影响。将注意力放在错误上下文信息上可能会误导并降低CSC(Chinese Spelling Correction)的整体性能。为此,提出了一种用于CSC的全局注意力解码器(GAD)方法。具体而言,该方法学习了潜在正确输入字符与潜在错误候选字符之间的全局关系。获得丰富的全局上下文信息,减轻了局部错误上下文信息的影响。此外,设计了一种带有混淆集引导的BERT替换策略(BERT_CRS -> Confusion set guided Replacement Strategy),以缩小BERT与CSC之间的差距。BERT_CRS生成的候选词覆盖正确字符的概率超过99.9%。

本文首先提出了一种带混淆集引导的BERT替换策略(BERT_CRS),缩小了BERT与CSC任务之间的差距。然后,我们提出了一种新的基于BERT_CRS模型的全局注意解码器(GAD),它学习了丰富的全局上下文表示,以减轻错误上下文信息在校正过程中的影响。具体来说,为了解决局部错误上下文信息的影响,我们引入了BERT_CRS生成的潜在错误字符和隐藏状态的附加候选。然后,全局注意力组件学习候选对象之间的关系,得到候选对象的全局隐藏状态和全局潜在关注权重。然后,对候选字符进行加权和运算,生成丰富的全局上下文隐藏状态。最后一个全连接层来生成正确的字符。

本文主要贡献如下:

A.为了缩小BERT和CSC之间的差距,我们引入了一种带有混淆集引导替换策略的BERT,该策略包含一个决策网络和一个全连接层,分别模拟CSC的检测子任务和校正子任务。

B.提出了一种全局注意解码器模型,该模型学习潜在正确输入字符和潜在错误字符候选字符之间的全局关系。学习了丰富的全局上下文信息,有效减轻了局部错误上下文信息的影响。

二.方法概述

在这里插入图片描述

1.问题定义

输入一个句子X={x1,x2,…,xn},n为字符数量,Bert_CRS模型将其编码成一个连续的表示空间V={v1,v2,…,vn},vi∈Rd是第i个字符的上下文特征,维度为d。决策网络Φd 对V建模去拟合一个序列Z={z1,z2,…,zn},这里的zi表示对第i个字符的检测label,1表示错误,0表示正确。Bert_CRS之上一个全连接层作为校正网络Φc ,此网络对V建模去拟合一个序列Y={y1,y2,…,yn},这里的yi第i个字符的正确label。全局注意力解码器GAD模型对额外的候选c={c1,c2,…,cn}进行建模,以减轻局部错误上下文信息的影响,其中c表示可能正确的输入字符和可能错误的候选字符:
在这里插入图片描述

以上的k是候选字符个数。t是字符错误概率的阈值。

2.CSC的Bert_CRS方法

引入了一种使用混淆集的替代策略,该策略缩小了BERT和CSC模型之间的差距。我们把这个模型称为BERT_CRS (BERT with Confusion set guided Replacement Strategy)。与BERT任务不同,BERT_CRS有几个修改:

A.放弃了NSP(bert的下一句预测)任务,采用了类似于CSC检测子任务的决策网络来检测错误信息。

B.作为MacBERT,我们引入了混淆集引导替换策略,通过替换语音和视觉相似的字符来达到屏蔽的目的,而不是使用[MASK] token进行屏蔽。当没有混淆字符时,我们将保留[MASK] token。该策略类似于CSC的纠错子任务。

C.使用23%的输入字符进行屏蔽。为了保持检测目标的平衡(0为未替换,1为替换),我们分别设置了35%、30%、30%、5%的概率用于不进行屏蔽、用混淆字符替换、用[MASK] token屏蔽和用随机单词替换。计算得到的替换概率和掩蔽概率与BERT的屏蔽概率大致相同。

使用混淆集引导替换策略训练模型,top-k个候选字符几乎都来自混淆集。这为GAD模型做了准备。

学习:类似RoBerta,混淆集引导替代策略在训练过程中采用动态方法。在学习过程中,错误检测和纠错同步优化:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2153501.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计算机网络】网络层协议解析

网络层的两种服务IPv4分类编址划分子网无分类地址 IPv4地址应用IP数据报的发送和转发过程主机发送IP数据报路由器转发IP数据报 IPv4数据报首部格式ICMP网际控制报文协议虚拟专用网VPN与网络地址转换NAT 网络层主要任务是实现网络互连,进而实现数据包在各网络之间的传…

快速掌握Matlab R2016a安装,就是这么简单

Matlab R2016a下载方法: Matlab R2016a安装教程: 1、右击下载好的压缩包,选择解压到Matlab R2016a 2、打开文件夹【R2016a_win64】,右击下面的setup.exe,选择【以管理员身份运行】 3、点击选择【使用文件安装密钥】&a…

2024华为杯研究生数学建模,代码思路和参考文章

F题X射线脉冲星光子到达时间建模, E题高速公路应急车道紧急启用模型, D题大数据驱动的地理综合问題, C题数据驱动下磁性元件的磁芯损耗建模, B题W LAN 组网中网络吞吐量建模, A题风电场有功功率优化分配&#xff…

ProtoBuf序列化框架介绍

文章目录 ProtoBuf介绍使用流程 QUICK START创建.proto文件注释语法编译部分代码展示使用接口运行结果 ProtoBuf介绍 ProtoBuf全称是Protocol Buffer,是一个数据结构的序列化和反序列化框架 他又很多好处,首先是他支持跨平台,支持Java、C、…

【Geoserver使用】启动方法与端口、跨域配置

文章目录 前言一、Windows和Linux下的启动方式1.Windows2.Linux 二、启动端口修改三、跨域配置总结 前言 之前写了一篇Geoserver下载页的文章, 【Geoserver使用】Geoserver下载页介绍(稳定版维护版开发版历史版本) 今天讲一下Geoserver启动方…

Hadoop的安装和使用

1. Hadoop简介 Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。 高可靠性。高效性。高可扩展性。高容错性。成本低。运行在Linux平台上。支持多种编程语言。 2. 分布…

【Linux课程学习】make/Makefile:Linux项目自动化构建工具

🎁个人主页:我们的五年 🔍系列专栏:Linux课程学习 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 🍉一.make/Makefile的理解: …

【我的 PWN 学习手札】House Of Karui —— tcache key 绕过手法

目录 前言 一、House of Karui 二、测试与模板 前言 早期版本的 tcachebin 由于毫无保护,导致攻击利用非常容易,成为重灾区。tcache dup,也即 tcachebin 中的 double free 利用手法,是攻击者常常选用的攻击方式。然而&#xf…

直通滤波-PassThrough Filter-原理-代码实现

前言 对坐标轴上的上下限进行约束,选取其中符合范围的点云区域使用场景:去除噪声点,关注特定区域,减小计算量 工作流程 假设我们要在 d d d 轴( d ∈ { x , y , z } d \in \{x, y, z\} d∈{x,y,z} )上…

【电路笔记】-运算放大器积分器

运算放大器积分器 文章目录 运算放大器积分器1、概述2、运算放大器积分器的表示2.1 理想积分器2.2 交流响应2.3 输出公式3、限制4、总结1、概述 在我们之前与运算放大器相关的大多数文章中,配置都是基于带有电阻器作为反馈环路、分压器或互连许多运算放大器的一部分的放大器。…

Redis数据结构之String字符串

二.String字符串 redis中的所有key都是字符串类型,只不过是value类型有差异。 redis中的字符串,直接就是按照二进制的方式存储的(不会做任何的编码转换(就好像mysql,它默认的字符集是拉丁文,插入中文就会…

Linux 基础IO 2

读取与写入 read与fread 在基础IO 1中我们学会了open和fopen的函数这两个函数是用于为进程打开文件也可以理解为为进程和文件建立了一个链接使其可以交互。那我们建立号链接之后肯定还是需要对文件进行操作,现在我们先来了解读取操作。 read: 这是一…

Leetcode面试经典150题-94.二叉树的中序遍历

给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输入:root [1,null,2,3] 输出:[1,3,2]示例 2: 输入:root [] 输出:[]示例 3: 输入:root [1] 输出&am…

SOMEIP_ETS_120: SD_Initial_Events_after_Subscribe_with_alternate_IPs

测试目的: 验证DUT在接收到Tester的SubscribeEventgroup消息后,能够向Tester指定的IP地址和端口发送SubscribeEventgroupAck确认消息以及对应的初始化字段。 描述 本测试用例旨在确保DUT能够正确处理SubscribeEventgroup消息,并按照消息中…

基于SpringBoot+Vue的健身房管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于JavaSpringBootVueMySQL的…

自动化直播的未来:2024年必试的10款自动直播App曝光,教你轻松玩转直播!

自动化直播的未来:2024年必试的10款自动直播App曝光,教你轻松玩转直播! 随着人工智能技术的飞速发展,自动化直播已经成为当下最热门的趋势之一。2024年,众多创新的AI自动直播App如雨后春笋般涌现,它们不仅…

IO流中的异常捕获

Java简化 接口AutoCloseable

unity3d入门教程九

unity3d入门教程九 20.2播放音频20.3在代码中播放21.1延时调用21.2invoke API21.3消息调用22.1交互界面22.2添加canvas22.3canavas的位置22.4添加text 这里给一个资源网站,可以部分免费下载,音乐和音效超多,支持检索 爱给网 https://www.aige…

【Delphi】创建应用程序和 LiveBindings示例(FMX)

一、创建一个FMX程序 界面上放置上如下3个控件:TProgressBar1, TArcDial1,TTrackBar1。 二、打开LiveBindings Designer 设计器 三、在 LiveBindings Designer 中,您的绑定图只包含对象,您可以将它们连接起来。 四、在设计器中,在…

idea 恢复 pom 文件呈现灰色并带删除线

今天在 idea 中导入别人的项目时发现有几个 pom 文件是灰色的并带删除线。 可以用以下方式解决: 打开file - settings - build,execution,deployment - Build Tools - Maven - Ignored Files 把 pom.xml 前面的复选框去掉,去掉之后,点击 appl…