230530-论文整理-课题组2

news2024/11/28 16:41:31

对这些研究有点兴趣颇微。

文章目录

  • Rethinking Dense Retrieval’s Few-Shot Ability
  • Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder
  • PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction
  • Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking

Rethinking Dense Retrieval’s Few-Shot Ability

我们定制了一个标准的FewDR数据集和评估协议,用于少量密集的检索。该数据集是在维基百科语料库上构建的,包含41,420个样本,有60个细粒度的类别。
具体内容上,和其他的dense retrieval方法,没有感觉到有太大的不同。
在这里插入图片描述

Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder

传统上,大部分seq2seq任务是由编码器-解码器框架解决的,它需要一个编码器来编码源序列,一个解码器来生成目标文本。

This paper aims to address this gap by conducting a detailed comparison between the encoder-decoder architecture and the decoder-only language model framework through the analysis of a regularized encoder-decoder structure.

问题矛盾点:
1.encoder-decoder模型结构相比于decoder-ONLY结构,哪个更有优势?
2.我们揭示了语言模型中的注意力退化问题,即随着生成步骤数的增加,越来越少的注意力被集中在源序列上。

在这里插入图片描述
traditional ED structure named as Regularized Encoder-Decoder (RED) framework

在这里插入图片描述

1.为了避免注意力退化的问题,提出了单向交叉注意,单向的交叉注意同时关注源矩阵和目标矩阵;
2.连续位置编码,在target序列中的位置编码和source序列中的位置编码是连续,而不是在target中从头开始排序。


PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction

语音和视觉相似性知识对这项任务很重要。 PLOME 利用 GRU 网络根据字符的语音和笔画对此类知识进行建模。

在这里插入图片描述
所提出的模型将每个字符的笔画和拼音作为输入,这使得 PLOME 能够对任意字符之间的相似性进行建模。
PLOME 通过联合恢复掩码标记的真实字符和语音来学习字符和语音级别的拼写错误知识。
模型结构图
在这里插入图片描述

  1. we randomly mask some percentage of the input tokens and then recover them
  2. mask 15% of tokens in the corpus. In addition, we use dynamic masking strategy
  3. the final embedding of each character is the sum of character embedding, position embedding, phonic embedding and shape embedding
The probability of the character predicted for the i-th token in a given
sentence is defined as

在这里插入图片描述

The probability of pronunciation prediction
is defined as:

在这里插入图片描述
损失函数:
在这里插入图片描述

Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking

汉字中常见的错误类型如上文所述,一个是拼音,一个是字形。
在这里插入图片描述
模型结构图
在这里插入图片描述
The Semantic Encoder

The input tokens X = (x1, . . . , xN ) are first
projected into Ht0
through the input embedding.
Then the computation of Transformer (Vaswani
et al., 2017) encoder layers can be formulated as:

在这里插入图片描述

The Phonetic Encoder(拼音encoder)

 The 5 kinds of tones (take
the final “a” as an example, { a,¯ a,´ a,ˇ a, a ` }) can be
mapped into numbers {1, 2, 3, 4, 0}

The Character-level Encoder

a single-layer
uni-directional GRU (Cho et al., 2014), which encodes the pinyin of the i-th character xi as:

在这里插入图片描述
The Graphic Encoder
在这里插入图片描述
**fused module **
采用的gate机制实现的embedding的融合。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/590289.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

北邮22信通:复习补充:双向链表的实现

北邮22信通一枚~ 跟随课程进度每周更新数据结构与算法的代码和文章 持续关注作者 解锁更多邮苑信通专属代码~ 获取更多文章 请访问专栏: 北邮22信通_青山如墨雨如画的博客-CSDN博客 **说明** 最近复习看到书后有双向链表的题目,编出来供大家…

Mybatis-Plus 进阶开发-自定义乐观锁插件

文章目录 前言0. OptimisticLockerInnerInterceptor 介绍1. Mybatis-plus 实现乐观锁的原理2. 自定义乐观锁插件1. 创建自定义乐观锁插件2. 配置自定义乐观锁插件 3. 总结 👏作者简介:大家好,我是冰点,从业11年,目前在…

jmeter 性能测试工具的使用(Web性能测试)

1、下载 2023Jmeter性能测试项目实战教程,十年测试大佬手把手教你做性能!_哔哩哔哩_bilibili2023Jmeter性能测试项目实战教程,十年测试大佬手把手教你做性能!共计11条视频,包括:1.什么是性能测试以及性能测…

爬虫进阶-反爬破解1(反爬技术简介、HTTP网络基础知识、搭建代理服务)

目录 一、反爬技术简介 二、HTTP网络基础知识 三、搭建代理服务 一、反爬技术简介 (一)破解Web端反爬技术 1.常见的反爬策略方向:同一时间的请求数量、请求的身份信息、浏览器和爬虫的区别 2.浏览器和爬虫的不同:异步数据加…

Maui初体验

创建Maui应用程序 使用vs创建项目,选择maui模板。 生成即可。 体验Font. 下载字体,放在Font文件夹下,或者子文件夹。 将 文件的生成操作改成MauiFont. 注册字体 如果在Font的子文件夹下,则需要编辑项目,修改ItemGrou…

SeaFormer实战:使用SeaFormer实现图像分类任务(二)

文章目录 训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整算法设置混合精度,DP多卡,EMA定义训练和验证函数训练函数验证函数调用训练和验证方法 运行以及结果查看测试热力图可视化展示…

Ansible任务控制与Ansible-Playbook

YAML特点 YAML 文件以 # 为注释符 YAML 文件以 .yml或者.yaml 结尾 YAML 文件以 --- 开始 , 以 ... 结束,但开始和结束标志都是可选的 基本语法 大小写敏感 使用缩进表示层级关系 缩进时是使用Tab键还是使用空格- -定要达到统- ,建议使用空格…

SpringMVC第七阶段:SpringMVC的增删改查(02)

1、图书列表功能的实现 需要导入JSTL标签库的jar包: druid-1.1.9.jar junit_4.12.jar mysql-connector-java-5.1.37-bin.jar org.hamcrest.core_1.3.0.jar spring-aop-5.2.5.RELEASE.jar spring-beans-5.2.5.RELEASE.jar spring-context-5.2.5.RELEASE.jar spring-core-5.2.5…

操作系统期末复习——课时八——进程同步(二)

1、信号量 信号量机制是一种功能较强的机制,可用来解决互斥和同步问题,它只能被两个标准的原语wait(S)(P操作)和signal(S)(V操作 )访问。 注意:原语是一种特殊的程序段,其执行只能一…

HNU-电子测试平台与工具2-I2C

FPGA I2C接口实现 计科210X wolf 202108010XXX 报告内容将包括: (1)如何描述组合电路、时序电路、状态机?如何编写TestBench? (2)ModelSim工具的使用; (3)EEPROM读写代码分析; (4)实验总结; 注意:其中(1)将在自定FSM中以实例的方式呈现,(2)将在(3)中提…

Java学习笔记22——异常

异常 异常异常的概述JVM处理异常的默认方案异常处理Throwable的成员方法编译时异常和运行时异常的区别异常处理throws自定义异常 异常 异常的概述 Throwable是所有异常和错误的超类 error表示严重的问题,合理的程序不应该试图捕获 Exception表示合理的应用想要捕…

chatgpt赋能python:Python中的{:5d}是什么?

Python中的{:5d}是什么? 在Python中,{:5d}是一种格式化字符串的方法,用于将整数格式化为一定宽度的字符串,其中{}代表占位符,5代表宽度,d代表将数据格式化为十进制整数。 简而言之,{:5d}的作用…

【pytest】tep环境变量、fixtures、用例三者之间的关系

tep是一款测试工具,在pytest测试框架基础上集成了第三方包,提供项目脚手架,帮助以写Python代码方式,快速实现自动化项目落地。 在tep项目中,自动化测试用例都是放到tests目录下的,每个.py文件相互独立&…

做接口测试需要哪些技能?一篇文章教你如何学会Python接口自动化测试

目录 1、什么是接口测试? 2、接口测试需要会什么? 3、如何学这些技能? 4、如何获取接口相关信息? 5、如何进行进行接口测试? 6、自动化接口测试 7、其他 1、什么是接口测试? 定义:测试系…

【反向面试】向你未来的软件雇主提出的36个问题

作者 | Tomas Fernandez 祝贺通过了面试!你准备得很充分,并通过了所有的问题。现在你可以放松了。 "你有什么问题要问我们吗?” 面试官问道。哦!这还没有结束,你意识到。你应该会有一些问题。 面试官并不是想让…

JVM学习(十三):面试中绕不开的String

一、String 的基本特性 1.1 String类的声明 String实现了Serializable接口,表示字符串是支持序列化的; 实现了Comparable接口,表示String可以比较大小 1.2 String的存储方式在jdk9中的变更 我们知道,String在jdk8中使用 final …

Lua学习笔记:C++操作Lua的表

前言 本篇在讲什么 C操作Lua的表(table) 本篇适合什么 适合初学Lua的小白 适合需要C/C和lua结合开发的人 本篇需要什么 对Lua语法有简单认知 对C/C语法有简单认知 依赖Lua5.1的环境 依赖VS 2017编辑器 本篇的特色 具有全流程的图文教学 重实践,轻理论…

23种设计模式之策略模式(Strategy Pattern)

前言:大家好,我是小威,24届毕业生,在一家满意的公司实习。本篇文章将23种设计模式中的策略模式,此篇文章为一天学习一个设计模式系列文章,后面会分享其他模式知识。 如果文章有什么需要改进的地方还请大佬不…

构建Transformer模型 | 在wikiText-2数据集上训练一个语言模型

0 Introduction CSDN上有很多关于Transformer模型代码及解析的教程,但总体感觉还是不够直观,本文来自以B站上一个公开课,讲得非常详细,建议花一点时间从头到尾跟做一遍,单纯看静态的代码和文字描述,还是比…

十大排序(四)

上几篇文章我们说的是比较类的排序,今天给大家分享一下非比较累的排序;非比较类中包含桶排序 :基数排序、桶排序、计数排序 计数排序 找出待排序的数组中最大和最小的元素; 统计数组中每个值为i的元素出现的次数,存入…