[UNILM]论文实现：Unified Language Model Pre-training for Natural Language.........

[UNILM]论文实现：Unified Language Model Pre-training for Natural Language.........

news2026/2/13 6:17:16

文章目录

- 一、完整代码
- 二、论文解读
- - 2.1 介绍
  - 2.2 架构
  - 2.3 输入端
  - 2.4 结果
- 三、过程实现
- 四、整体总结

论文：Unified Language Model Pre-training for Natural Language Understanding and Generation
作者：Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon
时间：2019
地址：https://github.com/microsoft/unilm

一、完整代码

这里我们使用python代码进行实现

# 完整代码在这里
# 有时间再弄.......

二、论文解读

2.1 介绍

这篇论文主要讲的是一个统一的语言模型的预训练，其就是结合三种语言模型来对结果进行优化：unidirectional, bidirectional, sequence-to-sequence；前者的代表是GPT；中间的代表是BERT；后面很新奇，但是其本质也很简单，类似于GPT在mask加掩码；

这里并不是一个模型中包含这三种层来进行训练，而是共享参数然后对每一个语言模型的要求进行mask再来训练；

一个语言模型对应一个或几个下游任务，让模型理解这个下游任务，然后叠加，这个就是UNILM；

2.2 架构

模型架构如图所示：

这个不就是mask一下吗，换着花样水，感觉就是统一了一下，没想到这也能发论文，哈哈哈哈；

以上是其架构的公式；注意这里在训练时M结构是不发生改变的；

2.3 输入端

这里在输入端和bert一样，选择加随机掩码的方式，把随机的字符换成[mask]

2.4 结果

Question Answering

第一个被称为extractive QA，其中答案是段落中的文本跨度。另一种称为generative QA，答案需要动态生成。

Question Generation

Given an input passage and an answer span, our goal is to generate a question that asks for the answer.

就是给一段文本和答案，输出该答案的问题；

Response Generation

这样可以说明我们结合三种模型的效果在训练步骤一致的情况下和BERT是不相上下的，但是这里要清楚的是：UNILM的初始架构是和BERT large是一致的，这样看来UNILM有种类似于regularization的效果；

三、过程实现

实现过程比较简单，有时间再弄；

四、整体总结

这篇文章最重要一点就是结合多种模型来适配多种任务得到的效果要比单一的模型要好；

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1304036.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

编程实战：自己编写HTTP服务器（系列4：查看文件、下载等一般功能）

编程实战：自己编写HTTP服务器（系列4：查看文件、下载等一般功能）

系列入口：编程实战：自己编写HTTP服务器（系列1：概述和应答）-CSDN博客本文介绍各种功能的实现。大部分是特定内置入口。目录一、默认页二、查看文件三、关闭服务四、下载页面一、默认页前面在已经介绍过重定…

阅读更多...

UE4/UE5 修改/还原场景所有Actor的材质

UE4/UE5 修改/还原场景所有Actor的材质

使用蓝图方法： 1.修改场景所有Actor 材质： Wirframe：一个材质类 MatList：获取到的所有模型的全部材质的列表 TempAllClass：场景中所有获取的 Actor 的列表功能方法如下： 蓝图代码可复制在&#xff1a…

阅读更多...

MongoDB在Windows系统和Linux系统中实现自动定时备份

MongoDB在Windows系统和Linux系统中实现自动定时备份

本文主要介绍MongoDB在Windows系统和Linux系统中如何实现自动定时备份。目录 MongoDB在Windows系统中实现自动定时备份MongoDB在Linux系统中实现自动定时备份备份步骤备份恢复 MongoDB在Windows系统中实现自动定时备份要在Windows系统中实现自动定时备份MongoDB数据库&#…

阅读更多...

界面控件DevExpress中文教程 - 如何用Office File API组件填充PDF表单

界面控件DevExpress中文教程 - 如何用Office File API组件填充PDF表单

DevExpress Office File API是一个专为C#, VB.NET 和 ASP.NET等开发人员提供的非可视化.NET库。有了这个库，不用安装Microsoft Office，就可以完全自动处理Excel、Word等文档。开发人员使用一个非常易于操作的API就可以生成XLS, XLSx, DOC, DOCx, RTF, CS…

阅读更多...

《Spring Cloud Alibaba 从入门到实战》分布式消息（事件）驱动

《Spring Cloud Alibaba 从入门到实战》分布式消息（事件）驱动

分布式消息（事件）驱动 1、简介事件驱动架构(Event-driven 架构，简称 EDA)是软件设计领域内的一套程序设计模型。这套模型的意义是所有的操作通过事件的发送/接收来完成。传统软件设计举个例子，比如一个订单的创建在传统软…

阅读更多...

【CCF BDCI 2023】多模态多方对话场景下的发言人识别 Baseline 0.71 NLP 部分

【CCF BDCI 2023】多模态多方对话场景下的发言人识别 Baseline 0.71 NLP 部分

【CCF BDCI 2023】多模态多方对话场景下的发言人识别 Baseline 0.71 NLP 部分概述NLP 简介文本处理词嵌入上下文理解文本数据加载to_device 函数构造数据加载样本数量 len获取样本 getitem 分词构造函数调用函数轮次嵌入 RobertaRoberta 创新点NSP (Next Sentence Prediction…

阅读更多...

如何将用户有过行为的item用list形式记录下来，另外如何计算list里的个数

如何将用户有过行为的item用list形式记录下来，另外如何计算list里的个数

导语： 最近做项目，发现有些语法想一想是知道，但实际操作起来跟想的情况不一样哈哈。不是遇见bug就是输出的结果不是自己想要的，CSDN跟知乎找了很多没怎么解决，后面多摸索多实操终于解决！ test_data[item_…

阅读更多...

Oracle中LISTAGG 函数的使用

Oracle中LISTAGG 函数的使用

概念：对于查询中的每个组，LISTAGG 聚合函数根据 ORDER BY 表达式对该组的行进行排序，然后将值串联成一个字符串

阅读更多...

Appium微信小程序自动化环境准备

Appium微信小程序自动化环境准备

一、前置说明微信从8.0.19开始内核从x5换成xweb之后，原先的开启webview调试的原方案已经会报503错误。点击下面的链接，都会报503错误： http://debugmm.qq.com/?forcex5ture http://debugx5.qq.com 微信内核升级为xweb之后，需要…

阅读更多...

数据结构之----逻辑结构、物理结构

数据结构之----逻辑结构、物理结构

数据结构之----逻辑结构、物理结构目前我们常见的数据结构分别有： 数组、链表、栈、队列、哈希表、树、堆、图而它们可以从逻辑结构和物理结构两个维度进行分类。什么是逻辑结构？ 逻辑结构是指数据元素之间的逻辑关系，而逻辑结构又分为…

阅读更多...

有趣的数学数学建模入门三数学建模入门示例两例利用微积分求解

有趣的数学数学建模入门三数学建模入门示例两例利用微积分求解

一、入门示例1 1、问题描述某宾馆有150间客房，经过一段时间的经营，该宾馆经理得到一些数据：如果每间客房定价为200元，入住率为55％；定价为180元，入住率为65％；定价为160元…

阅读更多...

PyTorch张量：内存布局

PyTorch张量：内存布局

你可能对 torch 上的某些函数感到困惑，它们执行相同的操作但名称不同。例如： reshape()、view()、permute()、transpose() 等。这些函数的做法真的不同吗？ 不！ 但为了理解它，我们首先需要了解一下张量在 pytorch 中…

阅读更多...

AR-LDM原理及代码分析

AR-LDM原理及代码分析

AR-LDM原理AR-LDM代码分析pytorch_lightning(pl)的hook流程main.py 具体分析TrainSampleLightningDatasetARLDM blip mm encoder AR-LDM原理左边是模仿了自回归地从1, 2, ..., j-1来构造 j 时刻的 frame 的过程。在普通Stable Diffusion的基础上，使用了1, 2, .…

阅读更多...

人工智能|深度学习——知识蒸馏

人工智能|深度学习——知识蒸馏

一、引言 1.1 深度学习的优点特征学习代替特征工程：深度学习通过从数据中自己学习出有效的特征表示，代替以往机器学习中繁琐的人工特征工程过程，举例来说，对于图片的猫狗识别问题，机器学习需要人工的设计、提取出猫的…

阅读更多...

产品＜Axure的安装以及组件介绍

产品＜Axure的安装以及组件介绍

Axure介绍： Axure是一款用户体验设计工具，可以用于创建交互式原型、线框图和设计文档。它支持快速原型开发、界面设计、信息架构、流程图和注释等功能，可以帮助设计师快速地创建和共享交互式原型，从而更好地与客户和团队协作。 …

阅读更多...

从 MQTT、InfluxDB 将数据无缝接入 TDengine，接入功能与 Logstash 类似

从 MQTT、InfluxDB 将数据无缝接入 TDengine，接入功能与 Logstash 类似

利用 TDengine Enterprise 和 TDengine Cloud 的数据接入功能，我们现在能够将 MQTT、InfluxDB 中的数据通过规则无缝转换至 TDengine 中，在降低成本的同时，也为用户的数据转换工作提供了极大的便捷性。由于该功能在实现及使用上与 Logstash 类…

阅读更多...

「差生文具多系列」推荐两个好看的 Redis 客户端

「差生文具多系列」推荐两个好看的 Redis 客户端

📢 声明： 🍄 大家好，我是风筝 🌍 作者主页：【古时的风筝CSDN主页】。 ⚠️ 本文目的为个人学习记录及知识分享。如果有什么不正确、不严谨的地方请及时指正，不胜感激。直达博主：「…

阅读更多...

总结6种@Transactional注解的失效场景

总结6种@Transactional注解的失效场景

作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO 联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬引言昨天有粉丝咨询了…

阅读更多...

【漏洞修复】Cisco IOS XE软件Web UI权限提升漏洞及修复方法

【漏洞修复】Cisco IOS XE软件Web UI权限提升漏洞及修复方法

关于Cisco IOS XE软件Web UI权限提升漏洞及修复方法文章目录漏洞基本信息漏洞影响范围确认设备是否受影响漏洞修复方法推荐阅读漏洞基本信息 Cisco IOS XE Unauthenticatd Remote Command Execution (CVE-2023-20198) (Direct Check) Severity:Critical Vulnerability Pri…

阅读更多...

【Jeecg Boot 3 - 第二天】2.1、nginx 部署 JEECGBOOT VUE3

【Jeecg Boot 3 - 第二天】2.1、nginx 部署 JEECGBOOT VUE3

一、场景二、实战 ▶ 2.1、打包（build 前端） ＞ Stage 1：修改配置文件 .env.production（作用：指向后端接口地址） ＞ Stage 2：点击build（作用&#xff1…

阅读更多...

推荐文章

最新文章