将扩散模型应用到文本领域

news2025/1/11 4:11:07

前言

扩散模型在文生图领域可谓是大显身手,效果棒棒~

每当一个idea有效之时,便会有更多相关的研究跟进尝试,今天就给大家介绍一篇将扩散模型应用到文本生成领域的工作,这也是一篇比较新的paper,其中还用到了梅西在2022世界杯表现的例子。

大家可以重点借鉴看看作者是怎么把扩散这一idea揉进到NLP的,最好看看能不能从中找到一些启发进而把扩散这一idea用到自己的领域试试~

截止笔者写这篇博客的时候,作者的代码还没有放出来,不过paper说了在不久的将来会开源出来,另外笔者之前也写过一篇关于扩散模型代码解析的文章,想实践的同学可以穿梭参考一下:

《扩散模型代码剖析》:https://zhuanlan.zhihu.com/p/591761273

本次介绍的paper: https://arxiv.org/pdf/2212.11685.pdf

扩散模型

在开始介绍方法之前,还是先简单说一下关于扩散模型的几个重要结论性公式(这里不讲复杂的推导,如果读者还不清楚扩散模型,建议先去看一下原理篇,这样的话在读本篇的结论性公式以及理解它的参数含义的时候会比较轻松一些)。

首先扩散模型的基本原理就是先加噪再去噪,而所谓的扩散模型的主要作用就是在去噪阶段预测噪声。

加噪过程:

alt

去噪过程:

alt

可以看到去噪过程主要就是要得到均值和方差,其中下图中红色的部分就是扩散模型,具体的作用就是预测当前t步所加的噪声:

alt

具体扩散模型训练loss就是:

alt

方法

(1)模型

本文主要研究的领域是文本生成NLG,其实就是个sequence-to-sequence任务,即给定一个source text,期望生成对应的target text。

作者将所提出的框架命名为GENIE(GENeration using dIffusion modEl),框图如下:

alt
  • Encode

encoder这里比较简单,其模型结构是一个由六层transformer组成的,主要就是负责把source text表征为一个embeding 即

alt
  • Text Diffusion Model

扩散模型这里(重点!!!)也是一个六层的 cross-attention,它的作用我们前面说过了就是预测当前t步所加的噪声(这也是扩散模型这一idea的核心)即 ,可以清楚的看到它的输入是

: 第t步

: 第t步的表征

: source text的表征

  • Inference Phase

在训练好了模型之后,预测阶段就很简单了。开始先随机从高斯分布中抽取一个样本点即 ,然后使用训练好的模型去预测每一步的噪声,最后利用公式(4)(5)一步步去噪,直到得到 即可。

  • Training Phase

这里来看一下具体的训练过程。

假设当前的target sequence为y即:

alt

首先就是将y这一序列token进行embedding化生成初始值,更具体的就是扩散模型中 的即

alt

有了 ,根据扩散模型的公式,我们便可以得到任意一步t的状态值:

alt

同时我们可以通过扩散模型预测噪声得到相应的均值和方差(其实就是上面讲的公式4和公式5)

alt

最后参考扩散模型的loss便可以得到我们要训练的loss:

alt
  • 小结

这里涉及的公式较多,看不懂的小伙伴可以先看原理篇,然后再回头看这里就一目了然啦。可以看到基本上就是原封不动的把扩散模型那一套拿过来。

(2)预训练

作者也强调了说,扩散模型的在NLP生成领域潜力是具体的,因为它生成的多样性很强,只不过现在的效果以及训练速度等方面还有一些限制。于是作者也参考了之前大模型的惯用做法:先预训练一把!

具体做法就是从一篇doc里面随机MASK掉一些段落 即用[MASK]标识符代替,以此来作为encoder的输入即可以得到 ,同时 就可以作为target text即 ,进而依据公式(9)就可以得到 ,有了 便有了扩散模型的输入,最后便可以预测噪声,得到均值方差进行训练啦。

碎碎念

想用扩散模型的前提是要想清楚你最终想要的输出是什么也即 ,同时控制生成的变量是什么也即 。一旦确定好了或者说你当前研究的领域能够抽象成这样一个问题,那就可以直接把扩散模型这一套拿过来试试啦。具体的逻辑就是:先表征出 (咋表征无所谓,用啥模型自己决定就行),有了 后就可以得到任意一步的状态 ,进而就可以拿到 ,而这就是扩散模型的输入,那么进而就可以预测噪声,预测出噪声就可以得到均值和方差,有了均值和方差就可以依据公式(3)一步步去噪直到得到

需要注意的是在训练阶段 的获得是需要 ,而在预测阶段,我们不可能知道 (因为我们的目的就是希望生产一个好的 ),那 或者说去噪的最原始状态 获得其实就是随机从高斯分布中采一个样本点就行,这也是为啥能生成多种多样符合结果的原因。当然了指导生成的变量 在训练和预测阶段逻辑上基本上是一样的。

本篇是将扩散模型应用到了NLG领域,具体到source text的是 、target text是 。那如何将扩散模型应用到理解类NLU内容呢?大家可以多尝试哦~

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/112853.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LCS+LIS最长公共上升子序列

LIS LCS AcWing 272. 最长公共上升子序列 没优化的代码 优化解释在代码注释中优化解释在代码注释中优化解释在代码注释中 #include<iostream> #include<cstring> #include<algorithm>using namespace std;const int N 3e3 10;int a[N], b[N], f[N][N];i…

开启浏览器sourcemap调试生产环境代码

开启浏览器sourcemap调试生产环境代码 Source Map介绍 在做网站性能优化的时候&#xff0c;我们经常会做js和css代码压缩。但是压缩之 后的代码在调试的时候就会异常困难。source map就是解决问题的一种解决方案 浏览器Source Map 浏览器可以设置开启或者关闭SourceMap&…

78. 子集

78. 子集 给你一个整数数组 nums &#xff0c;数组中的元素 互不相同 。返回该数组所有可能的子集&#xff08;幂集&#xff09;。 解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&#xff1a;[[],[1],[2]…

14【SpringMVC的拦截器】

文章目录一、拦截器1.1 拦截器与过滤器1.2 拦截器的应用1.2.1 HandlerInterceptor接口1.2.2 拦截器的拦截规则1.3 搭建工程测试拦截器1.3.1 测试SpringMVC拦截器1.3.2 SprinMVC拦截器注意事项1.4 HandlerMethod类1.5 多个拦截器的执行顺序一、拦截器 1.1 拦截器与过滤器 过滤…

第6章 el-menu刷新保持当前菜单选项与角色页面

1重构&#xff1a;src\components\AdminLayoutComponen.vue(el-menu刷新保持当前菜单选项) <template> <el-container> <!-- 侧边栏 &#xff0c;"<div class"aside">标签可被删除&#xff0c;为了下拉条控件样式保存了该标签"-->…

maven的插件(命令)install介绍

maven的插件&#xff08;命令&#xff09;install介绍背景关于构建时使用的maven命令installmaven其他插件/命令的使用背景 今天在引入SpringCloudAlibaba时&#xff0c;pom.xml中的dependency报错了 到本地仓库去验证 验证无误&#xff0c;找原因 现象&#xff1a; 在maven…

Flink-状态编程(按键分区状态、算子状态、广播状态、持久化与状态后端)

9 状态编程 9.1 概述 9.1.1 状态 所谓的状态&#xff0c;最常见的就是之前到达的数据&#xff0c;或者由之前数据计算出的某个结果 继承富函数类的函数类就可以获取运行时上下文&#xff0c;也就可以自定义状态&#xff0c;例如process中的ProcessFunction&#xff0c;CoPr…

HTML+CSS+svg绘制精美彩色闪灯圣诞树,HTML+CSS+Js实时新年时间倒数倒计时(附源代码)

HTMLCSSsvg绘制精美彩色闪灯圣诞树&#xff0c; HTMLCSSJs实时新年时间倒数倒计时(附源代码) 本篇目录 一、前言 二、主要功能 三、效果展示 四、编码实现步骤 五、资源下载 六、完整源代码&#xff0c;也可下载打包代码&#xff08;我设的是免费&#xff09; 一、前言…

【Vue】三、Vue.js的常用选项

后端程序员的vue学习之路一、选项 / 数据1、data2、computed3、 methods4、computed 与 methods的区别5、watch二、选项 / DOMeltemplate三、选项 / 生命周期钩子1、生命周期钩子有如下这些&#xff1a;2、流程图2、练习代码四、选项 / 资源1、filters2、directives3、componen…

大半夜睡不着,聊一下在小外包公司工作一年后的感想吧

我不知道当年怎么想的&#xff0c;能在一个外包公司一干就是6年&#xff0c;后来终于跳出来了&#xff0c;现在的公司虽然不是什么大厂吧&#xff0c;但至少是个正经的互联网企业&#xff0c;待遇也不错。 其实很多地方的朋友都有提到外包公司的一些弊端&#xff1a; 1.工期短…

自己动手实现一个轮播图组件

1. 轮播图原理 轮播图的原理可以总结为两点&#xff1a; 定位的运用定时器的运用 轮播图的每一张图横向依次排列。在最外层还有一个父级盒子&#xff0c;它的宽度刚好是一张图片的宽度&#xff0c;第一张图没有设置隐藏超出部分&#xff0c;第二张图隐藏了超出部分。 当我们…

河道非法采砂识别系统 yolov5

河道非法采砂识别系统通过yolov5网络架构深度学习技术对河道非法采砂行为进行实时分析检测&#xff0c;如yolov5架构模型发现现场违规采砂&#xff0c;则立即抓拍回传后台。YOLO算法- YOLO算法是一种基于回归的算法&#xff0c;它不是选择图像中有趣的部分&#xff0c;而是预测…

世界杯已开赛,哪些看球设备让你觉得身临其境?

笔者在父亲的影响下&#xff0c;从1994年美国世界杯开始接触足球&#xff0c;因为当时 CCTV5 对拥有着小世界杯之称的意甲转播&#xff0c;成为了一名意大利足球队的忠实拥趸&#xff0c;一直到现在。 四年一次的世界杯也成了我从不错过的足球盛宴。2002年日韩世界杯和2006年德…

Unity使用飞书在线表格做配置表

团队使用飞书进行项目管理&#xff0c;使用在线表格进行配置表的编写&#xff0c;而飞书也提供了在线表格操作的Api&#xff0c;这样我们可以直接在Unity中同步云端表格数据 飞书配置 首先需要进入飞书开发者后台创建应用https://open.feishu.cn/app 创建应用后记录AppId和Ap…

CAJ转pdf在线网址

知网下载论文格式为CAJ&#xff0c;不想下载它的阅读器&#xff0c;网上找了一下转pdf的网站&#xff0c;记录一下&#xff1a; 1.Caj2Pdf在线 https://caj.bookcodes.cn/ 2.speedpdf-CAJ转PDF https://speedpdf.cn/zh-cn/convert/caj-to-pdf?chbaiducp

Android---ViewPager

目录 一、ViewPager 缓存页面与预加载 缓存页面 预加载 预加载带来的问题 解决(性能优化) 二、ViewPager 懒加载机制 ViewPager源码 ViewPager 是怎么展示出来的 Populate FragmentPagerAdapter 三、ViewPager 与 ViewPager2 的差异 一、ViewPager 缓存页面与预加载 …

为什么企业要注重数据安全?六大优势分析

数据加密是将数据从可读格式转换为编码格式。两种最常见的加密方法是对称加密和非对称加密。这些名称是指是否使用相同的密钥进行加密和解密&#xff1a; ●对称加密密钥&#xff1a;这也称为私钥加密。用于编码的密钥与用于解码的密钥相同&#xff0c;使其最适合个人用户和封…

java jar 的修改

java jar 的修改目录概述需求&#xff1a;设计思路实现思路分析1.编译生成class文件2.生产src文件3.单独将对应的java 类编译成class文件4.替换原来的class文件参考资料和推荐阅读Survive by day and develop by night. talk for import biz , show your perfect code,full bus…

prettytable辅助打印表格的Python库

这个库的主要作用是&#xff1a;当我们想要结构话的打印一些表格类的数据时会让我们的视觉体验变好 一、安装 一行命令&#xff1a;python -m pip install -U prettytable 搞定 二、使用 1、添加数据 首先来看一个打印的效果 要想实现上边的效果使用下边的代码&#xff1a…

el-Dropdown 两个下拉框之间的动态绑定 实现默认选中值

目录 业务场景 官方链接 实现效果 使用框架 代码展示 template代码 script代码 变量定义 事件定义 onMounted事件 courseClass事件--课程班级绑定 defaultValue事件 optionChange事件 changeClass事件 为什么要给课程的每个选项也绑定click事件&#xff1f;作用是什么…