TACL 2022 | GAL:合成文本在自然语言处理任务中的应用

news2024/10/7 18:24:21

a0114332bccf00df5a58183b1263d797.gif

©PaperWeekly 原创 · 作者 | 何玄黎

单位 | 伦敦大学学院(UCL)

研究方向 | 自然语言处理

14cfc76739ada69ebf39bdd96feb800a.png

论文标题:

Generate, Annotate, and Learn: NLP with Synthetic Text

收录会议:

TACL 2022

论文链接:

https://arxiv.org/abs/2106.06168

博客链接:

https://synthetic-text.github.io/

fdc00a88ed42419877fcec0eb977ea93.png

研究背景

未标记文本数据在自然语言处理任务上发挥着极其重要的作用。首先,预训练语言模型的成功主要归功于大量的未标注文本数据。其次,如果我们手上有大量任务相关的未标记数据,我们就可以利用这些数据来提升自训练(self-training)和知识蒸馏 (knowledge distillation)的效果。

但是在某一个指定任务上,未标注的数据通常是难以获取。该问题在某些自然语言处理任务上尤为突出,比如,文本相似度判断(text similarity),自然语言推断任务(natural language inference)。因为此类任务需要对一组文本之间的关系进行判别,所以它们的数据格式相较于单文本分类问题更为复杂。因此,很难采用传统信息检索的方式从互联网上获得此类任务的未标注数据。

此前的一些工作研究发现,通过微调 GPT2,即可生成一些任务相关的带标注合成文本(labelled synthetic text)。这些合成的标注数据可以提升常识推理 (Yang et al. 2020)和小样本文本分类任务 (Kumar et al. 2020)的性能。Ravuri et al. (2019)发现,即使带标注合成图片的质量在自动化评价指标上已经很接近真实的图片,但是和没用使用任何合成图片的图片分类模型比较,使用带标注合成图片的模型的准确度反而降低了。

同时,Kumar et al.(2020)也发现,带标注合成文本的语义信息和标注存在不一致的现象。除此以外,不少同期工作(Yang et al. 2020,Vu et al. 2021)也发现,合成数据可以大大提升各类自然语言处理任务的性能。但是这些方法都涉及到较为复杂的数据工程,比如,数据过滤,标注数据重标注等等。

鉴于以上问题,我们提出一套更简洁和通用的框架:generate, annotate and learn(GAL)。我们的实验结果显示,GAL 可以显著提升知识蒸馏,自训练和小样本学习在文本任务上的性能,并且在 GLUE benchmark 的知识蒸馏赛道上可以打败最先进的基线方法。

54f6cd32b618d8d656f4fcd78b1d11ce.png

模型介绍


2.1 未标注合成文本在自训练和知识蒸馏的应用

如图 1 所示,我们首先对任意 BERT-family 模型在指定的下游任务上进行微调,即可得到一个老师模型。接下来,我们拿掉下游数据的标签,然后在 GPT2 上对这些去标签的数据进行微调,从而得到一个专注特定任务的文本生成器。于是,我们就可以使用该文本生成器产生大量的未标注合成文本。最后我们就可以用老师模型,原始的标注数据和未标注合成文本来进行自训练和知识蒸馏。

be153839f82bb5a4b8d64a6e2c7f6a74.png

▲ 图1. GAL在自训练和知识蒸馏机制下的概览


2.2 合成文本在基于提示的小样本学习的应用

鉴于其媲美传统监督学习的效果,基于提示的小样本学习(prompt-based few-shot learning)收获了大量的关注 (Brown et al. 2020)。因此,我们也把目光转向如何使用合成文本来提升基于提示的小样本学习的性能。

如图2所示,对于某一个指定的下游任务,我们首先将 K 个标记的文本数据放在一起,从而组成一个提示语。然后将该提示语作为输入提供给大语言模型,并让其生成一条合成文本及其对应的标签。我们重复此操作 N 次,即可得到 N 条标记的合成文本。最后,我们将 K 个原始的标记文本数据和 N 个合成的标记文本数据组成新的提示语,并将此提示语用于小样本学习。

4c85e4c04ca1c6171bce54e772cbcc80.gif

▲ 图2. GAL在基于提示的小样本学习下的概览

150eb330bcc141cea5a7667e9ca8b7e4.png

实验结果

3.1 知识蒸馏

对于知识蒸馏,我们使用 GLUE benchmark 来验证 GAL 的性能。我们使用 RoBERTa-large 和 DistilRoBERTa 分别作为老师模型和学生模型。如表 1 所示,相较于只使用原有训练数据的知识蒸馏方法,包括 BERT-Theseus(Xu et al., 2020),BERT-PKD(Sun et al., 2019),tinyBERT(Jiao et al., 2019))和 DistilRoBERTa + KD(standard KD),GAL 在所有的任务上,都存在显著的性能提升。

为了验证使用专注特定任务的文本生成器的功效,我们同时将 GAL 和其他数据增强的方法对比。相较于 MATE-KD(Rashid et al., 2021),DistilRoBERTa + WS(word substitution)以及 DistilRoBERTa + RT(round-trip translation),在使用同样数量的未标注合成文本的情况下,GAL 在 GLUE benchmark 的平均性能上也是大幅领先此类数据增强的方法,并在 GLUE benchmark leaderboard 上取得 6 层模型的最好成绩。

a55df8f4f936061b9b6b1bce10d554e0.png

3.1 知识蒸馏

我们同样使用 GLUE benchmark 来验证 GAL 在自训练方法上的性能。自训练的老师模型和学生模型均为 RoBERTa-large。如表 2 所示,首先,相较于 RoBERTa-large,GAL 在各项任务上均有一定层度的性能提升。但是相较于其他更好的预训练模型,GAL 的性能还有待进一步提升。同时 GAL 对于其他预训练模型的帮助还有待进一步验证。

b053a753a15f592e25efc54a0197c71e.png

▲ 表2. 自训练机制下的GAL和其他预训练基线方法的比较

3.3 基于提示的小样本学习

鉴于计算资源的限制,在基于提示的小样本学习上,我们采用 GPT-J 来验证 GAL 的性能。K 和 N 分别为 4 和 12。如表 3 所示,虽然对比使用原始数据的 16-shot,GAL 依然存在性能上的差距。但是相较于 4-shot 和 8-shot,使用合成数据后,GAL 可以有效提升 4-shot 的性能,使其可以超越 8-shot 的性能,并且大幅度弥补了 4-shot 和 16-shot 之间的差距。

e47e08ca46cd53a0af711c1ebc71e6ff.png

▲ 表3. GAL在基于提示的小样本学习下,同4-shot, 8-shot和16-shot基线方法的比较

3.4 未标注合成文本和标注合成文本的对比

如前文所述,标注合成数据存在一些缺陷。为了验证使用未标注合成文本的益处,我们将其与标注合成文本进行比较。如表 4 所示,在自训练的场景下,GAL(未标注合成文本)在多个下游任务上的性能都远超标注合成文本。同时如果我们拿掉标注合成文本的标签,并使用 GAL 重新标注。

此时,标注合成文本的性能和 GAL 基本一致。因此我们认为,合成文本在生成时是否标注不是一个重要的影响因素。只要我们使用老师模型对合成文本进行标注,即可获益于自训练机制。另外我们也对此现象进行了理论分析,感兴趣的读者可以查看原文了解细节。

dbe9703d7f236420c2744a6a444b0548.png

▲ 表4. 基线和不同合成文本生成模式的比较。标签依赖的语言模型(Class-conditional LM)生成的合成文本是带有标注的,无依赖的语言模型(Unconditional LM)生成的合成文本是不带有标注的。GAL指代我们使用老师模型对合成文本进行标注。

ea27a25b8f65d34f0d75d7ec13835e08.png

结论

本文提出了一种新的框架:GAL,即通过生成大量和任务相关的合成文本,从而提升多种机器学习方法的性能,包括知识蒸馏, 自训练和基于提示的小样本学习。

outside_default.png

参考文献

outside_default.png

[1] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. 2019. Tinybert: Distilling bert for natural language understanding

[2] Suman Ravuri and Oriol Vinyals. 2019. Classification accuracy score for conditional generative models. Advances in Neural Information Processing Systems

[3] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 2019. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter

[4] Siqi Sun, Yu Cheng, Zhe Gan, and Jingjing Liu. 2019. Patient knowledge distillation for bert model compression. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing

[5] Varun Kumar, Ashutosh Choudhary, and Eunah Cho. 2020. Data augmentation using pretrained transformer models

[6] Yiben Yang, Chaitanya Malaviya, Jared Fernandez, Swabha Swayamdipta, Ronan Le Bras, JiPing Wang, Chandra Bhagavatula, Yejin Choi, and Doug Downey. 2020. G-daug: Generative data augmentation for commonsense reasoning

[7] Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, and Ming Zhou. 2020. Bert-of-theseus: Compressing bert by progressive module replacing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing

[8] Ahmad Rashid, Vasileios Lioutas, and Mehdi Rezagholizadeh. 2021. Mate-kd: Masked adversarial text, a companion to knowledge distillation

[9] Tu Vu, Minh-Thang Luong, Quoc Le, Grady Simon, and Mohit Iyyer. 2021. Strata: Selftraining with task augmentation for better fewshot learning. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing,

更多阅读

9e5d850ab68daf23bac28fe1b28c9212.png

7c909bdf07ea9e0103951d759d14f880.png

0e1713adc322287614e11768f055cfa4.png

c4aae5d5d3e29a8cdc95890acca47610.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

43ed5c24a1e215a8f308cdde406b9ba4.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

7866f8ea7f23c67b4d7bc29daca6b2c7.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/77125.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无需注册试用ChatGPT

无需注册试用ChatGPT OpenAI账号有诸多限制,包括地区限制,手机号注册等,参考ChatGPT注册试用全攻略。不开全局代理,还会出现Not available OpenAIs services are not available in your country. 所以有没有什么途径,…

ADI Blackfin DSP处理器-BF533的开发详解17:IIS+AUDIO音频codec的应用(含源代码)

硬件准备 ADSP-EDU-BF533:BF533开发板 AD-HP530ICE:ADI DSP仿真器 软件准备 Visual DSP软件 硬件链接 很早期做的设计,用的是TI的一颗音频codec,如果要放到今天,我肯定是用ADI的SigmaDSP了,ADI所有的Si…

【计算机图形学入门】笔记5:光栅化(三角形的离散化)

目录05光栅化(三角形的离散化)1.Canonical Cube to Screen 从标准立方体到屏幕1.屏幕是什么?What is a screen?2.光栅化是什么?Raster screen in German3.像素Pixel (FYI, short for “picture element”)4.使用以下矩阵公式将中…

基于蜂虎狩猎 (BEH) 算法求解单目标优化问题附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

【克罗地亚VS巴西】和【荷兰VS阿根廷】足球的魅力

两场球赛你看了吗时间段克罗地亚 VS 巴西荷兰 VS 阿根廷最后的话时间段 🍋12月09日的 23:00 克罗地亚 VS 巴西 🍊12月10日的 03:00 荷兰 VS 阿根廷 克罗地亚 VS 巴西 半场比赛双方都没有找到绝佳的破门良机,0-0战平。 90分钟内&#xff…

Java的线程及多线程

1 线程 1.1 Thread 下面是两个demo,第一个是线程执行顺序,第二个是多个线程的顺序。 其中线程的start可以看成是就绪状态,cpu并不一定会马上去执行run方法的内容,因此如果是多线程,顺序是不确定的。 public class Th…

【Pytorch】第 6 章 :用函数逼近扩展学习

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

【GRU回归预测】基于门控循环单元GRU实现数据多维输入单输出回归预测附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

英方软件通过注册:预计年营收2亿 为胡军擎与江俊夫妻店

雷递网 雷建平 12月8日上海英方软件股份有限公司(简称:“英方软件”)日前通过注册,准备在科创板上市。英方软件计划募资5.7亿元,其中,2.46亿元用于行业数据安全和业务连续性及大数据复制软件升级项目&#…

JavaScript:错误处理

一个优秀的产品,需要有一个良好的错误处理策略可以让用户知道到底发生什么。不至于让用户自己不知道发生了什么,然后再重试或者是不至于然用户感到特别厌烦,然后直接离开。 try/catch语句 try/catch语句,在JavaScript中作为处理…

51 java.lang.Class/java.lang.ClassLoader/InstanceKlass/ClassloaderData 的卸载

前言 之前 碰到了一个 flink 基于 ChildFirstClassLoader 来进行任务隔离 导致的内存泄漏的问题 然后 使用 demo 复现了一下 问题 之后 想探索一下 java language 中 类型的卸载相关 并且会 拓展一些其他的知识 以下测试用例基于 jdk8, 部分截图基于 jdk9 测试用例 T…

0行代码拿210万年薪,ChatGPT催生新型「程序员」岗:工作纯靠和AI聊天

梦晨 发自 凹非寺量子位 | 公众号 QbitAI靠玩ChatGPT,还能找到新工作?没错,Riley Goodside(后面叫他好面哥)4月份开始在网上发布玩GPT-3的心得。最近ChatGPT一波爆火,他不光粉丝涨了一万多,还收…

『 云原生·Docker』Docker中部署Nginx

系列文章目录 本系列主要分为以下六大部分,正在更新中,尽请期待! 『 云原生生之门』 『 云原生前置知识』 『 云原生Docker』 『 云原生Kubernetes』 『 云原生KubeSphere』 『 云原生DevOps』 🚩点击关注本专栏 提示:已经更新的或正在更新的…

自动驾驶之MultiPath++论文阅读笔记

预测道路参与者的future behavior. 摘要 将输入由dense image-based encoding改为a sparse encoding of heterogeneous scene elements. 即用polylines(折现)来描述road features和原始的agent state information(例如位置、速度和加速度)。 主要方法是对这些元素进行a conte…

【POJ No. 2778】DNA 序列 DNA Sequence

【POJ No. 2778】DNA 序列 DNA Sequence 北大OJ 题目地址 【题意】 DNA序列是一个只包含A、C、T和G的序列。分析DNA序列片段非常有用,若动物的DNA序列包含片段ATC,则意味着该动物可能患有遗传病。 给定m 个遗传病片段,求有多少种长度为n 的…

自动驾驶两大路线对决,渐进式玩家为何更容易得人心?

HiEV消息(文/长海)对自动驾驶赛道而言,2022年的冬天格外冷冽。寒潮袭来,从各家的应变方式看,不同路径的玩家呈现“冰火两重天”,进化的趋势也越来越清晰。 以Waymo为代表、持续研发L4级无人驾驶的跨越式路线…

web课程设计网页规划与设计 :DW旅游主题网页设计——凤阳智慧旅游官方-地方旅游网站模板html源码HTML+CSS+JavaScript

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓,页面排版干净简洁。使用HTMLCSS页面布局设计,web大学生网页设计作业源码,这是一个不错的旅游网页制作,画面精明,排版整洁,内容…

ONES X 华西证券|以需求全流程管控,洞见金融数据价值

近日,ONES 签约全国一流证券金融服务商——华西证券,助推华西证券构建需求全流程管控体系,保障需求任务的上下游衔接与顺畅流转,做到系统内所有数据透明化、线上化、统一化,提高团队协同效率,打破「部门墙」…

所谓“生活的艺术“, 就是悠闲二字

关于作者 作为陈独秀、胡适、鲁迅的同时代人,林语堂是"五四"新文化运动的参与者,中国现 代著名作家、学者、翻译家、语言学家,新道家代表人物。他清晰地看到了关于中国 传统文化观点的两种极端倾向,一种是把 中国传统文…

R语言VAR模型的不同类型的脉冲响应分析

目录 模型与数据 估算值 预测误差脉冲响应 识别问题 正交脉冲响应 结构脉冲反应 广义脉冲响应 参考文献 最近我们被客户要求撰写关于脉冲响应分析的研究报告,包括一些图形和统计输出。脉冲响应分析是采用向量自回归模型的计量经济学分析中的重要一步。它们的…