ACL论文总结

news2024/9/24 15:18:22

「博士毕业一年,我拿下 ACL Best Paper」

在不久前结束的自然语言处理NLP,领域顶级学术会议ACL2021上,字节跳动AL lab研究院许晶晶,完成了他的演讲。
在全球顶会做完分享后,许晶晶感到很欣慰,没想到,一项如此底层的研究吸引了大家的兴趣,我们辛苦几个月的研究还是有回报的。
没错,这项底层研究就是荣获本年度ACL最佳论文,《Vocabulary Learning via Optimal Transport for Neural Machine Translation》来自字节跳动,AL lab的许晶晶,周浩、甘纯、郑在翔、李磊五位同学正是这项研究的作者。
在这里插入图片描述
ACL是国际自然语言处理领域的顶会,每年夏天的ACL会议,不仅会吸引世界各大知名科研机构的注意,也是全球主要科技公司的关注焦点,今年的ACL共有3350篇论文投稿,仅评出一篇最佳论文,是整场会议的最高奖项,
此外,在本届ACL上,字节跳动AL lab一共选了11篇论文,
在这里插入图片描述

词表,NLP底层研究

这篇荣获最佳论文的研究,主要聚焦在了词表方向。
词表:就是把完整的句子拆开的一组数据,可以按词拆,按字母拆,按音节拆,每种拆分都可以有不同的意义和理解。
就像中文里[上课]是一个意思,[上]和[课]两个字单独拿出来有分别有不同的意思,
在这里插入图片描述
我们熟知的各种NLP方向的应用,比如机器翻译、文本纠错、聊天机器人等,都离不开词表这个基础,词表是机器学习的基本数据,是实现各类AI功能的养料。
可以说,词表是NLP各个方向应用的地基,把词表做好,可以提升各种不同NLP任务的表现。
在这篇论文里,字节跳动AL Lab的同学通过实验得出了词表大小和词表信息量与机器学习模型训练中,的一些关系,这些规律可以进一步推动NLP科研界解决【什么是好的词表】这个问题。
在此基础上,字节跳动研究员门还提出了一种新的词表学习方案【VOLT】,在常见的英-德翻译、英-法翻译以及多语言自动翻译上,VOLT不仅能比传统的方法获得更好的翻译结果,使用的词表数据体积也大大减少。
比如,在英-德翻译中,这种新方法将传统方法所需的词表数据减少了70%.
在这里插入图片描述
最下面两行为:

  • VOLT相比传统方法减少的词表数据体积。
    此外,字节跳动一系列NLP相关研究,已经成功的应用在火山翻译及西瓜视频上,飞书等产品的翻译功能中,无论实在字节同学还是飞书客户的办公沟通中,还是在用户观看外语视频的场景下,这些研究正在从最基础的维度不断提升着用户体验。
    在这里插入图片描述

博士毕业后的第一项工作成为Best paper

这项研究的一作许晶晶2020年博士毕业于北京大学,这项关于词表的研究也是她校招加入字节跳动后的第一项工作。
入职字节跳动AL lab之后,许晶晶发现这里的氛围高度自驱,在我们组,你的研究工作并不是 L e a d e r Leader Leader直接给一个方向,而是自己找感兴趣的方向提出来,如果这个方向的确很重要,那你你就可以全心全意的投入进去啦。
词表是各类NLP研究的第一步,许晶晶所提出的几个研究方向中也包含词表的方向,关于词表,前人的研究已经有了一个方向,大家就直接按这个方法来了,还没有人深入的探讨当前方法是不是最优解。
看到许晶晶要做词表的基础研究, L e a d e r Leader Leader眼前一亮,公司正在作火山翻译业务,机器翻译业务是一个硬技术,翻译的技术越好,产品就越能获得客户的认可,像词表这样的基础组件,研究好了就可以提升机器翻译的效果,对业务起到巨大的作用。
许晶晶就这样在个人兴趣和公司发展方向上,找到了交集。
但如何找到最佳词表,就可以拿着规律找到那个最佳词表,就像王子拿着灰姑娘的水晶鞋,在全世界寻找灰姑娘本人一样。
但王国的女孩成千上万,世上的词表也数不胜数,到底怎样才能找到最佳词表呢?许晶晶的研究陷入停滞
实验日复一日的做着,真理的灵光却一直没有闪现,一筹莫展之际,团队的一次内部分享给了许晶晶灵感。
在字节跳动 A L L a b AL Lab ALLab中,有各种不同背景的同学会定期分享各自擅长的内容,有的同学数里思维优异,有的同学有着丰富的多语言背景,有的同学对NLP理论研究深厚,在这次内部分享中,一位统计学专业出身的同学做了一次报告,讲到了一些和机器学习相关的数学理论知识, 借助这些理论,许晶晶发现可以将此前发现的规律写成目标函数,引入经济学中[边际效益]的概念
通过离散优化来找到最佳词表,锁定[灰姑娘]所在区域。
许晶晶时候十分庆幸,如果同学当时没有做这个报告,可能我们这项关于词表的研究就到此为止啦。团队背景多样化,的确有助于每个人拓宽自己认知,启发研究的灵感。
虽然有新灵感的启发,但在茫茫人海中寻找灰姑娘,过程仍然充满艰辛,持续数月的时间里,许晶晶每条都在重复着解决办法,做实验跑一遍,发现办法不管用,找其他同学沟通寻找启发,无限循环。
“虽然可以问别人,但组里同学并不是这项工作的主导者,他们会帮我建模、给一些意见或者解决别的问题,但核心工作必须自己一个人思考、想想问题在哪里、反思实验为什么失败。大部分时间还是自己在跟自己沟通,必须耐得住寂寞
苦闷的时间不断重复,“我曾经很长时间都很郁闷,但科研就是这样一件事,你会在很郁闷的时间里度过很长时间,你怎么都解不出来**,就像解不出一道数学题一样,很痛苦**。
许晶晶甚至想过放弃,去研究别的方向,但同学们告诉她:“词表是很有价值的 NLP 基础研究,这个方向非常有前途,而且你已经做了这么多工作,可不要半途而废啊!”

在 Leader 的鼓励下,许晶晶又坚持了一个月。直到有一天,又一次实验失败的许晶晶垂头丧气地跑去食堂,看着眼前的饭菜,脑子里却都是实验的思路和过程。突然,一个灵感来了:把之前的方法简化一下,是不是就可以了?
饭后她又赶紧回到办公室,按照新的灵感重新部署了实验。实验结果证明,这个持续了半年的研究成功了。

但好的实验结果往往只是成功的一半,还需要发表正规的论文向科研界介绍。许晶晶看了一下时间,机器学习顶会 ICLR 2021 论文征集即将截止,留给她的时间只有7天。
虽然
论文写得很快,但时间实在太仓促,ICLR 毫不意外地拒稿了。但 ICLR 的评审也给出了很多负责任的意见
,建议她补充更多说明和实验证明。
基础理论的研究往往艰难晦涩,研究作者团队陷入了反复的改论文过程,他们常常会把自己「分裂」成两个人:一个人作为研究者,讲述这项研究的内容;一个人作为评审者,试图理解论文到底讲了什么。
大改了 3 个月之后,许晶晶把论文投给了 NLP 顶会 ACL 2021。在 ACL 的规则里,会有 3 位双盲评审(作者和评审互相不知道对方是谁)同时看同一篇论文,满分 5 分,大部分能中选的论文会拿到 3~3.5 分左右的分数,4 分以上就已经相当罕见了,而这篇论文有两位评审直接给了 5 分,第三位评审的分数也接近满分。在这样的高分之下,字节跳动 AI Lab团队的这篇论文获得推荐,最终中选本届 ACL 最佳论文奖

在这里插入图片描述

获奖秘诀,长时间投入底层研究

博士毕业后的第一项工作就拿到了顶会 Best Paper,许晶晶觉得这和团队的支持密切相关:“我们团队背景很多元,有数学好的、工程能力很强的、有 NLP 背景很强的,多元背景可以启发研究思路,并且还有丰富的训练资源,可以支持你来做大型实验
除了多元背景,更让许晶晶珍视的是团队「沉浸式」的科研氛围:“能拿到 Best Paper,首先我们的方向很重要,我们没有选择主流的在单个任务上做提升的方向,而是选择了比较小众的赛道,虽然基础但是没有很多人来研究,但基础研究的匮乏是整个业界都面临的问题,因为要长时间深入思考,没有那么立竿见影。我们团队的氛围刚好很宽松,不会被 push 要求你短时间内就有成果,可以长时间投入到重要的事情上去,做长期的工作

在NLP领域里,如果是研究翻译、对话等某一个具体任务, 对具体场景做针对性的优化,效果会更好,但基础组件可以用在每个不同的领域里,因此,基础研究对每个具体不同的场景都可以起到推动作用
在徐晶晶看来,整个NLP行业,都需要一些创新型的东西,让基础研究和具体任务都能得到创新和发展,我们这篇论文的意义就是让大家重新思考,词表还有更大的空间。

经验

基本上能想到的ideas,大部分人都研究透彻啦,慢慢的全部都将其搞定都行啦的理由于打算。

  • 选择比较小众的赛道。
  • 研究方向:词表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/137469.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自然语言处理重点 第11章 机器阅读理解 复习

机器阅读理解复习机器阅读理解概述机器阅读(MRC)理解与问答系统(QA)的区别:本章内容:MRC 任务分类:完形填空形式(cloze-style)选项形式片段抽取形式(span extraction)文本生成形式(free-answer/…

uCharts柱状图横向排列及不同条件下得数据颜色不同,雷达图的使用及各个参数的配置讲解

一:雷达图 1,建立一个盒子,内部存放uCharts图表 在data数据中return内部配置如下数据: chartData: {},//您可以通过修改 config-ucharts.js 文件中下标为 [radar] 的节点来配置全局默认参数,如都是默认参数,此处可以不传 opts 。实际应用过程中 opts 只需传入与全局默认…

【台式机DIY】我的第一台台式机电脑配置清单

文章目录[toc]【第一台台式机】一、电脑配置清单【电脑小白我科普】一.CPU1.选购:主流品牌2.选购:如何选择3.参数:接口4.参数:频率5.参数:核心和线程6.参数:功耗7.参数:缓存二.主板1.选购&#…

Django开发员工管理系统(Part I)

文章目录1. 准备工作1.1 创建django项目1.2 创建app1.3 配置settings.py文件,完成app注册2. 设计数据库表结构3. 在MySQL中生成表3.1 创建数据库3.2 修改配置文件,连接MySQL数据库3.3 通过django命令生成数据库表4. 编写部门列表4.1 (前段页面…

报表开发工具FastReport.NET的十大常见问题及解决方法(二)

Fastreport是目前世界上主流的图表控件,具有超高性价比,以更具成本优势的价格,便能提供功能齐全的报表解决方案,连续三年蝉联全球文档创建组件和库的“ Top 50 Publishers”奖。慧都科技是Fast Reports在中国区十余年的友好合作伙…

php宝塔搭建部署实战海洋cms视频内容管理系统源码

大家好啊,我是测评君,欢迎来到web测评。 本期给大家带来一套php开发的海洋cms视频内容管理系统源码,感兴趣的朋友可以自行下载学习。 技术架构 PHP7.2 nginx mysql5.7 JS CSS HTMLcnetos7以上 宝塔面板 文字搭建教程 下载源码&#…

在动态规划的海洋中遨游(一)

前言:\textcolor{Green}{前言:}前言: 💞本专栏用于本人刷算法的过程。主要包含刷题中的感受以及知识点缺陷。对于学习者来说可以作为参考。 目前更新的算法内容会比较多,很多都是通过刷题来进行知识点的总结&#xff0…

计算机SCI论文,很难发表吗?应该如何发表? - 易智编译EaseEditing

首先,找题目需要符合国际标准,但不要缺少创新的探究题目。这个题目可以是最新的技术,也可以是最新的领域; 也可以是探索过很多次的课题。但是如果我们想成功交付,如何创新是我们需要思考的。 其次,因为英语…

为什么有的电源不是从0V开始上电的

大家可以看下,这张图片是测试XILINX 的FPGA 325T的上电时序图,其中绿色的线是FPGA 核心电源VCCINT 1.0V的波形,黄色的是BANK的电源2.5V的波形,蓝色的是辅助电源1.8V 的波形大家有没有发现这个时序图中黄色的波形,也就是…

Java之多线程详解

目录 一、线程简介 进程(Process )与 线程(Thread) 二、线程创建 1、线程Thread 1.1. 步骤 1.2 应用 1.3 案例:下载图片 2、实现Runnable接口 2.1 步骤 2.2 应用 3.小结 3. 实现Callable接口(了解…

java开发的考研系统大学生考研推荐网站考研网站源码

简介: 考研信息推荐查询。主要是管理发布管理考研的知识文章,或者上传资料,发布考研的视频。学生可以注册后下载资料,查看考研文章视频等。文章分为vip文章和普通文章,学生查看vip文章需要消耗积分。 演示视频 https…

FX5U 原点回归指令 DSZR

上一篇文章中转述了网友的文章,因回原点实在重要,再详细描述DSZR指令。 DSZR是具有自动搜索功能的原点回归指令。它对当前位置没有要求,在任意位置哪怕是停止在限位开关位置上都能完成原点回归操作。 1.指令格式 S1 原点回归速度或存储了数…

linux虚拟机搭建kafka(单节点、使用kafka自带zookeeper)

本文使用kafka单节点安装及配置,并使用kafka自带的zookeeper。一般kafka需要起三个kafka构成集群,可以连单独的zookeeper,本文不涉及。一、kafka下载解压安装包下载地址:https://archive.apache.org/dist/kafka/2.5.0/kafka_2.12-…

MyPerf4J结合Grafana和InfluxDB采集JVM以及QPS指标

MyPerf4J结合Grafana和InfluxDB采集JVM以及QPS指标 背景 ​ 需要采集现场java程序运行的状态数据(包括JVM指标以及QPS,RPS指标等)。需要采集的方式尽可能轻量化 ​ 结合实际情况采用MyPerf4J作为Java探针,InfluxDB作为数据存储端,Grafana作为数据展示…

15---整合Echarts和完善头像上传

1、完善头像上传功能 上次写的头像上传功能&#xff0c;不能实现上传保存后立刻刷新右上角头像&#xff0c;这里做一个完善。首先是在Manage.vue中&#xff08;父&#xff09;&#xff0c;写刷新User的方法 //传一个user过去到header <Header :collapseBtnClass"col…

【信息论与编码 沈连丰】第三章:离散信源

【信息论与编码 沈连丰】第三章&#xff1a;离散信源第三章 离散信源3.1 离散信源的分类及其描述3.2 离散信源的熵3.3 信源的冗余度3.4 信源符号序列分组定理3.5 平稳离散信源及其性质第三章 离散信源 3.1 离散信源的分类及其描述 信源分类&#xff1a;本质上主要基于两方面来…

fastai教程学习笔记

这几天对着fastai教程读了下&#xff0c;大部分写得已经很不错。这里做点知识精炼的笔记。 安装fastai 推荐在conda环境内执行以下命令。它 pip install fastaifastai架构 fastai的编程架构如下图所示&#xff1a; fastai提供了高、中、低三层的API&#xff0c;用户可以根…

73、【哈希表】leetcode——15. 三数之和(C++版本)

题目描述 原题链接&#xff1a;15. 三数之和 解题思路 本题的难点在于去重&#xff0c;针对两种不同的方式&#xff1a;双指针和Hash采用不同的去重判定条件。 1、去重的目标 要明确&#xff0c;去重的是重复三元组&#xff0c;而不是三元组里重复的数。 2、去重初步思路 …

商业与数据生态议题解读,Doris Summit 2022 分论坛议程介绍|即刻报名

Doris Summit 2022 将于1 月 6 -7 日在线上正式举办&#xff0c;本次峰会共分2 天进行&#xff0c;首日上午为主论坛&#xff1a;核心技术解析&#xff0c;下午为商业与数据生态分论坛&#xff0c;7 日全天为行业用户最佳实践案例。大会汇聚了来自全球顶尖云厂商、一线互联网企…

CoMER论文翻译

文章目录Abstract1、Introduction2、Related Work2.1 HMER Methods2.2 Coverage Mechanism3、Methodology3.1、Background3.2、CNN Encoder3.3、Positional Encoding3.4、Attention Refinement Module3.5、Coverage4 Experiments论文链接&#xff1a;https://arxiv.org/abs/220…