【使用 BERT 的问答系统】第 7 章 :BERT 模型的未来

news2024/11/15 21:39:03

     🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎

📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​

📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】

 🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。

如果你对这个系列感兴趣的话,可以关注订阅哟👋

文章目录

未来能力

抽象概括

自然语言生成

机器翻译

结论


到目前为止,我们涵盖的主题涉及 BERT 模型的架构和应用。BERT 模型不仅影响了 ML 领域,还影响了内容营销等其他领域。下面我们就来讨论一下BERT的发展和未来的可能性。

未来能力

事实证明,像 BERT 这样基于 Transformer 的 ML 模型对于最先进的自然处理任务是成功的。BERT 是一种大规模模型,仍然是提供最先进准确性的最流行的语言模型之一。

BERT 模型也被谷歌搜索团队用来提高谷歌搜索的查询理解能力。由于 BERT 是一个双向模型,它能够通过查看周围的单词来理解单词的上下文。BERT 特别有助于捕捉搜索查询背后的意图。

BERT 模型自发布以来,影响了基于 BERT 的各种模型的发展。它必须因引入模型而受到赞誉,这些模型不仅包含其名称,还包含其核心架构思想。BERT 的变体能够成功打破各种 NLP 任务的记录,例如情感分析、文档分类、问答等。

下面是一些基于 BERT的模型。
  • 有些模型与应用程序或特定领域的语料库有关。BioBERT就是这样一种在生物医学文本上进行训练的模型。其他示例包括 SciBERT 和 Clinical BERT。与在 BookCorpus 和维基百科上训练的微调 BERT 相比,在下游 NLP 任务上进行微调时,在特定领域的语料库上进行训练已被证明是有用的并且会产生更好的性能。

  • ERNIE模型将知识融入到预训练中,并使用知识图来屏蔽实体和短语。它在大型语料库上进行了预训练,同时在输入过程中考虑了知识图谱。

  • TransBERT模型用于使用三阶段无监督训练方法的故事结局预测任务。然后是两个监督步骤。

  • 为了提供医疗建议,G-BERT基本上结合了图神经网络和 BERT 的强大功能。该模型用于医疗代码建议和表示。G-BERT 中具有分层表示的医疗代码编码是在图神经网络的帮助下完成的。

  • 除了预训练模型之外,还有经过微调的模型,如 DocBERT(文档分类)和 PatentBERT(专利分类)。这些模型针对特定任务进行了微调。这些预训练的基于 BERT 的模型可以借助 NLP 任务、POS、NER 等进行微调,以获得更好的结果。

这些模型代表了广泛的基于 BERT 的模型。他们描述了 BERT 模型如何通过预训练或微调的修改进一步用于不同的领域。因此,BERT 为开发在各种任务中有效的其他模型奠定了基础。

依赖 BERT 模型的开发之一是由 Facebook 开发的 RoBERTa,它已被证明在 GLUE 基准测试上非常高效。RoBERTa 使用 BERT 的策略来屏蔽文本,机器学习预测隐藏的文本。训练是在更多的小批量和学习率上完成的,并且修改超参数以获得更好的结果。这些变化让 RoBERTa 模型证明了它在 MNLI、QNLI、RTE、STS-B 和 RACE 任务上的效率,并且在 GLUE基准测试上也显示出相当大的改进。

RoBERTa 使用 160 GB 的数据进行预训练,其中包括未注释的 NLP 数据集和从称为 CC-News 数据集的公共新闻文章中删除的数据。这些数据以及 RoBERTa 在 1024 V100 Tesla GPU 上的训练需要一天才能完成。这导致 RoBERTa 的性能优于其他可用模型,如 BERT、XLNet、Alice 等。

BERT 被整合到谷歌搜索中,从而产生精确和准确的搜索。这将影响许多用户的内容策略。内容现在必须更加精确,以便可以使用搜索引擎优化对其进行更好的评级。设计内容的策略必须即兴发挥。

抽象概括

ML 在 NLP 中取得了长足的进步,其中一个应用是在摘要领域。最常见的摘要形式是提取摘要,它从内容中返回最重要的句子。另一种类型是抽象摘要,它使用新的句子,完整地保留重要的想法或事实。

内容选择是任何摘要系统不可或缺的一部分。在最近的方法中,高度强调了将内容选择与摘要生成分开的重要性。有许多正在进行的研究试图提取应该作为摘要一部分的实词和句子,并用它们来指导摘要摘要的生成。

可以通过缩短或改写冗长的文本来形成一个简短的句子。编码器和解码器在这方面很有帮助。可以通过类似的方式生成综合摘要,方法是选择重要的句子并删除不重要的句子元素,例如介词短语。可以通过融合多个句子来生成摘要。选择重要的句子可以通过多种方法来完成,但是处理它的大基数和识别句子关系以进行融合一直是一项艰巨的工作。以前一直假设相似的句子可以融合在一起,因为它们携带相似的待处理信息。

由于抽象摘要难以执行,因此该领域有很多发展。BERT 在抽象摘要方面也有应用。可以使用 BERT 模型生成多个句子的嵌入。要执行此任务,可以在第一句开始之前插入一个 [CLS] 标记。输出嵌入必须经过多层处理,这样才能捕获重要的特征。BERTSUM 模型就是一个例子。

自然语言生成

自然语言生成(NLG)是比较活跃的研究领域之一。它是 NLP 的一个子组,与 NLU 一起。NLG 的基本任务是将一些文本标记或数据转换为自然语言。实现这一点的基本方法是为特定域预定义模板并使用 NLU 技术填充空槽。

一种更复杂的方法是使用语言建模。语言建模用于使用学习源语言的内在特征所需的书写方式、语法、句法等对自然语言进行建模。然后我们可以使用这种语言针对某些给定的输入数据或文本生成语言内容。

在语言理解方面的应用不仅限于NLP,还延伸到NLG。Open-AI 的 GPT-2 根据给定的单词生成文本,是 NLG 中最先进的模型之一。BERT 模型尝试使用 HuggingFace 转换器获得相同的特征。

最近的发展表明,BERT 在 NLG 领域的表现并非最佳选择。其背后的原因是 BERT 模型是在 MLM 上训练的,而不是在自回归上训练的。除了使用 MLM 之外,混洗输入和随机词等变体使 BERT 模型更具泛化性。即使在所有这些变化之后,BERT 仍落后于 GPT-2,因为 BERT 模型是编码器表示,而 GPT-2 是解码器堆栈,这有助于它创建上下文丰富的表示。

机器翻译

翻译是将文本从一种语言翻译成另一种语言的想法。考虑到人类语言的波动,自动或机械翻译可能是最具挑战性的大脑功能之一。最近,ELMo、GPT 和 GPT-2、BERT、跨语言模型 (XLM)、XLNet 和 RoBERTa 等预训练技术在 ML 和 NLP 社区引起了广泛关注。

神经机器翻译 (NMT)模型通常包含一个编码器,用于将输入序列映射到隐藏表示,以及一个解码器,用于解码隐藏表示并生成目标语言的句子。BERT 在 NLU 中取得了巨大成功,将 BERT 与 NMT 相结合以提高性能可能是一个很好的研究领域。

当 BERT 由传感器和解码器使用注意力模型绘制时,可以通过融合 BERT 模型和 NMT 来改进 NMT。开放监督 NMT(包括句子级和文本级翻译)、半监督 NMT 和无监督 NMT 的研究证明了这种方法的有效性。

为了准确预测翻译质量,从头开始训练的模型理论上需要大量自然语言源文本、翻译及其人工标记的质量分数。创建足够规模的这些数据集来训练神经网络模型的成本高得令人望而却步。因此,研究人员已经确定,他们可以将学习从在正确翻译的平行语料库上训练的模型转移到识别翻译是否正确的任务。获得数百万个正确翻译的句子以用于在不需要质量分数的区域预训练模型要容易得多。

对于未来的工作,有很多有趣的方向。首先,我们必须学习如何加快测量过程。其次,我们可以在很多应用中使用这样的算法,比如query in response。如何将 BERT-fused 模型压缩成简化版本是另一个话题。还有其他现代功能,包括有关蒸馏的信息,以将预训练模型与 NMT 集成,这是一种测试方法。

结论

本章着眼于 BERT 和最先进的 NLP 任务中正在进行的研究。至此,我们结束了进入 NLP 世界的激动人心的旅程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/56699.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(八) 共享模型之管程【活跃性】

一、多把锁(P114) 一间大屋子有两个功能:睡觉、学习,互不相干。 现在小南要学习,小女要睡觉,但如果只用一间屋子(一个对象锁)的话,那么并发度很低 解决方法是准备多个房间…

项目复习:基于TCP的文件服务器

ser.c(服务器): #include "./fun.h"int main(int argc,const char * argv[]) {//1.判断入参if(argc!3){fprintf(stderr,"入参为空,请检查\n");return -1;}//端口号转整型int portatoi(argv[2]);//变量声明struct sockaddr_in sin;int sinLensi…

axios.defaults.baseURL的三种配置方法

axios.defaults.baseURL的三种配置方法目录概述需求:设计思路实现思路分析1.少2.2.动态获取请求地址3.3.采用配置文件参考资料和推荐阅读Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,m…

SEAL 0.3 正式发布:国内首个全链路软件供应链安全管理平台

12月1日,软件供应链安全管理平台 SEAL 0.3 正式发布(以下简称“SEAL”),这是国内首个以全链路视角保护软件供应链的安全管理平台。两个月前 SEAL 0.2 发布,该版本创新性地提供了依赖项的全局汇总与关联,用户…

DSP篇--C6678功能调试系列之SPI调试

目录 1、初始化 2、数据传输 1、初始化 Perform the following procedure for initializing the SPI: 1. Reset the SPI by clearing the RESET bit in the SPI global control register 0 (SPIGCR0) to 0. 2. Take the SPI out of reset by setting SPIGCR0.RESET to 1. 3. …

【使用 BERT 的问答系统】第 6 章 :BERT 模型应用:其他任务

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

【大数据入门核心技术-Zookeeper】(三)Zookeeper的选举机制和流程

目录 一、Zookeeper的选举机制 1、每一个 Server 都会发出一个投票 2、接收来自各个 Server 的投票 3、处理投票 4、统计投票 5、改变服务器状态 二、Zookeeper的选举流程 一、Zookeeper的选举机制 Zookeeper 在配置文件中并没有指定 Master 和 Slave。但是,…

软件测试培训之十个无脚本测试方案

1.自然语言处理(NLP) 目前,一些最新的无脚本自动化测试工具能够通过采用NLP语法,来创建各种测试用例。就像编写简单的英语语句一样,用户可以轻松地实现测试用例的自动化。此类工具一般会带有AI驱动的内核,因此大幅节省了用户对其维…

【遥感图像融合:梯度指导:纹理细节】

GTP-PNet: A residual learning network based on gradient transformation prior for pansharpening (一种基于梯度变换的剩余学习网络) 提出了一种基于梯度变换先验的残差学习网络GTP-PNet,用于生成光谱分布准确、空间结构合理的高质量HRM…

车间生产设备管理有哪些问题?低代码来助力

随着科学技术对生产技术与生产工艺流程的不断改革创新,同时受市场变化的影响,企业生产管理模式也发生了巨大的改变,对车间生产设备管理的要求更高,并在一定层面推动了车间生产设备管理模式的创新和转变发展。但由于不同的企业面对…

JavaScript---DOM---DOM简介、获取元素、事件基础、操作元素---11.5

DOM简介 什么是DOM 文档对象模型(Document Object Model,简称DOM)是W3C组织推荐的处理可扩展标记语言(HTML或者XML)的标准编程接口。 W3C已经定义了一系列的DOM接口,通过这些DOM接口可以改变网页的内容、…

[附源码]计算机毕业设计springboot学生宿舍管理系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

如何在 Windows 10/8.1/8/7 上无密码删除 Deep Freeze

如何在 Windows 10/8.1/8/7 上无密码删除 Deep Freeze 有些人认真对待计算机安全问题。这些人会安装 Deep Freeze 冰点来保护他们的计算机。该应用程序的便利之处在于它会在重新启动时将计算机恢复到原始的预设配置。因此,可以轻松消除重启之间发生的任何变化&#…

海量数据如何在Web端实现动态可视化?看看这家企业是怎么做的

“我们TestLogger公司是一家赛车行业的软件公司,主要是通过分析在赛道上多个传感器收集到的赛车数据,帮助提高赛车性能。TestLogger Analyzer就是其中的一款核心数据分析工具,在我们构建该工具的第一个产品原型时,就发现由于不同类…

(附源码课件)10款Java小游戏满足你各种需求

游戏推荐 黄金矿工项目 飞机大战项目 超级玛丽项目 坦克大战项目 大鱼吃小鱼项目 飞翔的小鸟项目 扫雷项目 贪吃蛇项目 推箱子项目 本套视频课程包含: 1、王者荣耀项目 开发环境:jdk1.8 开发工具:eclipse JavaEE基础如下:变量、数据类型…

[附源码]计算机毕业设计springboot校友社交系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

uni-app入门:自定义tabbar

本文介绍如何使用vant Weapp定义自定义tabbar.按照自定义图标的方式进行添加: 自定义tabbar微信官方链接: https://developers.weixin.qq.com/miniprogram/dev/framework/ability/custom-tabbar.html 1.导入vant weapp并构建npm 项目根目录右键选择外部终端窗口中打开 …

Numpy入门[2]——Matplotlib 基础

Numpy入门[2]——Matplotlib 基础 参考: https://ailearning.apachecn.org/ Python直接使用plot()函数画图 使用Jupyter进行练习 在使用Numpy之前,需要了解一些画图的基础。 Matplotlib是一个类似Matlab的工具包,主页地址为 http://matplot…

梁建章:旅行重回全球时代主题 构建“创新与传承”大场景

近日,在“防疫二十条”等最新措施基础上,国内多地宣布优化调整防疫措施,旅游市场复苏节奏也有望加速推进。 12月2日,携程集团在澳门举办“与时聚进”2022全球合作伙伴峰会。携程集团联合创始人、董事局主席梁建章,携程…

JS中常用的Date内置对象&处理Date内置对象的一些方法

JavaScript 中的对象分为3种:自定义对象 、内置对象、 浏览器对象 内置对象就是指 JS 语言自带的一些对象,这些对象供开发者使用,并提供了一些常用的或是最基本而必要的功能 JavaScript 提供了多个内置对象:Math、 Date 、Array…