基于 Bert 论文构建 Question-Answering 模型

news2024/11/18 10:31:15

访问【WRITE-BUG数字空间】_[内附完整源码和文档]

摘要 本文拜读了提出 Bert 模型的论文,考虑了在 Bert 中算法模型的实现.比较了 Bert 与其他如 Transformer、GPT 等热门 NLP 模型.BERT 在概念上很简单,在经验上也很强大。它推动了 11 项自然语言处理任务的最新技术成果,而这 11 项 NLP 任务可分类为四大自然语言处理下游任务,本文聚焦分析实现一个简单的问答任务,使用了来自 BERT-large 的训练集,测试数据集(作业四爬取的 wiki 数据集),测试结果令人满意。

关键词 Bert; Transformer; GPT; NLP; 问答任务

一、前言
由于本课设用的 BERT-large 真的巨巨巨巨大。有 24 层,1024 大小的 embedding,总共 340M 个参数!总的来说,它是 1.34GB。然而国内下载实在太慢,故使用 Google Colab 提供的 jupyter 来运行相关代码。

想做但没有做出的:利用 bertviz(),一个 Transformer 模型中可视化注意力的工具,时间有些仓促,原本觉得能更好地展示 Bert 的运行过程,种种原因没有细看。

可视化的替代方案:将文本语段中的开始词和结束词分别评分,然后将其可视化。对于简短的文本有较好的效果。

数据集根据课设,一个简单联动作业四的 wiki 数据集中的文本内容(Demo),由于爬取的数据没有答案标签,因此只简单判断答案。

大规模数据集以及部分参考代码来自的 HW7 问答,数据集(包括训练集、验证集和测试集[文章 + 问题 + 答案])。

二、论文的简短介绍
涉及领域,前人工作等

本文主要涉及 NLP 的一种语言模型,之前已经出现了【1】ELMo 和【2】GPT 这些较为强大的模型,ELMo 的特征提取器不是很先进,GPT 没有使用双向,这篇论文结合两者的思想或做法,大大提升了最终效果。

2.1 中心思想
本论文文在前人研究基础上,沿用了 pre-train 和 fine-tuning 结构。使用双向 transformer 结构(不同于 ELMO 的双向,而是"掩蔽语言模型"(MLM)),并加入 Next Sentence Prediction(NSP),在 11 个自然语言处理任务上获得了新的最先进的结果。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/563301.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

“她经济”崛起,茉莉智慧如何以科技赋能月子中心迭代升级?

近年来,利好生育政策频出,女性消费能力不断提升,以月子中心为核心的产后护理赛道发展势头良好。据iiMedia Research数据,2022年中国月子中心市场规模突破223.0亿元。iiMedia Research市场调查显示,93.5%的受访者认为产…

ubuntu命令记录

centos 下载地址: 网易镜像:http://mirrors.163.com/centos/6/isos/ 搜狐镜像:http://mirrors.sohu.com/centos/6/isos/ VM与LINUX的安装(虚拟机的安装) 注意:a.必须开启虚拟化(一般电脑都默认…

BFT 最前线 | 王小川:2033机器智慧将超人类;扎克伯格财富暴涨;哈工大:能跳跃的昆虫机器人;北京支持“1+4”机器人领域

原创 | 文 BFT机器人 名人动态 CELEBRITY NEWS 01 王小川:10年后机器智慧将超过人类 年底将推出对标GPT-3.5的模型 科技预言大师雷库兹韦尔说人工智能的奇点,机器智慧超过人类会发生在2045年,王小川的判断比这更激进,他认为这一…

复杂的C++继承

文章目录 什么是继承继承方式赋值规则继承中的作用域(隐藏)子类中的默认成员函数需要自己写默认成员函数的情况 继承与友元及静态成员多继承菱形继承菱形继承的问题菱形虚拟继承 继承和组合 面向对象三大特性:封装继承和多态。封装在类和对象…

2172. 最大公约数

Powered by:NEFU AB-IN Link 文章目录 2172. 最大公约数题意思路代码 2022年第十三届决赛真题 2172. 最大公约数 题意 给定一个数组, 每次操作可以选择数组中任意两个相邻的元素 x , y x, yx,y 并将其 中的一个元素替换为 gcd ⁡ ( x , y ) \operatorname{gcd}(x, y)gcd(x,y),…

从月薪5000到月薪20000,自动化测试应该这样学...

绝大多数测试工程师都是从功能测试做起的,工作忙忙碌碌,每天在各种业务需求学习和点点中度过,过了好多年发现自己还只是一个功能测试工程师。 随着移动互联网的发展,从业人员能力的整体进步,软件测试需要具备的能力要…

征稿丨IJCAI‘23大模型论坛,优秀投稿推荐AI Open和JCST发表

第一届LLMIJCAI’23 Symposium征稿中,优秀投稿论文推荐《AI Open》和 《JCST》发表。 大规模语言模型(LLMs),如ChatGPT和GPT-4,以其在自然语言理解和生成方面的卓越能力,彻底改变了人工智能领域。 LLMs广泛…

Go语言文件I/O操作

go语言中的io操作主要学习目标 掌握文件的常规操作掌握ioutil包的使用掌握bufio包的使用 在go中使用 FileInfo接口 定义了IO的一些函数 FileInfo接口 源码追溯 //type.go // A FileInfo describes a file and is returned by Stat and Lstat. type FileInfo fs.FileInfo/…

ChatGPT:你真的了解网络安全吗?浅谈攻击防御进行时之传统的网络安全

ChatGPT:你真的了解网络安全吗?浅谈网络安全攻击防御进行时 传统的网络安全总结 ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序,是人工智能技术驱动…

什么是网络安全?如何让小白简单的学习网络安全

一、什么是网络安全 网络安全是一个庞大的学科,如果只是普及网络安全技能是非常枯燥的,所以建议从大众容易接受的网络安全诈骗入手,可以先介绍一下近年来频发的网络安全诈骗案例,钓鱼邮件、中奖短信、冒充公检法等多种诈骗手段&am…

Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到

自从Meta发布LLaMA以来,围绕它开发的模型与日俱增,比如Alpaca、llama.cpp、ChatLLaMA以及Vicuna等等,相关的博客可以参考如下: 【Alpaca】斯坦福发布了一个由LLaMA 7B微调的模型Alpaca(羊驼),训…

SpringBoot+Vue前后端分离项目——订单模块——订单管理页面设计

接口返回数据格式: {"msg": "查询成功","total": 1,"code": 200,"data": [{"orderId": "qwer1234","userId": "1","userName": "admin","ad…

全网最全JAVA面试八股文,终于整理完了,堪称2023最强

当今互联网行业中,Java作为一种广泛应用的编程语言,对于求职者来说仍是一项受欢迎的技能。然而,随着市场上的开发人员数量越来越多,Java面试的竞争也愈加激烈。 目前Java面试有着以下现状: 面试难度加大 与过去相比…

9:00进去,9:05就出来了,这问的也太变态了···

从外包出来,没想到死在另一家厂子了。 自从加入这家公司,每天都在加班,钱倒是给的不少,所以也就忍了。没想到5月一纸通知,所有人不许加班,薪资直降30%,顿时有吃不起饭的赶脚。 好在有个兄弟内推…

第四章 内存管理

4.1 内存的基本知识 4.1.1 知识总览 1、内存的作用: 内存可存放数据。程序执行前需要先放到内存中才能被CPU处理--->缓和CPU与硬盘之前的速度矛盾 2、内存的存放: 内存的存放类似于酒店,给内存的每个存储单元都编号。(在多道…

使用柔性数组重写MyString

hello,各位宝子,今天阿崽将使用c和柔性数组的方式重新去写String类 在开始本次知识前,首先给大家介绍下柔性数组这个buff特点: 结构中的柔性数组成员前面至少要包含一个其他成员 sizeof返回的这种结构大小不包括柔性数组的内存 …

不想打工做什么好呢?厌倦打工的不妨试试以下几种赚钱方式

除开一些比较幸运的人,谁不是一边打工养家,一边在找寻好机会?人与人之间本来就存在诸多的不公平。有的人这辈子只能靠打工养家,只有少数人能不靠打工来挣钱养家,但是这极少部分人凭什么是你? 现在社会上&am…

( 数组) 209. 长度最小的子数组——【Leetcode每日一题】

❓209. 长度最小的子数组 难度:中等 给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其和 ≥ target 的长度最小的 连续子数组 [numsl, numsl1, ..., numsr-1, numsr] ,并返回其长度。如果不存在符合条件的子数组,…

【ArcGIS Pro二次开发】(30):数据定义语言DDL详解

在之前的文章【ArcGIS Pro二次开发】(19):创建要素类(FeatureClass)中有涉及DDL的知识点,随着深入的学习,在这里做一个小总结。 一、DDL基本概念 ArcGIS Pro二次开发中的DDL API是一种【数据定义语言】,主…

【Web服务器集群】Web基础与HTTP协议

文章目录 一、Web基础1.域名概述1.1域名的概念1.2域名解析1.3域名空间结构 2.域名注册3.网页的概念4.HTML概述4.1HTML概念4.2HTML文档的结构 5.网页基本标签6.Web概述7.静态网页与动态网页7.1静态网页7.2动态网页7.3动态网页语言 二、HTTP协议1.概念2.HTTP协议的版本3.HTTP方法…