GPT(Generative Pre-Training)论文解读及实现(一)

news2024/10/7 6:41:20

1 GPT Framework

1.1 Unsupervised pre-training

Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood:
在给定语料上下文环境下,目标时最大化下面的语言模型,即在给定前 i-1个词和参数θ前提下,使第 i 个词出现的概率最大。
在这里插入图片描述

we use a multi-layer Transformer decoder [34] for the language model
我们使用多层Transormer decoder层来实现GPT,公式如下图所示。
U是输入语料,We是全量字典token embedding矩阵,Wp是位置embedding 矩阵,n代表了有n层transformer_block.
p(u)是最后输出的softmax概率
在这里插入图片描述
在这里插入图片描述](https://img-blog.csdnimg.cn/7cb38e56f8a14b5daa2dbf2ab6b1a7bd.png)

1.2 Unsupervised pre-training

有了上面的预训练模型后,在进行下游任务。
在给定数据x1,x2 …,xm 和label y时,
① 将数据 X输入上面预训练模
② 取预训练模型的transformer_block最后一层作为预训练模型输出
③ 在预训练模型输出结果上再加一层全连接层,权重Wy,得到分类模型。
④ 最大化分类模型
在这里插入图片描述

We additionally found that including language modeling as an auxiliary objective to the fine-tuning helped learning by improving generalization of the supervised model, and accelerating convergence.
怎加语言模型作为微调模型的附属任务,有利于改善模型泛化能力和加快收敛。
整个微调任务,只增加了参数Wy,没有增加任何其他参数。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/743920.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java8 Stream 使用详解

Java8 Stream 使用详解 一、流的定义二、流的创建1. 通过集合创建流:2. 通过数组创建流:3. 通过Stream.of()创建流:4. 通过Stream.generate()创建流:5. 通过Stream.iterate()创建流:6. 通过文件、网络、IO流等方式来创…

Effective Java 高效编码阅读 笔记

《Effective Java》 有关于 Java 变成编程性能优化的 的书籍,看了不计其数 ,但是每当读起来能让我眼前一亮的还得是 Effective Java 像这一类的书籍还有很多例如下面的 的两本,今天呢,来记录下此书的阅读笔记方便日后记忆&#xf…

【面试题34】什么是MVC,为什么要使用它

文章目录 一、前言二、MVC介绍2.1 模型(Model)2.2 视图(View)2.3 控制器(Controller) 三、MVC模式的优点四、总结 一、前言 本文已收录于PHP全栈系列专栏:PHP面试专区。 计划将全覆盖PHP开发领域…

深入了解Spring Cloud的服务注册与发现组件Eureka

摘要:Spring Cloud是一个基于Spring框架的开发工具包,可以帮助开发人员构建基于微服务架构的分布式系统。其中的核心组件之一是Eureka,它提供了一套强大的服务注册与发现功能。本文将深入介绍Spring Cloud中的Eureka组件,包括其背…

MIT 6.S081 -- Networking

MIT 6.S081 -- Networking 引言计算机网络概述二层网络 --- Ethernet二/三层地址转换 --- ARP三层网络 --- Internet四层网络 --- UDP网络协议栈(Network Stack)Ring BufferReceive Livelock如何解决Livelock 引言 本文整理至: MIT 6.S081 2020 操作系统…

回归预测 | MATLAB实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络多输入单输出回归预测

回归预测 | MATLAB实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络多输入单输出回归预测 目录 回归预测 | MATLAB实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络多输入单输出回归预测预测效果基本介绍模型描述程序设计学习总结参考资料 预测效果 基本介…

nginx高并发架构

1.前言 对于高并发的流量web架构,单纯的使用nginx是不够用的,nginx做七层代理需要处理数据,在大并发的情况下对主机资源的消耗就非常厉害了,所以此情况下就引入了lvs,使用lvs的四层转发功能,四层转发不需要…

【MySQL】如何优化SQL查询的总体框架(详细版,关于如何优化数据库服务器从大到小详细说明了步骤)

文章目录 1 数据库服务器的优化步骤2 观察2.1 观察系统总体运行情况2.2 定位执行慢的 SQL:慢查询日志2.3 查看 SQL 执行成本:SHOW PROFILE2.4 分析查询语句:EXPLAIN(重点掌握)2.4.1 EXPLAIN各列作用2.4.2 EXPLAIN 的 t…

银行安全用电监管平台可行性研究及解决方案

2017年4月26日,国务院安全生产委员会印发《国务院安全生产委员会关于开展电气火灾综合治理工作的通知》(安委〔2017〕4号),强调用三年时间综合治理电气火灾工作,提高社会单位发现和处置消防电气安全隐患能力&#xff0…

2023国自然会评:上会及分数解析,这几种情况本子容易被拿下?

国自然基金上会标准 今年的会评已经临近“重头戏”---面青地项目会议评审。 在国自然会评中,通过函评筛选出的科研工作者,经过会评筛选和评审,最终被评选出的项目将获得国自然会的资金支持。 国自然的会评,分为几个部分&#x…

美国访问学者怎么考驾照?

作为一个美国访问学者,你可能会想知道在美国如何考取驾照。在这篇文章中,知识人网小编将介绍美国的驾照考试流程和一些相关要求。 首先,作为一名访问学者,你需要了解美国各州对驾照的规定可能会有所不同。因此,在考取驾…

单片机尽力少用位域操作

1、在51单片机中少用uint32_t类型,查看汇编真的好多条指令,尽力避免少用。 2、在32位单片机中,u8、u16、u32类型操作起来基本没有什么影响,下图是我做的测试,可能测试不全面,按照当前测试,在32…

CVE-2023-28432-MinIO集群模式信息泄露漏洞流量分析

简介 MinIO是一个开源对象存储系统。 在其RELEASE.2023-03-20T20-16-18Z版本(不含)以前,集群模式部署下存在一处信息泄露漏洞,攻击者可以通过发送一个POST数据包获取进程所有的环境变量,其中就包含账号密码MINIO_SEC…

ElasticSearch8.7 搭配 SpringDataElasticSearch5.1 的使用

0. 前言 终于!终于!自个翻遍了网上的文章,加上对官网的文档和API的翻找,终于明白这玩意到底更新出了个啥出来! 本文章会带你了解,使用 SpringDataES5.1 对 ES8.7 的【新增、修改、删除、多条件查询、聚合】…

MFC 工具栏中的按钮控件下拉式

有一个需求 工具栏中的按钮需要有一个下拉按钮,点击下拉按钮可以弹出一个子窗口来选择 显示该 TBSTYLE_EX_DRAWDDARROWS 扩展的样式设置,将箭头下方将显示。 DWORD dwExStyle TBSTYLE_EX_DRAWDDARROWS; m_toolbar.GetToolBarCtrl().SendMessage(TB_SE…

「深度学习之优化算法」(十一)鲸鱼算法

1. 鲸鱼算法简介 (以下描述,均不是学术用语,仅供大家快乐的阅读)   鲸鱼算法(Whale Optimization Algorithm)是根据鲸鱼围捕猎物的行为而提出的算法。鲸鱼是一种群居的哺乳动物,在捕猎时它们也会相互合作对猎物进行驱赶和围捕。鲸鱼算法提出时间并不长,也是一个新兴…

利用Gradio的UploadButton模块实现文件上传功能

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

requestAnimationFrame性能测试

requestAnimationFrame:每次重绘最多只调用一次回调函数 测试开启/关闭requestAnimationFrame的监听事件调用次数差异: 先说结论:存在约8倍的调用次数差距! requestAnimationFrame使用与否的次数差距 本次测试代码为drag事件 c…

Pycharm设置Python文件页眉默认信息(作者姓名、创建时间等)

次点击File->Settings->Editor->File and Code Templates->然后选择Python script. 后将下列代码复制到右边的框框中,然后选择apply应用,就可以啦 ##!/usr/bin/python3 # -*- coding: utf-8 -*- # Time : ${DATE} ${TIME} # Author : 作者…

【CSS加载动画特效】28种纯CSS实现的加载loading动态特效(附源码)

文章目录 写在前面涉及知识点效果展示1、Loading节点的创建2、部分效果的实现源码1)三点加载动画Html代码CSS样式代码 2)圆点矩阵加载特效Html代码CSS样式代码 3)圆形轨迹加载动画Html代码Css样式代码 4)栅栏式加载动画Html代码Cs…