深度学习——语言模型（笔记）

深度学习——语言模型（笔记）

news2026/2/15 23:44:52

语言模型：NLP经典的模型

1.语言模型

①长度为T的文本序列中词元依次是x1,…,xT，xT被认为是文本序列在时间t处的观测或标签。在给定文本序列，语言模型的目标是估计序列的联合概率p(x1,…,xT)

②序列模型的核心是整个序列文本所出现的概率

应用：

①做预训练模型（BERT,GPT-3）:给定大量的文本做预训练，然后训练模型预测整个文本出现的概率，能够得到较多的训练数据来做较大的模型

②生成文本，给定前面几个词，预测后续的文本。但是对模型要求比较高，否则产生误差不断积累。

③判断哪个序列比较常见，使用常见的语言模型判断哪一个序列出现的概率高

2.使用计数来建模——语言模型可以使用计数进行建模

①假设序列长度为2

n:总词数，采集的所有样本，n(x)单个x单词出现的次数，n(x,x`)是连续单词对出现的次数

②序列长度为3

3.N元语法

①当序列很长时，因为文本量不够大，很可能n(x1,…,xT)<=1

②使用马尔可夫假设解决这个问题

Ⅰ一元语法

tau=0,计算xt的概率时，不用考虑xt之前的数据，认为每个词是独立的。

Ⅱ二元语法

tau=1,每次计算xt的概率时，只依赖于x（t-1），每个词和前面一个词是相关的

Ⅲ三元语法

tau=2, 每次计算xt的概率时，只依赖于x（t-1）和x（t-2），每个词和前面两个词是相关的

③对于N元语法来说，子序列的长度是固定的。N越大，对应的以来关系越长，精度高，但是时间复杂度大

④二元语法，三元语法比较常见

4.N元语法的优点：

①最大的优点是处理比较长的序列。序列很长复杂度是指数级别的

②任意长度的序列，N元语法扫描的子序列长度是固定的。对于二元语法说，每次看长为2的子序列首先将长度为 2 的组成任何一个词 n(x1,x2)的总数存下来，n(x1)出现的概率存起来，把n存起来。

③马尔可夫假设的N元语法的好处是，将词存起来。计算的复杂度O（T）而不是O（N）。查询一个任意长度的序列的时间复杂度为　ｏ（Ｔ），Ｔ　是序列长度。N越大精度越高。随着N增大，空间复杂度增大。二元，三元语法比较常见。

【总结】

①语言模型估计文本序列的联合概率

②使用统计方法时采用n元语法

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/148051.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

国家基础地理信息中心行政边界等矢量数据免费下载保姆级教程--关于地理数据收集与处理的基本工具推荐(7)

国家基础地理信息中心行政边界等矢量数据免费下载保姆级教程--关于地理数据收集与处理的基本工具推荐(7)

关于地理数据收集与处理的基本工具推荐系列，有导航，不迷路： 关于地理数据收集与处理的基本工具推荐(1) —高分辨率卫星影像数据免费下载方式关于地理数据收集与处理的基本工具推荐(2)—10m精度的全球土地覆盖数据下载关于地理数据收集与处理…

阅读更多...

勿忘2022，迎接2023

勿忘2022，迎接2023

2022真的可以说是很不平凡的一年，很多想做的事情也因为一些原因没有做成。不过2022年已经过去，一年一度的总结还是要来写的。废话不多说，还是定关键词。2017年是“小确幸”和“在路上”，感谢师兄师姐的帮助，接触了很多…

阅读更多...

write和fwrite

write和fwrite

如果只是普通地以O_RDWR的flag去open一个文件朝里write（不考虑创建、扩增），那默认内核会把文件的这个页面读进来缓存在内核里的，也即所谓的page cache。随后再发起新的write syscall写相同的页面时，只要写在page cache…

阅读更多...

【博学谷学习记录超强总结，用心分享|产品经理基础总结和感悟13】

【博学谷学习记录超强总结，用心分享|产品经理基础总结和感悟13】

这里写目录标题第一章、概述第二章，内容服务产品分析框架：用户-平台-创作者内容服务平台优化思考第一章、概述在分析文字类内容产品之前，我们先来思考一下内容产品的本质是什么？笔者认为，所有满足用户需求的信息服务…

阅读更多...

aws beanstalk 使用docker平台部署beanstalk应用程序

aws beanstalk 使用docker平台部署beanstalk应用程序

参考资料使用 Docker 平台分支之前的文章分享过如何使用eb cli工具创建application和eb环境，本文介绍beanstalk支持的docker容器部署关于beanstalk环境创建相关的资源和部署逻辑，参考之前的文章《aws beanstalk 使用eb cli配置和启动环境》 $ eb …

阅读更多...

指南帮手——协议栈

指南帮手——协议栈

通过 DNS 获取到 IP 后，就可以把 HTTP 的传输工作交给操作系统中的协议栈。协议栈的内部分为几个部分，分别承担不同的工作。上下关系是有一定的规则的，上面的部分会向下面的部分委托工作，下面的部分收到委托的工作并执行。应用程序…

阅读更多...

PyTorch源码编译(windows)

PyTorch源码编译(windows)

1.打开pytorch源码仓库: https://github.com/pytorch/pytorch#from-source2.PyTorch用途与安装方法:3.Python与编译器版本要求 (Python3.7或者更高,编译器要求支持C17)4.如果要支持CUDA编程,要安装NVIDIA CUDA 11或者更高版本, 安装NVIDIA cuDNN v7或者更高版本注:CUDA不支持Ma…

阅读更多...

使用 Flask 快速部署 PyTorch 模型

使用 Flask 快速部署 PyTorch 模型

对于数据科学项目来说，我们一直都很关注模型的训练和表现，但是在实际工作中如何启动和运行我们的模型是模型上线的最后一步也是最重要的工作。今天我将通过一个简单的案例：部署一个PyTorch图像分类模型，介绍这个最重要的步骤。 …

阅读更多...

用一串Python代码爬取网站数据

用一串Python代码爬取网站数据

如觉得博主文章写的不错或对你有所帮助的话，还望大家多多支持呀！关注、点赞、收藏、评论。目录一.编码问题二、文件编码三、基本方法四、登录五、断线重连六、正则匹配Excel操作转换网页特殊字符一.编码问题因为涉及到中文，所以必然地涉及…

阅读更多...

MV*系列架构模型

MV*系列架构模型

下文仅代表个人理解，可能会有偏差或错误，欢迎评论或私信讨论。 MVC 从软件架构模型角度 MVC 是比较“古老”的架构模型，后面的 MV* 都是基于它进行拓展。MVC 出现的意义是为了提高程序的可维护性与拓展性。在 View 层与 Model 层中添加了 C…

阅读更多...

如何分享让人眼前一亮的代码

如何分享让人眼前一亮的代码

作为一名软件工程师，会经常需要在工作和写作中粘贴代码片段以作示例，如果不关注代码的格式随手一粘，别人看到的画风就可能是这样：那么，该如何才能快速且优雅地分享代码片段呢？Raycast ray.so 或许是一个值…

阅读更多...

2020-12-31 学习74HC595真值表与时序图

2020-12-31 学习74HC595真值表与时序图

考资料教你74hc595时序图怎么看知识详解 - 电子常识 - 电子发烧友网 74HC595是串行输入并行/串行输出的移位锁存器。SHCP是移位脉冲，前沿（上升沿）有效，STCP是锁存脉冲，前沿有效，DS是输入信号，M…

阅读更多...

动态规划算法刷题笔记【线性dp】

动态规划算法刷题笔记【线性dp】

递推斐波那契(Fibonacii)数列的递推公式：F(n) F(n -1) F(n - 2) 错排问题：F(n) (n-1) * [F(n-1)F(n-2)] 解释例题一只青蛙一次可以跳上1级台阶，也可以跳上2级台阶。求该青蛙跳上一个 10 级的台阶总共有多少种跳法思路要想跳到第…

阅读更多...

代码随想录算法训练营第4天 24.两两交换链表中的节点、19. 删除链表的倒数第N个节点、160.链表相交

代码随想录算法训练营第4天 24.两两交换链表中的节点、19. 删除链表的倒数第N个节点、160.链表相交

代码随想录算法训练营第4天 24.两两交换链表中的节点、19. 删除链表的倒数第N个节点、160.链表相交两两交换链表中的节点力扣题目链接(opens new window) 给定一个链表，两两交换其中相邻的节点，并返回交换后的链表。你不能只是单纯的改变节点内部…

阅读更多...

C++中的多态

C++中的多态

目录多态的定义及实现多态的构成条件虚函数虚函数重写虚函数重写的两个例外： override 和 final(C11) 重载、覆盖(重写)、隐藏(重定义)的对比抽象类多态的原理虚函数表多态的概念：字面的意思就是多种形态，完成某个行为&…

阅读更多...

利用MDK的FLM文件生成通用flash驱动

利用MDK的FLM文件生成通用flash驱动

文章目录前言一、FLM文件是什么？二、FLM文件结构1.FlashPrg.c2.FlashPrg.c三、解析FLM文件1.解析flm文件四、设计flash驱动抽象层五、快速使用前言在进行Flash操作时，一般我们需要设计一套Flash抽象层，至少要包括flash的init，re…

阅读更多...

C++STL之stack容器和优先级队列底层详解

C++STL之stack容器和优先级队列底层详解

一：stack容器1.1：容器适配器概念：容器适配器是用特定类封装作为其底层的容器，并提供一组特定的成员函数来访问元素，stack的底层容器可以是任意的类模板，或者一些其他的容器类，这些容器类应该支持…

阅读更多...

JavaScript详解

JavaScript详解

目录 1.JavaScript基础知识 1.1 JavaScript概述 1.1.1 JavaScript历史 1.1.2 JavaScript是什么 1.1.3 JavaScript的作用 1.1.4 HTML/CSS/JS的关系 1.1.5 基本特点 1.1.6 浏览器执行JS简介 1.1.7 JavaScript脚本语言的组成 1.2 JavaScript使用方法 1.3 JavaScript输…

阅读更多...

论文创新及观点2

论文创新及观点2

题目 Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks 摘要基于visual-semantic embedding，的ZSL方法存在信息损失(semantic loss),的问题，在训练过程中，如果某些语义信息对分类的区分性不大&a…

阅读更多...

「项目管理」如何做好研发FO角色？

「项目管理」如何做好研发FO角色？

角色定位 FO （Feature Owner），项目某一阶段/版本迭代生命周期的总负责人。基于从需求发起、研发接入、上线等项目过程阶段，可以根据职责本位不同来推荐具体项目成员、干系人担任FO角色，前端、客户端、服务端、测试、…

阅读更多...

推荐文章

最新文章