language model

news2025/1/11 3:02:53

1、language model(LM):估计token序列的可能性

2、对于HMM,固定需要P(Y)才符合公式;对于LAS,加上P(Y)能够使效果更好

        P(Y|X)需要成对的数据,而P(Y)不需要成对,所以可以得到很多数据

3、N-gram

(1)估计P(Y),收集大量的样本,将整个评估token序列概率分成许多小块的序列概率相乘

(2)例子:wreck a nice beach

(3)3-gram等就是,给两个词预测下一个的概率,以次类推N

(4)有一个问题就是,给的样本虽然说很大,但是不可能涵盖所有的语言,所以有些P即使在样本中没有找到P也不应该写为0,给一个小概率。

4、continuous LM使用到一个推荐机制(个人理解就像是找相同特征认为有可能具有同样的行为)

(1)图中数字是指在样本中出现的次数

(2)h_i和v_j是属于token的特征,并且是我们想训练的向量参数

(3)训练条件是

也就是希望向量v_i与向量h_j相乘可以得到非常近似nij,使用梯度下降进行训练。

(4)训练结果就是:

(5)将DL引入:

a、输入为所有的token的h作为的输入向量(如果要训练dog,就只将dog的部分设为1,其他为0)

b、中间的层就只是一个线性层

c、输出预计的词汇个数,与训练集中的数据做对比

d、也就是单纯把这个网络看作为神经网络

5、NN-based LM是想用于取代N-gram,因为在NN中可以将分成小块的概率计算出来

6、RNN-based LM:可以用于处理非常长的N-gram

7、LM跟今天的DL based 的end to end 的model结合起来(以LAS为例)

(1)结合方式

(2)浅融合:将LM和LAS的输出的distribution通过权重(可训练的)进行加和。

(3)深融合:在Hiddenlayer的地方就进行融合,这个融合的Network是需要训练的

a、但如果更换LM,需要重新训练network;对于不同的输入情况,可能需要不同的LM,所以下面改进。

b、将LM训练到softmax之前的,dimension跟tokensize相同的输出放到Network中,这样就可以更换LM了。

c、有一个好处是,即使LM是输出关于token的概率的model,也能适应这种训练方式。

d、但是上述会有一个问题,加入vocabularysize很大,使用word作为token,dimension太大了,就有些问题

(4)cold fusion:需要关注什么时候将LM加入

a、LM已经训练好了,LAS还没训练好,再将Network训练好,这样可以加快LAS的训练速度

b、是因为LM已经处理好文字和文字之间的关系了,就让LAS更加专注于文字和语音之间的关系

c、有问题就是,LM就真的不能更换了,因为LAS一出生就跟LM绑定在一起

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2043243.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Git使用教程介绍 - 1.Git 起因和背景

对于git的整体运作体系和更多的基本操作和概念并不是非常熟悉,因此恶补一番,把自己的成果和理解整理为一个git使用系列。 我也会不断更新该系列,与大家共勉,也是自我学习迭代的过程。 更多技术文章,全网首发公众号 “…

pytorch库 05 PyTorch深度学习实践笔记

文章目录 一、基本概念1、深度学习流程2、感知机结构与人工神经网络结构3、反向传播(Back Propagation)导学 二、线性模型1、线性模型计算流程2、代码实现3、小练习 三、梯度下降算法1、梯度下降计算流程2、代码实现3、随机梯度下降(SGD&…

你还纠结996吗?2024年互联网公司工作时长排行榜出炉!

2024年互联网公司工作时长排行榜新鲜出炉!在这个竞争激烈的行业中,工作时长一直是人们关注的热点话题。你还在纠结996工作制吗?也许这份排行榜会给你一些意想不到的答案。 为什么一些公司依旧推行996,而另一些公司却在努力减少员…

驾考流程不清晰?教练精心整理,学车速看!(建议收藏)

驾考流程太复杂?不知道报名之后要怎么做?看这一篇给你把驾考流程说通透! 第1步 驾校报名 建议从驾校的规模、收费、教练水平、合格率等方面综合考虑,选择一个适合自己的驾校,携带个人身份证进行缴费报名。 第2步 体检…

C++:map And set

1. 关联式容器 在初阶阶段,我们已经接触过STL中的部分容器,比如:vector、list、deque、forward_list(C11)等,这些容器统称为序列式容器,因为其底层为线性序列的数据结构,里面存储的是元素本身。那什么是关联…

深入理解Java虚拟机(内存区域)

文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 内存区域 运行时数据区域 Java虚拟机在执行Java程序的过程中会把它…

haproxy的工具及其算法

一、socat 工具 dnf install socat -y #查看帮助文档 echo "help" | socat stdio /var/lib/haproxy/stats #查看参数 echo "show info" | socat stdio /var/lib/haproxy/stats #查看服务状态 echo "show servers state" | socat stdio /var/lib/…

【Vue3】嵌套路由

【Vue3】嵌套路由 背景简介开发环境开发步骤及源码 背景 随着年龄的增长,很多曾经烂熟于心的技术原理已被岁月摩擦得愈发模糊起来,技术出身的人总是很难放下一些执念,遂将这些知识整理成文,以纪念曾经努力学习奋斗的日子。本文内…

智匠MindCraft AI 1.2.6版本更新啦!!

智匠MindCraft AI​​​​​​​迎来1.2.6版本更新,本次更新四大内容: 1、网页代码及python代码渲染优化。更稳定的代码渲染功能,您可以在智匠AI中,实现炫酷的网页效果,或者用python制作图表和游戏。 2、语音实验室增…

Linux 配置定时任务

Linux定时任务,通常被称为Cron Jobs,在系统管理和运维自动化领域中扮演着至关重要的角色,并且在日常的服务器维护活动中也展现出了广泛而深远的应用价值。这种强大的工具允许用户按照预定的时间周期自动执行各种任务,如数据备份、…

springboot中的工厂模式

说到工厂模式,先说说工厂模式是什么,有什么优点 平常我们在工作开发过程中,往往因为工期问题导致整体功能设计考虑的不够周到,导致后期迭代时发现需要原有功能流程基础上追加新功能时,需要耗费更多的成本,…

【HarmonyOS NEXT星河版开发学习】小型测试案例16-小米官网轮播图部分

个人主页→VON 收录专栏→鸿蒙开发小型案例总结​​​​​ 基础语法部分会发布于github 和 gitee上面(暂未发布) 前言 鸿蒙开发中的Swiper组件应用十分的广泛,像小米、淘宝、京东...众多网友都采用了轮播图的效果。不仅更加的美观&#xff0c…

AutoTiny电脑自动化操作

AutoTiny 可以自动化电脑上的一些操作,比如帮你重复鼠标点击操作(我猜可以当作外挂刷怪,可惜已经过了喜欢刷怪的年纪了)

Linux学习之路 -- 进程 -- 进程间通信 -- 管道通信

本文主要介绍进程通信中的管道通信。 前面我们学习进程的过程中,我们知道,进程是具有独立性的。这也就导致了进程不能够直接地把数据进行传递。为了实现进程之间地通信,我们就需要通过另外地方式来实现进程之间数据地传递。 1.进程通信的目…

训练 Transfomer 模型的内存消耗计算

目录 model 内存gradients 内存activates 内存 经典图打底: 训练深度模型的内存消耗主要有以下几个部分: 存储模型可训练参数存储梯度存储反向传播中间变量,例如: L ( Y − Y ^ ) 2 Y ^ X T W ∂ L ∂ W − 2 ( Y − Y ^ ) …

Transformer架构;Encoder-Decoder;Padding Mask;Sequence Mask;

目录 Transformer架构 Transformer架构的主要组成部分: 简单举例说明输入和输出: Encoder-Decoder 编码器/解码器组成 6、位置前馈网络(Position-wise Feed-Forward Networks) 7、残差连接和层归一化 10、掩码Mask 10.1 Padding Mask 10.2 Sequence Mask 为什么…

Gradio 复杂布局的实现

Gradio Interface 和 ChatInterface 布局都相对固定,只能通过参数添加组件,如果想要自定义页面布局,就需要更高级的布局方式 Block 。Gradio 中可以通过行和列进行布局,可以互相嵌套。我们先看一官方的例子: import g…

Vue Mixins 深度解析含面试常问题

Vue Mixins 深度解析含面试常问题 文章目录 Vue Mixins 深度解析含面试常问题一、Mixin 是什么二、Vue中如何使用1. 创建Mixin2. 使用Mixin3. 合并策略4. 全局Mixin5. 使用场景 三、包含哪些属性或方法API四、扩展与高级技巧1. 命名冲突2. 全局 vs 局部3. 合并策略深入4. 使用高…

商品期权会爆仓吗?

商品期权交易中存在爆仓的情况。一个期权的价格与其基础资产的波动性密切相关。在波动性高的情况下,尽管收益可能更高,但投资者也需要面对更大的价格波动风险,商品期权有买方和卖方,买方无爆仓风险,卖方是保证金交易有…

Hadoop大数据集群搭建

一、虚拟机配置网络 1、配置文件 进入“/etc/sysconfig/network-scripts”目录,查看当前目录下的“ifcfg-ens33”文件 对“ens33”文件进行配置 2、重启网络 systemctl restart network 3、测试网络 Ping www.baidu.com 4、设置虚拟机主机名称 5、绑定主机名和…