语言模型-神经网络模型(二)

news2024/11/25 20:54:06

神经网络模型语言模型

  • 神经网络模型
    • 神经网络的分类
    • 神经网络模型和Ngram对比
    • 应用一-话者分离
      • 对比优劣
    • 应用二-数字归一化
    • 应用三-文本打标

神经网络模型

释义:
与ngram模型相似使用,前n个词预测下一个词,输出在字表上的概率分布;过程中得到了词向量这一副产品

神经网络语言模型开篇作
在这里插入图片描述

神经网络的分类

自回归语言模型:

用前n个字预测下一个字
单向,从左向右预测,或反向使用
有利于生成式任务

自编码语言模型:

用整段文本,预测文本中的某一个字(完形填空)
双向,更好的利用文本信息
引入了[mask],在fine-tune中不出现

神经网络模型和Ngram对比

优点:
1.对于输入长度的要求更低,更能适用;因为Ngram的参数和长度有非常大的关系,多一个字就会新增相当的参数;而神经网络模型不会
2.神经网络模型能够计算词之间的相似性,而Ngram则不行,无法识别词之间的相似性
3.神经网络模型自带平滑,即使是未出现的组合和词,计算的概率也不会为零

缺点:
1.在运算的效率上,ngram比神经网络模型要高很多;ngram计算时,只需要遍历找到概率值计算即可;神经网络模型对于每一个词都需要计算一次。

在这里插入图片描述

应用一-话者分离

释义: 根据说话内容判断说话人,常用于语言识别系统中,判断录音对话中角色,如客服对话录音,判断坐席或客户;本质上为文本分类任务。

步骤

1.对于每个类别,使用类别语料训练语言模型
2.对于一个新输入的文本,用所有语言模型计算成句概率
3.选取概率最高的类别为预测类别

在这里插入图片描述

对比优劣

相比一般文本分类模型,如贝叶斯,rf,神经网络等
优势:
1.每个类别模型互相独立,样本不均衡或样本有错误对其他模型没有影响
2.可以随时增加新的类别,而不影响旧的类别的效果

劣势:
1.效果上讲:一般不会有显著优势
2.效率上讲:一般会低于统一的分类模型

应用二-数字归一化

释义: 将一个文本中的数字部分转化成对读者友好的样式,常见于语言识别系统后,展示文本时使用。

下面举例:

1.秦皇岛港煤炭库存量在十一月初突然激增,从四百五十四点九万吨增加到七百七十三点四万吨,打破了一九九九年以来的记录
2.十一届三中全会、“十二五”规划、一贫如洗、二龙戏珠
解释: 由上面的例子,我们知道有些汉语数字是适合转阿拉伯数字的,有的情况不适合,我们需要用语言模型,去判断或者计算使用那种数字的概率高

步骤:

  1. 找到数字形式符合规范的文本作为原始语料
  2. 用正则表达式找到数字部分(任意形式)
  3. 将数字部分依照其格式替换为<阿拉伯数字><汉字数字><汉字连读>等token
  4. 使用带token文本训练语言模型
  5. 对于新输入的文本,同样使用正则表达式找到数字部分,之后分别带入各个token,使用语言模型计算概率
  6. 选取概率最高的token最为最终数字格式,按照规则转化后填入原文本

示例

中国共产党第十五次全国代表大会于一九九七年九月十二日召开,各地方代表一一发言
中国共产党第<汉字数字>次全国代表大会于<阿拉伯数字>年<阿拉伯数字>月<阿拉伯数字>日召开,各地方代表<汉字连续>发言

训练时,将当成一个字训练语言模型
预测时,中国共产党第十五次全国代表 <- 原句
中国共产党第<汉字数字>次全国代表
中国共产党第<阿拉伯数字>次全国代表 语言模型判断最高概率
中国共产党第<汉字连续>次全国代表
若需要转化格式则通过规则完成,模型只起到判断作用

应用三-文本打标

释义: 给文本添加标点或语气停顿等,可以理解为一种粗粒度的分词,常用于语音合成任务中,辅助做出发音的停顿。语言模型都能够实现。

示例:

我最近抽了点时间读了一本关于马尔可夫生平的书
停顿: 我最近 抽了点时间 读了一本 关于 马尔可夫生平 的书
标点: 我最近抽了点时间,读了一本关于马尔可夫生平的书。

实现逻辑:

  1. 需要有标注数据,在停顿处添加token:
    如:

  2. 我最近 < s > 抽了点时间 < s > 读了一本 < s > 关于 < s > 马尔可夫生平 < s > 的书
    3.带token训练语言模型

4.预测过程:
选定一个窗口长度,首先预测第一次停顿位置
我< s >最近抽了点时间 ppl:10
我最< s >近抽了点时间 ppl:20
我最近< s >抽了点时间 ppl:5 <- 选择此处作为第一次停顿
….
之后从“抽了点时间”开始向后重复此过程;就可以获得分好的句子。

总结:
本质为序列标注任务;可以依照类似方式,处理分词、文本加标点、文本段落切分等任务;分词或切分段落只需要一种token;打标点时,可以用多种分隔token,代表不同标点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1985990.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Playwright+Python】使用Playwright进行API接口测试

在当今的自动化测试领域&#xff0c;结合Web UI和API接口测试已成为提升测试覆盖率和效率的关键。Playwright作为一个强大的自动化测试工具&#xff0c;除了在Web UI测试中大放异彩&#xff0c;还能与Python结合&#xff0c;实现强大的API接口测试功能。本文将带你探索如何使用…

面试软件测试岗:经典面试题!全背下来,月薪10K起步...

背题是一个快速应付面试的方式&#xff0c;但如果你想在软件测试行业稳步前进、步步为营的话&#xff0c;建议大家还是有序学习软件测试知识&#xff0c;积累够了&#xff0c;转行、跳槽都是顺其自然的。 1、什么是兼容性测试&#xff1f;兼容性测试侧重哪些方面&#xff1f; …

告别录屏难题:2024四大热门电脑录屏软件推荐

进行在线教学、游戏直播、制作教程视频&#xff0c;录屏已成为我们日常生活和工作的重要需求。电脑怎么录屏&#xff1f;一款好用的录屏软件十分重要。今天&#xff0c;我们就来为大家推荐四款实用的电脑录屏工具。 1. 福昕录屏大师&#xff1a;专业级录屏&#xff0c;满足多样…

深入理解接口测试:实用指南与最佳实践(四)IHRM管理系统实战-项目分析

​ ​ 您好&#xff0c;我是程序员小羊&#xff01; 前言 这一阶段是接口测试的学习&#xff0c;我们接下来的讲解都是使用Postman这款工具&#xff0c;当然呢Postman是现在一款非常流行的接口调试工具&#xff0c;它使用简单&#xff0c;而且功能也很强大。不仅测试人员会使用…

前端获取视频文件宽高信息和视频时长

安装 yarn add video-metadata-thumbnails | npm install video-metadata-thumbnails引入依赖包 import { getMetadata } from video-metadata-thumbnails使用 if (file.name.includes(mp4)) {if (file) {try {console.log(file)// 获取视频的元数据const metadata await …

Linux基础笔记分享(超详细~)

文章目录 Linux基础1.基础概念2.基础命令命令行快捷键自动补全: tab移动光标快速删除翻看历史命令终止程序退出登录清屏 查看命令帮助alias命令别名-快捷键pwd-类似于地图cd-类似于传送术mkdir-类似于合成装备touch-创建文件ls-类似于查看装备tree-打印目录层级结构cp-复制命令…

快速上手AWS cloudfront产品

AWS CloudFront&#xff0c;亚马逊推出的卓越全球内容分发网络服务&#xff0c;专为加速网站内容的极速传输而设计&#xff0c;旨在大幅度削减加载延迟&#xff0c;同时确保内容传递过程中的高度安全性和无懈可击的可靠性。借助CloudFront的强大功能&#xff0c;用户能够轻松实…

6个适用于Linux具有数据加密功能的绝佳软件和应用

数据加密在如今的网络安全领域是一个不可或缺的功能。该功能支持您编码数据&#xff0c;让没有访问权限的其他人无法读懂您的数据。若要增强在网络上的安全性&#xff0c;选择使用默认拥有此实用功能的软件或许是个不错的办法。 在本文中&#xff0c;您将了解到一系列运行在Li…

C++空指针(nullptr)

C空指针(nullptr) ​ 在C语言中我们把空指针定义成NULL&#xff0c;但是这在C中会有所问题&#xff0c;因为C对指针类型转换比较严格。下面让我来深入了解一下NULL与nullptr。 NULL实际就是一个宏&#xff0c;在C头文件(stddef.h)中&#xff0c;可以看到如下代码&#xff1a;…

vue3学习day03-vue3的生命周期、父子通信、模版引用、defineExpose

11、vue3的生命周期 &#xff08;1&#xff09;Vue2中生命周期&#xff1a; beforeCreate、created、beforeMount、mounted、beforeUpdate、updated、beforeDestroy、destroyed &#xff08;2&#xff09;选项式API的生命周期&#xff1a; BeforeCreate/created、beforeMou…

TCP协议及ip

传输控制协议 通信前必须建立连接 tcp传输数据可靠 这就和大家的qq号和手机号一样 没有完全相同的qq号和手机号 端口号&#xff1a;1-65535 的一个整数 1-1024 通过端口号可确定哪一个程序在运行 应用程序的id 自定义端口号5999之后 在Qt中使用网络通信 套…

Apache Dolphinscheduler在中创新航的落地与实践

背景介绍 我司中创新航&#xff08;CALB&#xff09;&#xff0c;是全球领先的新能源科技企业 &#xff0c;致力于成为能源价值[创造者](<https://baike.baidu.com/item/创造者/10818258?fromModulelemma_inlink" t "/Users/shangeyao/Documents\x/_blank>)&…

directx修复工具:Windows 必备修复工具,一键解决 dll 丢失问题!

电脑出现DLL文件丢失要怎么恢复&#xff1f; 关于电脑系统修复的工具&#xff0c;还是有很多推荐的。金舟DirectX.DLL一键修复是一款强大的系统级工具软件&#xff0c;专门用于修复和恢复操作系统中动态链接库&#xff08;DLL&#xff09;文件的软件工具。软件能够解决由于DLL…

嵌入式--->STM32H7系列DMA寄存器详解

在参考手册中已经有每个寄存器的详细解释&#xff0c;这里做以翻译和调用过程的讲述&#xff0c;仅记录了解到的寄存器&#xff0c;并不全面&#xff0c;仅仅是为了方便查阅 相关中断 如下事件都会产生中断&#xff0c;前提是: •相应的中断事件xx被启用(GPDMA_CxCR)。xxIE 1…

0 元试用,一站式搭建企业云上数据库与BI 数据可视化分析平台

商业环境快速变化&#xff0c;每一次的数据分析和决策的速度都可能直接影响到公司的业务成果。在商业决策过程中&#xff0c;时间就是金钱。 为了加快数据处理&#xff0c;让数据可视化更加智能&#xff0c;我们推出了Sugar BI 和 GaiaDB 组合购&#xff0c;帮助业务快速搭建数…

GPU 片上调度系统

这篇文章分析和说明GPU 片上的kernel 通过stream 作为载体是如何分发到SM 处理器上&#xff0c;同时CUDA 所抽象的grid/block/thread 在GPU 设备层面是如何调度的。调度器通常是被忽略的一个部分&#xff0c;但对CUDA kernel 的编写和后期系统性能分析很有帮助&#xff0c;也可…

春秋云境 | 文件上传 | CVE-2022-28525

目录 靶标介绍 开启靶场 蚁剑连接 获取 flag 靶标介绍 ED01-CMS v20180505 存在任意文件上传漏洞 开启靶场 发现了一个登录功能&#xff0c;使用 burp 爆破一下 爆破之后得到账号是 admin 密码是 admin&#xff0c;登录后是这样的页面 在左边的菜单栏挨着一个一个找&…

天地图按地名搜索+openlayer+vue3

使用element-plus组件库安装ol npm i ol -s 安装axios (调用天地图api http://lbs.tianditu.gov.cn/server/search.html) npm i axios -s 主要代码 <template><div class"my-add-maker-box"><div class"my-point-box"><span>经…

直接用文件方式安装Cuda版本的Pytorch

先查看当前安装好的Cuda版本&#xff1a; 采用pip install 文件 方式安装本地的whl文件&#xff1a; 注意whl文件已经提前下载好了&#xff1a; 然后开始安装&#xff1a; 解压安装途中&#xff0c;相关的包也重新下载&#xff1a; 继续安装&#xff1a; 安装完毕了&#xff1…

【多线程-从零开始-伍】volatile关键字和内存可见性问题

volatile 关键字 import java.util.Scanner; public class Demo2 { private static int n 0; public static void main(String[] args) { Thread t1 new Thread(() -> { while(n 0){ //啥都不写 } System.out.println("t1 线程结束循环"); }, "…