神经网络通俗理解学习笔记(5) 自然语言处理

news2024/11/13 10:37:58

自然语言处理

    • 词嵌入和word2vec
    • 词义搜索和句意表示
    • 预训练模型
    • Hugging Face库介绍
    • 经典NLP数据集
    • 代码案例-电影评论情感分析

词嵌入和word2vec

词嵌入是一种 将高维的数据表示映射到低维空间的方法

word embedding 是将语言中的词编码成向量便于后续的分析和处理
词嵌入和词向量基本上是同一个东西

独热编码 one hot
独热编码是一种对分类数据进行编码的方法
独热编码给每种类别分配了一列,属于该类别的该列为1,其他列为0

在这里插入图片描述

独热编码的缺陷
词袋模型,丢失了词的顺序信息
词间正交,难以表示词义
大词表导致矩阵稀疏

在这里插入图片描述

更好的词向量表示方法
Word2Vec 方法
《Efficient Estimation of Word Representations in Vector Space》

在这里插入图片描述
CBOW 是上下文预测当前词
Skip是当前词预测上下文

连续词袋模型!CBOW

在这里插入图片描述
跳元模型 Skip-Gram
在这里插入图片描述
近似训练技巧
在这里插入图片描述

代码实现

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

词义搜索和句意表示

文本搜索方法

在这里插入图片描述

正则搜索

优点

  • 匹配精准
  • 代码简洁
    问题
  • 难以理解语义·
  • 可读性差
  • 性能较低
  • 维护困难
  • 灵活性低

在这里插入图片描述

词义搜索

  • 基于词嵌入
  • 相似度搜索
  • 类比搜索
    在这里插入图片描述
    相比传统关键词搜索,词义搜索可以更加准确理解文本的内容,无需人工配置规则或者 同义词典,可以很好实现信息的检索,文本分类 机器翻译等NLP任务

距离计算方法

在这里插入图片描述

句子向量 Doc2vec

加权平均法
PV-DM
PV-DBOW

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
按句号 叹号 问号来换行

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
训练代码看之前的博客
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

应用:
搜索引擎
推荐系统
机器翻译

在这里插入图片描述

预训练模型

word2vector和doc2vector并不是当前最佳解决方案
对一词多义 和上下文信息把握并不好
对长难句也难以学到全部信息

随着transformer的发展
效果更好的词嵌入训练方法更好

比如gpt、bert、t5模型

预训练和迁移学习

迁移学习
特征转移:将有效的特征表征引入到目标任务中
参数传递:将知识编码进共享模型参数中

在这里插入图片描述
在这里插入图片描述
自回归语言模型主要用于文本生成任务
根据上下文生成下一个词,从而实现对语言的理解和生成
自回归模型优势在于可以生成 流畅自然的文本适合于文本生成对话系统等任务
但生成时需要一步步生成每一个词,计算量比较大,不太适合实时应用场景

自编码语言模型主要用于文本编码和表示学习
将文本输入编码进行转化成固定维度向量从而实现对语言的理解和表示
优势在于可以捕获文本和句子的语义信息,适合文本分类、文本相似度的计算等任务
但不擅长生成任务
而且对于较长的文本输入可能出现信息损失的情况

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
GPT4 多模态

在这里插入图片描述

存在的问题

  • 模型架构设计
  • Finetune的知识迁移·
  • 可解释性
  • 结果可靠性

在这里插入图片描述

Hugging Face库介绍

方便调用预训练模型

Transformers 模型库·

  • AutoModel模型库
  • AutoTokenizer 工具库
    Datasets 数据集库

在这里插入图片描述
在这里插入图片描述
一种代码直接调用,另一种克隆项目

在这里插入图片描述

数据集

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

经典NLP数据集

预训练语料集

  • Penn Treebank
  • WikiText
    下游任务数据集
  • Glue
  • Super glue
  • Kaggle数据集

Penn Treebank数据集
语料来源:华尔街日报(1989)·
语料规模:1M+
中文树库:
中文宾州树库
清华树库
台湾中研树库

在这里插入图片描述

在这里插入图片描述

代码案例-电影评论情感分析

情感分析
分类任务
负面·
正面
(中性 | 偏正面 | 偏负面)

用途
舆情监控
投资决策
产品口碑
电影评价

在这里插入图片描述
hugging face提供

在这里插入图片描述
预训练模型效果已经很不错
但一般还需要根据实际业务场景对模型进行加训或者微调

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2141215.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

感知器神经网络

1、原理 感知器是一种前馈人工神经网络,是人工神经网络中的一种典型结构。感知器具有分层结构,信息从输入层进入网络,逐层向前传递至输出层。根据感知器神经元变换函数、隐层数以及权值调整规则的不同,可以形成具有各种功能特点的…

宿舍管理系统的设计与实现 (含源码+sql+视频导入教程)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 宿舍管理系统拥有三个角色,分别为系统管理员、宿舍管理员以及学生。其功能如下: 管理员:宿舍管理员管理、学生管理、宿舍楼管理、缺勤记录管理、个人密…

django学习入门系列之第十点《A 案例: 员工管理系统8》

文章目录 10.6 重写样式10.7 判断数据是否合法10.8 保存内容至数据库10.9 修改入职时间10.10 错误提示10.11 重写错误信息往期回顾 10.6 重写样式 注意:因为他框架都已经给你写好了,所以如果要使用样式的话可能要自己重新定义框架来进行修改 他有两种方…

衣食住行的投资与消费

机器人工程课程与科研采取敏捷开发的弊端和反思_工业机器人适合敏捷开发吗-CSDN博客 →学历消费者←自我救赎↑2024↓(*Φ皿Φ*)-CSDN博客 大部分衣食住行相关的产品都是消费品,只有极少部分是能保值的资产。 物以稀为贵,量产供应的一般而言都是消费品…

第二百三十五节 JPA教程 - JPA Lob列示例

JPA教程 - JPA Lob列示例 以下代码显示了如何使用Lob注释将字节数组保存到数据库。 LOB在数据库中有两种类型:字符大对象(称为CLOB)和二进制大对象(或BLOB)。 CLOB列保存大字符序列,BLOB列可存储大字节序…

JDK的选择安装和下载

搭建Java开发环境 要使用Java首先必须搭建Java的开发环境;Java的产品叫JDK(Java Development Kit:Java开发工具包),必须安装JDK才能使用Java。 JDK发展史 那么这么多JDK,应该使用哪个版本,此处…

C# 比较对象新思路,利用反射技术打造更灵活的比较工具

前言 嘿,大家好!如果你之前看过我分享的文章《C# 7个方法比较两个对象是否相等》,你可能会意识到对象比较在实际业务中经常出现的场景。今天,我想继续与大家分享一个在实际项目中遇到的问题。 有一次,我接手了一个别…

LLVM PASS-PWN-前置

文章目录 参考环境搭建基础知识![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/dced705dcbb045ceb8df2237c9b0fd71.png)LLVM IR实例1. **.ll 格式(人类可读的文本格式)**2. **.bc 格式(二进制格式)**3. **内存表示** …

无心剑英译张九龄《望月怀远》

望月怀远 Watching the Moon and Missing You Far Away 张九龄 By Zhang Jiuling 海上生明月,天涯共此时 情人怨遥夜,竟夕起相思 灭烛怜光满,披衣觉露滋 不堪盈手赠,还寝梦佳期 The bright moon rises from the sea, So far apart…

【宠物小精灵之收服(待更新)】

题目 代码 #include <bits/stdc.h> using namespace std; int f[1010][510]; int main() {int n, m, k;cin >> n >> m >> k;int c 0;for(int i 1; i < k; i){int cost, hp;cin >> cost >> hp;for(int j n; j > cost; j--){for(i…

java技术栈介绍

Java技术栈是一个庞大而丰富的生态系统&#xff0c;它包含了从基础语言特性到高级框架、库和工具的整个集合。这个技术栈为开发者提供了构建各种类型应用&#xff08;包括企业级应用、Web应用、移动应用、大数据应用等&#xff09;所需的全部组件。以下是对Java技术栈的一个更详…

【webpack4系列】编写可维护的webpack构建配置(四)

文章目录 构建配置包设计功能模块设计和目录结构设计功能模块设计目录结构设计 使用ESLint规范构建脚本冒烟测试介绍和实际运用冒烟测试 (smoke testing)冒烟测试执行判断构建是否成功判断基本功能是否正常 单元测试和测试覆盖率测试框架编写单元测试用例单元测试接入测试覆盖率…

新发布!Streamlab X系列第二版:短视频电影直播全能主题,赋能苹果CMS

Streamlab X系列第二版强势登陆&#xff0c;专为苹果CMS设计的短视频与电影直播融合的多功能主题模板震撼首发&#xff01; 这款主题以其非凡的适应性和极致的视觉效果&#xff0c;重新定义了网站构建的边界。采用独家精心研发的框架&#xff0c;它能够无缝跨越从移动设备到超…

在实际LabVIEW开发中,哪些算法是常用的?

在LabVIEW的实际开发中&#xff0c;常用的算法主要集中在数据处理、控制系统、信号处理、图像处理等领域。以下是一些常用算法的介绍&#xff1a; 1. PID控制算法 PID&#xff08;比例-积分-微分&#xff09;控制是LabVIEW中常用的算法之一&#xff0c;广泛应用于工业自动化和…

【四】k8s部署 TDengine集群

k8s部署 TDengine集群 目录 k8s部署 TDengine集群 一、在 Kubernetes 上部署 TDengine 集群 第一步&#xff1a;创建命名空间 第二步&#xff1a;从yaml创建有状态服务 StatefulSet 第三步&#xff1a;配置 Service 服务 二、集群测试 一、在 Kubernetes 上部署 TDengine…

【数据结构-扫描线】力扣57. 插入区间

给你一个 无重叠的 &#xff0c;按照区间起始端点排序的区间列表 intervals&#xff0c;其中 intervals[i] [starti, endi] 表示第 i 个区间的开始和结束&#xff0c;并且 intervals 按照 starti 升序排列。同样给定一个区间 newInterval [start, end] 表示另一个区间的开始和…

Java数据存储结构——二叉查找树

文章目录 22.1.2二叉查找树22.1.2.1 概述22.1.2.1二叉查找树添加节点22.1.2.2二叉查找树查找节点22.1.2.3 二叉树遍历22.1.2.4 二叉查找树的弊端 22.1.2二叉查找树 22.1.2.1 概述 二叉查找树,又称二叉排序树或者二叉搜索树 二叉查找树的特点&#xff1a; 每一个节点上最多有…

25. 网格模型(三角形概念)

给大家演示网格模型Mesh渲染自定义几何体BufferGeometry的顶点坐标,通过这样一个例子帮助大家建立**三角形(面)**的概念 三角形(面) 网格模型Mesh其实就一个一个三角形(面)拼接构成。使用网格模型Mesh渲染几何体geometry&#xff0c;就是几何体所有顶点坐标三个为一组&#x…

【农信网-注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造成亏损无底洞…

支持升降压型、升压、降压、60V的1.2MHz频率LED恒流驱动器LGS63040、LGS63042

前言&#xff1a; 一款支持升降压的LED驱动器。适合单节锂电池使用。当然不仅于此。SOT23-5封装的外形和丝印 特性 宽输入电压、宽输出电压范围&#xff1a;3.0V-60V 支持 PWM 调光及模拟调光 内置 60V/350mΩ低侧金属氧化物半导体场效应晶体管 1.2MHz固定工作频率 逐周期峰值…