词向量模型

news2024/11/25 18:46:03

文章目录

    • RNN
    • 词向量模型
      • 模型整体框架
      • 训练数据构建
      • CBOW与Skip-gram模型
      • 负采样

RNN

卷积神经网络(CNN)主要应用计算机视觉,而递归神经网络(RNN)主要应用于自然语言处理。
在这里插入图片描述
递归神经网络会涉及处理之前所有的数据,但并非所有数据特征都需要,所以RNN处理结果与我们所需要的存在误差,数据处理不精。
而LSTM网络中会适当过滤一些不必要的特征。
在这里插入图片描述

词向量模型

考虑:如何能将文本向量化?文本向量化需考虑到的因素有很多,比如不同文本位置不同所表达意思不同、同一个词不同语境下意义不同、不同的词同一语境下意义相同等。
因此。文本的词向量维度比不可能少,一般为50-300。通常情况下,维度越高,向量能提供的信息越多。

提取数据特征是构建模型中非常重要的一步。而如何描述词的特征?通常都是在词的层面上来构建特征。Word2Vec就是要把词转化为向量。

假设现在已经拿到了一份训练好的词向量,其中每一个词都表示为50维的向量:
在这里插入图片描述
将其在热度图中显示:
在这里插入图片描述
观察以下三个词的热度图可发现:man和boy这两个词有很多部分热度值相近,但与water这词的极少相近热度值。从中可以发现,相似的词在特征表达中比较相似,也就是说明词的特征是有实际意义的
在这里插入图片描述

模型整体框架

词向量模型是为了学习文本词语之间的关系。
在这里插入图片描述
举例:下面所示的,输入是 Thou 和 shalt,模型的任务是预测它们的下一个词是什么。
在这里插入图片描述
具体流程:
输入数据 -> 初始化词向量 -> 通过多次前向传播反向传播训练更新词向量(不光更新权重参数W,也会更新输入数据) -> 计算机通过最终的词向量预测下一个词 -> SoftMax后得到概率最高的词输出

训练数据构建

问:我们的训练数据应该从哪找呢?
答:一切具有正常逻辑的语句都可以作为训练数据。如小说、论文等。

构建训练数据:
如果我们有一个句子,我们可以选出其中连续三个词,用前两个作为词模型的输入,最后一个词作为词模型输出的目标值,这样就成功构建一条训练数据。
在这里插入图片描述
故而具体构建训练数据方法:在文本数据集中设置一滑动窗口,并规定好滑动窗口中哪些位置是输入数据,哪些位置是输出数据,哪些是标签;再通过滑动窗口一次次向后滑动可获得不同的训练数据。

CBOW与Skip-gram模型

  1. CBOW
    输入:上下文,输出:预测词。通过文本上下文预测词

例如这里是引用

在这里插入图片描述

  1. Skip-gram模型
    输入:单个词,输出:词对应上下文。通过当前的词预测上下文。

例如:
在这里插入图片描述

在这里插入图片描述

负采样

如果一个语料库稍微大一点,可能的结果就太多了,最后一层 SoftMax 的计算就会很耗时,有什么办法来解决吗?

初始方案:输入两个单词,看他们是不是前后对应的输入输出,也相当于一个二分类任务。
传统模型中,我们输入 not ,希望输出是 thou,但是由于语料库庞大,最后一层 SoftMax 太过耗时,所以我们可以改为:将 not 和 thou 同时作为输入,做一个二分类问题,类别 1 表示 not 和 thou 是邻居,类别 0 表示它们不是邻居。
在这里插入图片描述
但是由于训练集本来就是用上下文构建出来的,所以训练集构建出来的标签全为 1 ,无法较好的进行训练。
在这里插入图片描述
故而需要人工手动添加一些标签为0的数据,通常情况下添加5个负样本。
改进方案:加入一些负样本(负采样模型)。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1873487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux高级编程——线程

pthread 线程 概念 :线程是轻量级进程,一般是一个进程中的多个任务。 进程是系统中最小的资源分配单位. 线程是系统中最小的执行单位。 优点: 比多进程节省资源,可以共享变量 进程会占用&am…

【漏洞复现】金和OA 未授权访问

【产品介绍】 金和OA协同办公管理系统C6软件(简称金和OA),本着简单、适用、高效的原则,贴合企事业单位的实际需求,实行通用化、标准化、智能化、人性化的产品设计,充分体现企事业单位规范管理、提高办公效…

ubuntu22.04编译安装tesseract

1、 为什么用自己编译安装,而不采用apt安装? 由于tesseract有很多依赖包,直接用deb包或者rpm包等安装包安装很复杂,不一定能成功安装。 2、安装基本的依赖包 sudo apt update sudo apt install g autoconf automake libtool pkg…

如何利用ChatGPT寻找科研创新点?分享5个有效实践技巧

欢迎关注:智写AI,为大家带来最酷最有效的智能AI学术科研写作攻略。关于使用ChatGPT等AI学术科研的相关问题可以和作者七哥交流:yida985 地表功能最强大的高级学术专业版已经开放,拥有全球领先的GPT学术科研应用,有兴趣…

44 mysql batch insert 的实现

前言 我们这里 来探讨一下 insert into $fields values ($values1), ($values2), ($values3); 的相关实现, 然后 大致来看一下 为什么 他能这么快 按照 我的思考, 应该里里面有 批量插入才对, 但是 调试结果 发现令我有一些意外 呵呵 果然 只有调试才是唯一的真理 相比于 …

如何用一个二维码实现企业固定资产管理?

固定资产管理中普遍存在盘点难、家底不清、账实不一致、权责不清晰等问题。如果平时不规范化执行,年终面对上上下下、大大小小、成百上千件物资要进行盘点整理的时候,会是十分痛苦且低效的事情。 今天这篇文章就来给大家推荐几家便宜好用的二维码固定资…

学校选用SOLIDWORKS教育版进行授课的理由

在当代的工程与技术教育领域,计算机辅助设计软件(CAD)已经变成了一个不可缺少的教学辅助工具。SOLIDWORKS作为一个功能齐全且用户友好的CAD软件,其教育版本在学校教学环境中受到了广泛的欢迎。本文将对学校教学中选用SOLIDWORKS版…

最实用的美国TikTok选品策略之跟卖亚马逊

美国电商市场,TikTok好比是一个快速成长的大龄儿童,亚马逊(Amazon)则是一个历经风雨的成熟中年人。TikTok现阶段还处于大量招商,引入优质品牌、卖家初期,许多品类并没有太多优质的商品售卖,竞争…

华为HCIA综合实验(结合前几期所有内容)

第一章 实验目的 (1)配置Telnet,要求所有网络设备支持远程管理,密码为admin(2)配置Trunk,交换机之间的链路均为Trunk模式(3)配置VLAN,在SW2和SW3上创建相关…

前端开发的工厂设计模式

在前端开发中,工厂设计模式(Factory Pattern)是一种非常有用的设计模式,能够帮助我们在创建对象时减少代码的重复性和复杂性。 一、工厂设计模式概述 工厂设计模式是一种创建型设计模式,主要目的是定义一个用于创建对…

探索绿色消费新纪元:消费增值模式

大家好!我是来自一家备受瞩目的科技公司的产品经理,我叫吴军。今天,我非常荣幸能与大家分享一种正在市场上引起广泛关注的创新商业模式——消费增值模式。 近年来,随着环保意识的日益增强,绿色消费逐渐成为了新时代的消…

MySQL中的存储引擎

介绍 存储引擎就是存储数据,建立索引,更新/查询数据等技术的实现方式。存储引擎是基于表的,而不是基于库的,所以存储引擎也可以称为表类型(即一个数据库下的表可以选择不同的存储引擎)。 1. 如何查看一个…

一看就会的Jmeter分布式压测实战技巧详解

一、什么是jmeter分布式压测? jmeter分布式压测:指将需要模拟的大量并发用户数分发到多台压力机,使jmeter拥有更大的负载量,满足真实业务场景(高并发场景)。可以理解为通过一个Jmeter控制台来远程控制多个…

C++项目实践学习笔记---DLL

linux守护进程 守护进程或精灵进程(Daemon):以后台服务方式运行的进程,它们不占用终端(Shell),因此不会受终端输入或其他信号(如中断信号)的干扰守护进程有如下特点。 &…

【计算机毕业设计】084基于微信小程序大学生心理健康服务

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

ONNX模型利用CUDA加速如何正确配置好环境?

目前onnx可选的执行引擎非常多,覆盖了从cpu、gpu到npu,从Intel平台到AMD平台等。如下是onnxruntime所有的执行引擎。 [TensorrtExecutionProvider, CUDAExecutionProvider, MIGraphXExecutionProvider, ROCMExecutionProvider, OpenVINOExecutionProvide…

电脑屏幕监控软件方案合集|六款屏幕监控软件让老板高枕无忧

今天,我们就来聊一聊市面上备受瞩目的几款电脑屏幕监控软件,并重点介绍其中的佼佼者——安企神软件及其强大监控功能。因为它们的存在,我们的老板才能坐筹帷幄,决胜千里。 电脑屏幕监控软件大盘点 1.安企神软件:作为国…

Linux登录界面

Linux登录界面 1. 起因2. 脚本3. 效果 1. 起因 某次刷抖音看到一个博主展示了一个登录页面,觉得蛮好看的.于是自己动手也写一个 2. 脚本 编写脚本/usr/local/bin/login.sh #!/bin/bash Current_timedate %Y-%m-%d %H:%M:%S Versioncat /etc/redhat-release Kernel_Version…

Amazon OpenSearch Service 现在支持 JSON Web Token(JWT)身份验证和授权

最近,Amazon OpenSearch 推出了一个新功能,支持 JWT 认证和授权。虽然这个功能在开源的 OpenSearch 中早已存在,但在托管的 Amazon OpenSearch 中的实现一直不够理想。 此前的授权方式 控制台登录 内部数据库:使用基本的用户名…

同三维T908转换器 SDI转DVI/HDMI/VGA/色差分量/AV转换器

同三维T908转换器 SDI转DVI/HDMI/VGA/色差分量/AV转换器 1路SDI进,1路DVI(可转HDMI/VGA/色差分量/AV)3.5音频1路SDI出,可以支持音频解嵌,也可把3.5音频加嵌转换输出,输出分辨率可调,支持图像翻转180度 一、产品简介 SDI转万能转…