自然语言处理（一）：基于统计的方法表示单词

自然语言处理（一）：基于统计的方法表示单词

news2026/2/15 10:09:27

文章目录

- 1. 共现矩阵
- 2. 点互信息
- 3. 降维（奇异值分解）

1. 共现矩阵

将一句话的上下文大小窗口设置为1，用向量来表示单词频数，如：
在这里插入图片描述

将每个单词的频数向量求出，得到如下表格，即共现矩阵：

我们可以用余弦相似度（cosine similarity）来计算单词向量的相似性：
$\operatorname{similarity}(\boldsymbol{x}, \boldsymbol{y})=\frac{\boldsymbol{x} \cdot \boldsymbol{y}}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|}=\frac{x_{1} y_{1}+\cdots+x_{n} y_{n}}{\sqrt{x_{1}^{2}+\cdots+x_{n}^{2}} \sqrt{y_{1}^{2}+\cdots+y_{n}^{2}}}$

有时会出现分母为0的情况，在具体代码实现的时候，我们可以加上一个微小值，如1e-8

def cos_similarity(x, y, eps=1e-8):
	nx = x / (np.sqrt(np.sum(x ** 2)) + eps)
	ny = y / (np.sqrt(np.sum(y ** 2)) + eps)
 	return np.dot(nx, ny)

2. 点互信息

在语料库中可能会看到很多“…the car…”这样的短语。实际上，与 the相比，drive和 car 的相关性更强。为了避免这种情况，可以引入PMI

$\operatorname{PMI}(x, y)=\log _{2} \frac{P(x, y)}{P(x) P(y)}=\log _{2} \frac{\frac{\boldsymbol{C}(x, y)}{N}}{\frac{\boldsymbol{C}(x)}{N} \frac{\boldsymbol{C}(y)}{N}}=\log _{2} \frac{\boldsymbol{C}(x, y) \cdot N}{\boldsymbol{C}(x) \boldsymbol{C}(y)}$

P(x) 表示 x 发生的概率，P(y) 表示 y 发生的概率，P(x, y) 表示 x
和 y 同时发生的概率。PMI 的值越高，表明相关性越强。

这里假设语料库的单词数量（N）为 10 000，the 出现 100 次，car 出现 20 次，drive 出现 10 次，the 和 car 共现 10 次，car 和 drive 共现 5 次。

$PMI("the","car")=log_2\frac{10\cdot 10000}{1000 \cdot 20}\approx 2.32$
$PMI("car","drive")=log_2\frac{5\cdot 10000}{20 \cdot 10}\approx 7.79$

得出的PMI值，后者比前者要高，这是我们所需要的结果

3. 降维（奇异值分解）

奇异值分解（Singular Value Decomposition，SVD）。SVD 将任意矩阵分解为 3 个矩阵的乘积，如下式所示：

$X=USV^T$

上面的例子只考虑了一句话中少量单词的共现矩阵，如果我们使用一个真正的语料库，那么这个矩阵将变得十分庞大，这是一个很大的稀疏矩阵，我们需要对其进行降维，这里用到奇异值分解。
在numpy中可以用

U, S, V = np.linalg.svg()

在这里插入图片描述

我们只需要取矩阵U的前两个元素即可将其降维到二维向量。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1029238.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

分别用Python和Go实现对文件夹及其子文件夹里的文件进行批量重命名

分别用Python和Go实现对文件夹及其子文件夹里的文件进行批量重命名

文章目录问题阐述上代码结果如何问题阐述最近在继续提高自己的go技术时，从网上一些平台获取到了一些学习资料，然后下载到本地后，文件的命名是真的像衣托答辩： 除了上述的文件，还有一mol多神奇的命名，害…

阅读更多...

GROMACS Tutorial 1: Lysozyme in Water 中文实战教程

GROMACS Tutorial 1: Lysozyme in Water 中文实战教程

GROMACS Tutorial 1: Lysozyme in Water 中文实战教程前言系统环境特别强调一、预处理阶段1.1 补全原子或残基1.2 删除水分子1.3 生成top文件等位置限制文件二、定义盒子及添加溶剂2.1 定义盒子2.2 加入溶剂三、添加离子3.1 使用mdp参数文件生成tpr文件3.2 离子的加入3.3 添…

阅读更多...

MasterAlign相机参数设置-曝光时间调节

MasterAlign相机参数设置-曝光时间调节

相机参数设置-曝光时间调节操作说明相机参数的设置对于获取清晰、准确的图像至关重要。曝光时间是其中一个关键参数，它直接影响图像的亮度和清晰度。以下是关于曝光时间调节的详细操作步骤，以帮助您轻松进行设置。步骤一：登录系统首先&…

阅读更多...

避免分库分表，绿普惠的分布式数据库选型与实践

避免分库分表，绿普惠的分布式数据库选型与实践

作者：翻墨，绿普惠科技（北京）有限公司架构师一项数据显示，今天大气中的二氧化碳水平比过去 65 万年高了 27%。主要原因来自于工业化需求下的煤炭燃烧、汽车尾气。随着人类活动造成的温室效应加剧，环保越来越…

阅读更多...

从服务器指定位置下载文件

从服务器指定位置下载文件

从服务器指定位置下载文件下载文件转换成流，这里说两种流的方式:1. 文件流2. 字节流下载文件转换成流，这里说两种流的方式: 1. 文件流 2. 字节流一，字节流 String filePath“/opt/peoject/file/123/pdf”; //这个是你服务上存放文件位置…

阅读更多...

公司监控员工上网记录,具体能监控到哪些内容?

公司监控员工上网记录,具体能监控到哪些内容?

在信息时代，随着技术的发展和商业竞争的加剧，公司对员工的监控变得越来越普遍。本文将从多个角度探讨公司监控员工电脑的利与弊，以期为读者提供全面的认识。公司可以监控员工电脑吗答案是可以的，但需要遵守相关法律法规和公司的…

阅读更多...

nbcio-boot登录后首页的跟踪出现total问题修正

nbcio-boot登录后首页的跟踪出现total问题修正

nbcio-boot登录后出现的首页，页面跟踪的时候，出现堆total的出错，虽然不影响系统使用，但影响美观度，所以还是修正一下吧。 1、主要问题是下面的代码有问题因为页面创建的时候，total数据获取不到&#xff0c…

阅读更多...

贝叶斯滤波计算4d毫米波聚类目标动静属性

贝叶斯滤波计算4d毫米波聚类目标动静属性

机器人学中有些问题是二值问题，对于这种二值问题的概率评估问题可以用二值贝叶斯滤波器binary Bayes filter来解决的。比如机器人前方有一个门，机器人想判断这个门是开是关。这个二值状态是固定的，并不会随着测量数据变量的改变而改变。就像门…

阅读更多...

使用FFmpeg+ubuntu系统转化flac无损音频为mp3

使用FFmpeg+ubuntu系统转化flac无损音频为mp3

功能需求如上题,我们来具体的操作一下: 1.先在ubuntu上面安装FFmpeg:sudo apt install ffmpeg 2.进入有flac音频文件的目录使用下述命令: ffmpeg -i test.FLAC -c:a libmp3lame -q:a 2 output.mp3 3.如果没有什么意外的话,你就能看到你的文件夹里面已经有转化好的mp3文件了批…

阅读更多...

【考研数学】高等数学第六模块 —— 空间解析几何（2，向量的应用）

【考研数学】高等数学第六模块 —— 空间解析几何（2，向量的应用）

文章目录引言二、向量的应用2.1 平面2.2 直线2.3 特殊曲面2.3.1 旋转曲面2.3.2 柱面 2.4 距离2.5 夹角写在最后引言承接前文，介绍完向量的基本概念与运算后，我们来看看向量有哪些应用。二、向量的应用 2.1 平面 （一）平面的…

阅读更多...

【AWS】AI 代码生成器—Amazon CodeWhisperer初体验 | 开启开挂编程之旅

【AWS】AI 代码生成器—Amazon CodeWhisperer初体验 | 开启开挂编程之旅

使用 AI 编码配套应用程序更快、更安全地构建应用程序文章目录 1.1 Amazon CodeWhisperper简介1.2 Amazon CodeWhisperer 定价2.1 打开VS Code2.2 安装AWS ToolKit插件一、前言 1.1 Amazon CodeWhisperper简介 1️⃣更快地完成更多工作 CodeWhisperer 经过数十亿行代码的训…

阅读更多...

游戏创业小知识：游戏运营的步骤和流程

游戏创业小知识：游戏运营的步骤和流程

游戏运营是确保游戏在持续运行中保持活跃和成功的过程。以下是游戏运营的一般步骤流程： 1.游戏发布前准备游戏选择：了解并熟悉游戏的核心概念、目标受众和游戏玩法。开发团队：组建开发团队，包括程序员、设计师、艺术家和声音设…

阅读更多...

志高团队：广阔前景全新的投资理财体验

志高团队：广阔前景全新的投资理财体验

当今时代,数字金融迅猛发展,投资理财领域正在经历前所未有的重大变革。作为加拿大华企联合会控股旗下的重要项目,恒贵即将启动,旨在为广大投资者带来全新的投资理财体验。这一创新项目的优势和广阔前景受到了业内观察机构的广泛关注和期待。恒贵作为一家全新的P2C多元化投资理…

阅读更多...

Neo4j图数据库_web页面关闭登录实现免登陆访问_常用的cypher语句_删除_查询_创建关系图谱---Neo4j图数据库工作笔记0013

Neo4j图数据库_web页面关闭登录实现免登陆访问_常用的cypher语句_删除_查询_创建关系图谱---Neo4j图数据库工作笔记0013

由于除了安装,那么真实使用的时候,就是导入数据了,有了关系和节点的csv文件以后如果用 cypher进行导入数据和创建关系图谱,还有进行查询,以及如果导入错误如何清空,大概是这些用的最多的,单独把这些拿进来,总结一下,用的会比较方便. 1.实现免登陆访问: /data/module/neo4j-…

阅读更多...

MySQL 高级语句 Part1

MySQL 高级语句 Part1

高级语句第一部分一、MySQL进阶查询语句1.1 select ----显示表格中一个或数个字段的所有数据记录1.2 distinct ----不显示重复的数据记录1.3 where ----有条件查询1.4 and or ----且或1.5 in----显示已知的值的数据记录1.6 between----显示两个值范围内的数据记录1.7 通配符…

阅读更多...

AG35学习笔记（二）：安装编译SDK、CMakeLists编译app、Scons编译server

AG35学习笔记（二）：安装编译SDK、CMakeLists编译app、Scons编译server

目录一、概述二、安装SDK2.1 网盘SDK - 权限不够2.2 bj41 - 需要交叉source2.3 mullen - relocate_sdk.py路径有误三、编译SDK3.1 /bin/sh: 1: gcc: not found3.2 curses.h: No such file or directory 四、CMakeLists - 编译app4.1 cmake - 项目构建4.2 make - 项目编译4.3 …

阅读更多...

dpkg工具、ZED相机sdk、监控nvidia

dpkg工具、ZED相机sdk、监控nvidia

1.dpkg工具的选项学习 dpkg命令是Debian Linux系统用来安装、创建和管理软件包的实用工具。语法 dpkg(选项) (参数) 选项 -i：安装软件包； -r：删除软件包； -P：删除软件包的同时删除其配置文件； -L&#xf…

阅读更多...

广州巨控GRM300/311/312/322/323/331/332协议转换网关

广州巨控GRM300/311/312/322/323/331/332协议转换网关

接口资源 * GRM300系列具备1路232口（可转485），4路隔离485口 * 485口支持各种PLC（PPI,MPI，HOSTLINK），MODBUS仪表 * 3路以太网口支持西门子欧姆龙三菱AB等主流PLC * 网口内置交换机功能&#…

阅读更多...

Eclipse ABAP ADT 集成详细安装教程

Eclipse ABAP ADT 集成详细安装教程

最近看到网上有个源码使用CDS做的，然后看了一下原来还可以用eclipse，趁热打铁，试了一把，最后成功了，中间可能会有一些报错，可以自己慢慢解决，大概就是这样的。 SAP的开发，有三种开发…

阅读更多...

RNN模型与NLP应用(1/9)：数据处理基础Data Processing Basics

RNN模型与NLP应用(1/9)：数据处理基础Data Processing Basics

文章目录处理分类特征把分类特征转化为数值特征应用one-hot编码indice要从1开始而不能从0开始数据处理为什么使用one-hot向量处理文本数据Step1：将文本分割成单词Step2：计算单词的频度按频度递减的方式排序 Step3：One-Hot编码处理分类特征…

阅读更多...

推荐文章

最新文章