Speech and Language Processing之word2vec

news2024/9/22 13:41:17

1、介绍      

       事实证明,在每一个NLP任务中,密集向量都比稀疏向量工作得更好。虽然我们不能完全理解其中的所有原因,但我们有一些直觉。首先,密集向量可以更成功地作为特征包含在机器学习系统中;例如,如果我们使用100维词嵌入作为特征,分类器只需要学习100个权重来表示一个词的含义函数;如果我们使用一个50,000维的向量,分类器将不得不为每个稀疏维学习数万个权重。第二,因为它们比显式计数的稀疏向量包含更少的参数,密集向量可以更好地泛化,并有助于避免过拟合。最后,密集向量可能比稀疏向量在捕获同义词方面做得更好。例如,car和automobile是同义词;但在典型的稀疏向量表示中,汽车维和汽车维是不同的维。因为这两个维度之间的关系没有建模,所以稀疏向量可能无法捕获以car为邻居的单词和以automobile为邻居的单词之间的相似性。

       在本节中,我们将介绍一种处理非常密集的短向量的方法,即skip- gram with negative sampling,有时称为SGNS。skip-gram算法是一个名为word2vec的软件包中的两种算法之一,因此有时该算法被松散地称为word2vec 。word2vec方法快速、有效地训练,并且易于在线使用代码和预训练的嵌入。我们在本章的最后指出了其他嵌入方法,如同样流行的GloVe。

      word2vec的可以认为是,我们不是计算每个单词w出现在杏子附近的频率,而是训练一个分类器进行二元预测任务:“单词w可能出现在杏子附近吗?”我们并不关心这个预测任务;相反,我们将使用学习到的分类器权重作为词嵌入,这一想法最初是在神经语言建模任务中提出的,Bengio等人(2003)和Collobert等人(2011)表明,神经语言模型(学习从先前的单词中预测下一个单词的神经网络)可以使用运行文本中的下一个单词作为其监督信号,并且可以用来学习每个单词的嵌入表示,作为完成该预测任务的一部分。

      我们将在下一章看到如何做神经网络,但word2vec是一个比神经网络语言模型简单得多的模型,有两个方面。首先,word2vec简化了任务(使其成为二进制分类而不是单词预测)。其次,word2vec简化了架构(训练逻辑回归分类器,而不是需要更复杂训练算法的隐藏层的多层神经网络)。skip-gram的直观理解是:

1. 把目标词和邻近的上下文词作为正样本
2. 随机抽取词典中的其他单词,得到负样本
3.使用逻辑回归训练分类器来区分这两种情况
4. 使用回归权重作为词嵌入向量

2、分类器

让我们从考虑分类任务开始,然后转向如何训练。想象一下这样一个句子,目标词是apricot ,假设我们使用了±2个上下文词的窗口:

我们的目标是训练一个分类器,给定目标词t的元组(t,c)与候选上下文词c配对(例如(apricot,jam),或者 (apricot, aardvark)),它将返回c是真实上下文单词的概率(true for jam, fase for aardvark)。

分类器如何计算概率P?skip-gram模型的直觉是基于相似度的概率:如果一个词的嵌入与目标嵌入相似,那么它很可能出现在目标附近。我们如何计算嵌入之间的相似度?回想一下,如果两个向量有很高的点积,它们就是相似的(余弦,最流行的相似性度量,只是一个标准化的点积)。换句话说:

 如上,前面的t*c得到的是俩向量相乘,他的取值范围是负无穷-正无穷,为了得到概率,仍旧需要sigmoid进行压缩。

 

 Word2vec通过从一组初始嵌入向量开始学习嵌入,然后迭代地移动每个单词w的嵌入,使其更像文本中附近出现的单词的嵌入,而不像附近出现的单词的嵌入。

这个例子有一个目标词t(apricot),在L =±2窗口中有4个上下文词,产生4个积极的训练实例(如下图所示): 

 

        为了训练二值分类器,我们还需要负例。事实上,skip- gram使用的负样例比正样例更多(它们之间的比率由参数k设置)。因此,对于每一个(t,c)训练实例,我们将创建k个负样例,每个负样例由目标t加上一个“噪声词”组成。噪声词是来自词典的随机词,被约束为不是目标词t。右图显示了k = 2的设置,因此我们将在负训练集中有2个负样例-对于每个正样例t,c。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/508914.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Shell脚本之正则表达式详解(花每年都开,你还是那个你吗)

文章目录 一、什么叫做正则表达式二、正则表达式的组成三、正则表达式分类四、正则表达式字符用法五、正则表达式练习1.匹配/etc/fstab中不是以#开头的行2.匹配/etc/passwd中以bash结尾的行3.匹配文件中025开头,后一个字符为"-"、" " 或没有&am…

Linux进程信号(下)

目录 1:信号保存概念 2:sigset_t 3:信号集操作函数 3.1:sigprocmask 3.2:9号进程不能被阻塞(验证) 3.3:sigpending 4:信号处理 5:sigaction 6&#x…

C++知识点 -- C++的IO流

C知识点 – C的IO流 文章目录 C知识点 -- C的IO流一、C标准IO流1.多个输入数据2.多行数据读入 二、C文件IO流1.ifstream读文件2.文件读写类 三、stringstream 一、C标准IO流 C系统实现了一个庞大的类库,其中以ios为基类,其他类都是直接或间接派生自ios类…

springboot 阿里云oss图片上传和异常处理

自己去申请开通阿里云oss。 对象存储 OSS_云存储服务_企业数据管理_存储-阿里云 1.在pom.xml添加依赖 <dependency><groupId>com.aliyun.oss</groupId><artifactId>aliyun-sdk-oss</artifactId><version>3.14.0</version></dep…

港科夜闻|香港科大与香港资管通有限公司签署校企合作备忘录,成立校企合作基金促科研成果落地...

关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 1、香港科大与香港资管通有限公司签署校企合作备忘录&#xff0c;成立校企合作基金促科研成果落地。“港科资管通领航基金”28日在香港成立&#xff0c;将致力于推动高校科研成果转化&#xff0c;助力香港国际创科中心建设。…

Fabric.js 拖拽顶点修改多边形形状

theme: smartblue 我正在参加「掘金启航计划」 本文简介 戴尬猴&#xff0c;我是德育处主任 这次要介绍的一个demo是"拖拽多边形定点修改多边形形状"。 其实 Fabric.js 官网也有这个demo&#xff1a;Fabric.js demos Custom controls, polygon 。但这个demo可能对于…

ASEMI代理ADV7611BSWZ原装ADI车规级ADV7611BSWZ

编辑&#xff1a;ll ASEMI代理ADV7611BSWZ原装ADI车规级ADV7611BSWZ 型号&#xff1a;ADV7611BSWZ 品牌&#xff1a;ADI/亚德诺 封装&#xff1a;LQFP-64 批号&#xff1a;2023 引脚数量&#xff1a;64 工作温度&#xff1a;-40C~85C 安装类型&#xff1a;表面贴装型 …

怎么轻松地搞定Win11系统备份任务?

“我是一个电脑小白&#xff0c;不是很懂电脑的一些操作。我刚买了一台新电脑&#xff0c;它装的是Win11系统&#xff0c;我害怕它出现什么问题&#xff0c;听朋友说可以通过备份的方法保护系统&#xff0c;这是真的吗&#xff1f;有谁知道该怎么进行Win11系统备份吗&#xff1…

OJ练习第101题——柱状图中最大的矩形

柱状图中最大的矩形 力扣链接&#xff1a;84. 柱状图中最大的矩形 题目描述 给定 n 个非负整数&#xff0c;用来表示柱状图中各个柱子的高度。每个柱子彼此相邻&#xff0c;且宽度为 1 。 求在该柱状图中&#xff0c;能够勾勒出来的矩形的最大面积。 示例 思路 我们先嵌…

第2章 Nginx环境搭建

第2章 Nginx环境搭建 2.1 下载 免费开源版的官方网站&#xff1a;http://nginx.org Nginx 有 Windows 版本和 Linux 版本&#xff0c;但更推荐在 Linux 下使用 Nginx&#xff1b; 下载nginx-1.14.2.tar.gz的源代码文件&#xff1a;wget http://nginx.org/download/nginx-1.…

登录功能实现及文件上传下载功能补充

登录功能实现简单介绍&#xff1a; 1&#xff1a;登录时密码输入错误刷新登陆页面并提示登录信息错误&#xff1b; 2&#xff1a;输入正确用户名及密码点击sign in 登录成功。&#xff08;如果勾选remember me 只要服务器未停止&#xff0c;可以直接免登录进入欢迎页面&#x…

《光电容积法在评估高血压中的应用》阅读笔记

目录 一、论文摘要 二、论文十问 Q1&#xff1a;论文试图解决什么问题&#xff1f; Q2&#xff1a;这是否是一个新的问题&#xff1f; Q3&#xff1a;这篇文章要验证一个什么科学假设&#xff1f; Q4&#xff1a;有哪些相关研究&#xff1f;如何归类&#xff1f;谁是这一课…

ubuntu系统配置软件脚本自启动

背景 项目因为某些原因需要服务器自启动来执行脚本, 因此需要在ubuntu服务器上面实现自启动功能. 步骤 ubuntu作为服务器使用时&#xff0c;常常需要在机器重启时能自动启动我们开发的服务。 Ubuntu 18.04不再使用initd管理系统&#xff0c;改用systemd&#xff0c;包括用sys…

Redis:哨兵集群

目录 基于pub/sub 机制的哨兵集群组成基于pub/sub 机制的客户端事件通知由哪个哨兵执行主从切换哨兵实例是不是越多越好&#xff0c;如果同时调大 down-after-milliseconds 值&#xff0c;对减少误判是不是也有好处 部署多个哨兵实例就形成了一个哨兵集群。哨兵集群中的多个实例…

【Redis】Redis面试题

Redis的事务 什么是Redis的事务 Redis的事务是一个单独的隔离操作&#xff0c;事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中&#xff0c;不会被其他客户端发送来的命令请求所打断&#xff0c;所以Redis事务是在一个队列中&#xff0c;一次性、顺序性、排他…

人工智能基础:从机器学习到深度学习的发展和应用

随着信息技术的快速发展&#xff0c;人工智能技术已经成为当今最热门的技术之一。在人工智能技术中&#xff0c;机器学习和深度学习是最为关键的两个技术分支。本文将从机器学习的基础概念、机器学习的发展史、深度学习的基本概念、深度学习的应用以及深度学习的未来趋势等方面…

Chunjun数据同步工具初体验

chunjun (纯钧) 官方文档纯钧 chunjun 有四种运行方式&#xff1a;local、standalone、yarn session、yarn pre-job 。 运行方式/环境依赖flink环境hadoop环境localstandalone√yarn session√√yarn pre-job√√ 1.下载 官网已经提供了编译好的插件压缩包&#xff0c;可以…

【译】Java 内存泄露的构造和检测

1. 概述 在 Java 应用程序中&#xff0c;内存泄漏会导致严重的性能下降和系统故障。开发人员必须了解内存泄漏的发生原因以及如何识别和解决它们。 在本教程中&#xff0c;我们将提供一个使用失效的监听器问题作为示例来创建 Java 内存泄漏的指南。我们还将讨论各种检测内存泄…

GitHub Copilot 使用介绍

什么是 Github Copilot https://github.com/features/copilot Github Copilot 是一种人工智能辅助开发工具&#xff0c;由 GitHub 和 OpenAI 合作开发&#xff0c;旨在通过机器学习算法为开发人员提供自动化的代码提示和智能建议&#xff0c;从而提高开发效率&#xff0c;该系…

【Vue】 CLI WebStorage

CLI 本地存储 自定义事件 WebStorage(js本地存储)localStoragesessionStorage WebStorage(js本地存储) 存储内容大小一般支持5MB左右(不同浏览器可能还不一样) 浏览器端通过Window.sessionStorage 和Winodw.localStorage 属性来实现本地存储机制相关API xxxStorage.setItem(‘…