累计概率分布、概率分布函数(概率质量函数、概率密度函数)、度量空间、负采样(Negative Sampling)

news2025/1/24 22:47:59

这里写自定义目录标题

  • 机器学习的基础知识
    • 累计概率分布
    • 概率分布函数
    • 度量空间
    • 负采样(Negative Sampling)
      • 基于分布的负采样(Distribution-based Negative Sampling):
      • 基于近邻的负采样(Neighbor-based Negative Sampling):

机器学习的基础知识

累计概率分布、概率分布函数(概率质量函数、概率密度函数)、度量空间、负采样(Negative Sampling)

累计概率分布

累计概率分布是指离散随机变量或连续随机变量的概率分布函数(Probability Distribution Function,简称PDF)在某个取值点之前的概率之和。

对于离散随机变量,累计概率分布函数(Cumulative Distribution Function,简称CDF)定义为在该点之前所有概率质量函数(Probability Mass Function,简称PMF)值的累加和。

对于连续随机变量,累计概率分布函数定义为在该点之前的概率密度函数(Probability Density Function,简称PDF)的积分。

以离散随机变量为例,设随机变量X具有概率质量函数P(X = x),则其累计概率分布函数F(x)定义为:

F(x) = P(X ≤ x) = ΣP(X = x’)

其中,x’为所有小于或等于x的可能取值。

以连续随机变量为例,设随机变量X具有概率密度函数f(x),则其累计概率分布函数F(x)定义为:

F(x) = P(X ≤ x) = ∫f(t)dt,积分从负无穷到x

累计概率分布函数提供了随机变量小于或等于某个特定值的概率。在统计学和概率论中,累计概率分布函数常用于计算随机变量的分位数、概率计算以及随机变量之间的比较等任务。

值得注意的是,累计概率分布函数的取值范围在[0, 1]之间,并且具有单调递增的性质。

概率分布函数

概率分布函数(Probability Distribution Function,简称PDF)是描述随机变量取值与其概率之间关系的函数。对于离散型随机变量,概率分布函数也被称为概率质量函数(Probability Mass Function,简称PMF)。对于连续型随机变量,概率分布函数也被称为概率密度函数(Probability Density Function,简称PDF)。

离散型随机变量的概率质量函数(PMF):
对于离散型随机变量X,其概率质量函数P(X = x)给出了X取特定值x的概率。概率质量函数满足以下性质:

非负性:P(X = x) ≥ 0
归一性:∑P(X = x) = 1,求和范围覆盖了所有可能的取值

连续型随机变量的概率密度函数(PDF):
对于连续型随机变量X,其概率密度函数f(x)描述了X落在某个区间内的概率密度。概率密度函数满足以下性质:

非负性:f(x) ≥ 0
归一性:∫f(x)dx = 1,积分范围覆盖了所有可能的取值

概率分布函数是概率质量函数(PMF)或概率密度函数(PDF)的累积函数。对于离散型随机变量,概率分布函数F(x)定义为X小于或等于x的概率之和。对于连续型随机变量,概率分布函数F(x)定义为X小于或等于x的概率密度之积分。

概率分布函数的性质:

非负性:概率分布函数的值始终非负,即F(x) ≥ 0。
单调性:概率分布函数是单调非减函数,即如果x1 ≤ x2,则F(x1) ≤ F(x2)。
归一性:概率分布函数在整个取值空间上的值范围是[0, 1],即F(-∞) = 0,F(+∞) = 1。

概率分布函数在统计学和概率论中起到重要的作用,可以用于计算随机变量的概率、期望、方差以及进行随机变量之间的比较等任务。常见的概率分布函数包括正态分布、均匀分布、二项分布、泊松分布等。

度量空间

度量空间(Metric Space)是数学中的一个概念,用于描述具有度量(Metric)的空间。度量是一种用于衡量空间中两个元素之间距离的函数。

在一个度量空间中,我们有一个集合X以及一个定义在X上的度量函数d,满足以下条件:

非负性:对于任意的x, y ∈ X,有d(x, y)0,并且当且仅当x = y时,d(x, y) = 0。
对称性:对于任意的x, y ∈ X,有d(x, y) = d(y, x)。
三角不等式:对于任意的x, y, z ∈ X,有d(x, z) ≤ d(x, y) + d(y, z)

度量空间中的度量函数可以理解为表示元素之间距离的度量方式。它可以是实数值的距离,也可以是其他形式的度量,如欧氏距离、曼哈顿距离等。度量函数的定义使我们能够在度量空间中进行距离的比较和分析。

度量空间的例子包括欧几里得空间(Euclidean Space)和离散度量空间。在欧几里得空间中,度量函数是欧氏距离,用于测量点之间的直线距离。在离散度量空间中,度量函数可以是汉明距离、编辑距离等,用于度量离散对象之间的差异。

度量空间的概念在数学、计算机科学和物理学等领域中有广泛的应用。它为我们提供了一种形式化的框架,用于研究和分析空间中的距离、连续性、收敛性等性质。

负采样(Negative Sampling)

负采样(Negative Sampling,负样本的采样方式)是一种用于优化训练过程的技术,常用于词嵌入模型(如Word2Vec)等自然语言处理任务中。负采样通过减少训练样本的数量和计算复杂度,提高了训练效率,同时仍能保持模型的性能。

在传统的词嵌入模型中,目标是学习每个单词的词向量表示,使得具有相似上下文的单词在向量空间中的距离更近。传统的训练过程中,需要对每个训练样本计算softmax概率分布,这对于大规模语料库来说计算量很大。

负采样通过将训练样本中的正例(目标单词及其上下文)与负例(目标单词与随机选择的其他单词)进行区分,从而减少了计算量。具体来说,对于每个训练样本,负采样会随机选择一些负例,数量通常远小于语料库中的所有单词,并将它们作为负样本,而不再考虑其他单词。

负采样的目标是调整模型参数,使得正例的得分高于负例的得分,从而更好地区分正例和负例。一种常见的负采样方法是使用二元逻辑回归模型,将目标单词与上下文的词向量作为输入,通过sigmoid函数将其转化为概率。正例的标签为1,负例的标签为0,模型的目标是最大化正例的概率、最小化负例的概率。

负采样的优点是能够降低计算复杂度,加快训练速度。此外,负采样还有助于将模型更专注于区分目标单词和上下文,提高了模型的性能。但是,负采样也引入了一定的偏差,因为负例是随机选择的,并不能保证完全涵盖语料库中的所有负例。

需要注意的是,负采样在不同任务和模型中的具体实现方式会有所不同。具体的选择和调整负采样的数量、采样策略等,需要根据实际情况和任务需求进行调整和优化。

除了二元逻辑回归模型,还有其他几种常用的负采样方式,下面列举其中两种。

基于分布的负采样(Distribution-based Negative Sampling):

这种负采样方式基于单词的频率分布来选择负例。具体步骤如下:

统计每个单词在语料库中的出现频次,并计算每个单词出现的概率。
根据单词的概率分布,随机选择负例。常用的选择方法是使用单词的概率分布的幂次进行采样,即根据频次的幂次对单词进行采样,出现频次较高的单词被选择为负例的概率较低,频次较低的单词被选择为负例的概率较高。

基于近邻的负采样(Neighbor-based Negative Sampling):

这种负采样方式基于单词的上下文关系来选择负例。具体步骤如下:

对于每个训练样本中的目标单词,选取其真实上下文单词。
对于每个上下文单词,从其上下文窗口中选择一部分单词作为负例。这些负例单词可以是随机选择的,也可以根据一定的概率分布进行选择。

这些负采样方式的选择取决于具体的任务和模型。不同的负采样方式可能适用于不同的应用场景,并且可能会对模型的性能产生不同的影响。因此,在实际应用中,可以尝试不同的负采样方式,并进行实验和比较,选择最适合的方式。

Alt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1176594.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux进程】进程地址空间

目录 程序地址空间回顾 进程地址空间 宏观理解 谈细节 1、进程地址空间究竟是什么? 2、管理地址空间 3、页表 总结几个问题: 1、为什么要有进程地址空间? 2、进程切换 3、进程具有独立性,怎么做到的? 程序地…

C++程序崩溃时,使用Windbg静态分析dump文件

Window环境下的C程序如果发生异常崩溃,首先会和客户联系,让帮忙取特定目录下的dump文件和log文件来分析崩溃的原因。不过发生崩溃的话,从log一般分析不出特定原因,这时候dump文件就起作用了。可以通过Visual Studio和WinDbg来静态…

看看顶级外贸业务员是如何跟进客户的?

许多外贸业务员,都碰到过客户跟进上的困难。那到底外贸业务员如何跟进客户,才能越跟越近,最终成交呢?本篇文章设定了几个客户回复的场景,看看顶尖销售都是怎么应对的吧? 一 客户说暂时没有需求 1.问清楚客…

京东app地推拉新和京喜大赢家网推app拉新申请渠道 附全套攻略

京东app地推拉新和京喜大赢家网推拉新可以通过“聚量推客”申请 聚量推客是什么呢?一手官签服务商直营app拉新平台 京东app地推拉新项目和京喜大赢家网推拉新项目有什么区别呢? 京东app只能地推作业,京喜大赢家推广支持网推推广操作也更简…

【C语法学习】18 - fread()函数

文章目录 1 函数原型2 参数3 返回值4 示例 1 函数原型 fread():从与指定流stream相关联的二进制文件中读取数据块储存在str指向的内存空间中,函数原型如下: size_t fread(const void *ptr, size_t size, size_t count, FILE *stream)2 参数…

为什么大家都想找运营类的工作?

为什么大家都想找运营类的工作? 一、入门门槛 随着需求的持续增长,市场上的人员素质难以迅速匹配。在高校中,也难以培养出对口的应届毕业生。因此,许多企业在招聘运营人员时,更倾向于自行培养。对于新人的要求相对较低…

酒水展示预约小程序的效果如何

酒的需求度非常高,各种品牌、海量经销商组成了庞大市场,而在实际经营中,酒水品牌、经销商、门店经营者等环节往往也面临着品牌传播拓客引流难、产品展示预约订购难、营销难、销售渠道单一等痛点。 那么商家们应该怎样解决呢? 可以…

MTK RILD 无法启动问题分析

1、问题背景 Modem识别卡,但是UI无法识别卡,抓取问题机开机Log,发现RILJ一直在找寻RILD,但是无法获取相关服务,因此可以确认RILD Crash或出现异常。 但是在异常Log中搜索RILD,也未见相关关键字Log 2、对比实…

Springboot+vue的导师双选管理系统(有报告)。Javaee项目,springboot vue前后端分离项目。

演示视频: Springbootvue的导师双选管理系统(有报告)。Javaee项目,springboot vue前后端分离项目。 项目介绍: 本文设计了一个基于Springbootvue的前后端分离的导师双选管理系统,采用M(model&a…

享搭低代码平台:加速费用报销管理系统应用构建的利器

低代码平台的概念与优势 低代码平台是一种应用开发工具,它通过图形化界面和少量编码,使开发人员能够快速构建应用程序。它的优势包括提高开发效率、降低技术门槛、加强协作和灵活性等。 享搭低代码平台实现快速构建费用报销管理系统应用 在享搭低代码…

Web3.0的测试题

任务: 在前端开发一个查询UI,查询当前用户账户的ETH余额和指定ERC20合约中的余额 目标: UI框架指定使用 MUI (https://mui.com)需要查询到当前账户的ETH余额并展示在UI界面上需要输入ERC20合约地址后,查询到到当前账户在此ERC20…

【GEE】6、在 Google 地球引擎中构建各种遥感指数

1简介 在本模块中,我们将讨论以下概念: 如何在 GEE 中重命名图像的波段。如何使用已有的遥感指数。如何使用波段数学生成自己的遥感指数。 一个田地已经灌溉的年数的卫星图像。灌溉水最可能的来源是奥加拉拉含水层。图片来自科罗拉多州霍利奥克附近。资料…

测试开发路线大纲与总结

一、什么是测试开发? 测试开发(Test Development)是一种结合软件测试和软件开发的角色和实践。测试开发人员负责设计、开发和维护自动化测试工具、测试框架和测试脚本,以支持测试流程的自动化和优化。他们与开发团队和质量保证&a…

云尘靶场 Medium_Socnet 内网为docker 无站代理 不存在gcc的提权方式 解决ldd过高无法执行exp 指定so文件

首先我们可以通过 arp-scan 扫描当前内网中的存活 但是不知道为什么扫不出来 然后我们使用fscan可以获取存活 这里大致扫描只开了22端口 所以我们使用nmap进行信息收集扫描 nmap -sS -sV -A -p- 172.25.0.13通过tcp 进行 版本服务扫描 并且检测系统版本 全端口 这里我们可以…

VUE多语言i18n配置

1、i18n官网 格式化 | Vue I18n 2、安装i18n 8---指版本号 // vue2必须安装8版本的i18n包,vue3必须安装9版本的i18n包。 npm i vue-i18n8 3、卸载i18n npm uninstall vue-i18n 4、安装 js-cookie npm install vue-cookies --save 5、代码 5.1 main.js /…

睿思BI已支持3D图形

从睿思BI旗舰版V5.3开始,系统支持如下3D图形: 3D地球 3D地图 飞线图 3D金字塔 睿思BI采用ThreeJS实现3D功能,用户也可以基于系统接口,采用ThreeJS在数据大屏中实现自己的3D图形。 系统演示地址:睿思BI旗舰版https://…

BI数据可视化:不要重复做报表,只需更新数据

BI数据可视化是一种将大量数据转化为视觉形式的过程,使得用户可以更容易地理解和分析数据。然而,传统的报表制作过程往往需要手动操作,不仅耗时还容易出错。为了解决这个问题,BI数据可视化工具通常会提供一些自动化的数据更新功能…

台灯应该买什么样的才能护眼?一篇学会如果挑选护眼台灯

家里顶灯太暗了且高度太高,还是原始的LED灯,晚上用着眼睛都有点难受,还好遇到了儿童护眼灯。下面小编为大家介绍下儿童护眼灯哪个牌子好?什么护眼台灯比较专业 护眼台灯怎么样选择 1、照度级别 台灯照度级别分为 A 级和 AA 级。…

多模态情感分析——Twitter15和Twitter17数据集

一、原始数据集介绍 数据集链接: https://pan.baidu.com/s/1JLkaSerBgKe--GBaU0ZkFg?pwdfqyo提取码:fqyo 数据集介绍:原始的被划分为了训练集(60%)、验证集(20%)、测试集(20%&am…

【Java SE】详解数组

前言:在C语言中我们已经学习过数组,接下来,我们再主要学习一下Java中的数组,在Java中,数组变得更加高效和使用。 1. 数组的基本概念 1.1 什么是数组? 数组:可以看成是相同类型元素的一个集合。…