机器学习笔记之狄利克雷过程(三)随机测度的生成过程(折棍子过程)

news2024/9/20 5:50:12

机器学习笔记之狄利克雷过程——随机测度的生成过程[折棍子过程]

引言

上一节使用公式推导的方式介绍了狄利克雷过程标量参数 α \alpha α的极端取值对于生成的随机测度 G ( i ) \mathcal G^{(i)} G(i)离散程度的影响。本节从随机测度的生成角度对标量参数 α \alpha α与离散程度的关系进行描述。

回顾:狄利克雷过程——定义

已知 G ( i ) \mathcal G^{(i)} G(i)服从狄利克雷过程 DP ( α , H ) \text{DP}(\alpha,\mathcal H) DP(α,H)
G ( i ) ∼ DP ( α , H ) \mathcal G^{(i)} \sim \text{DP}(\alpha,\mathcal H) G(i)DP(α,H)

其中, G ( i ) \mathcal G^{(i)} G(i)被称作随机测度( Random Measure \text{Random Measure} Random Measure),它是从狄利克雷过程 DP ( α , H ) \text{DP}(\alpha,\mathcal H) DP(α,H)中生成的一个样本;并且它的本质是一个离散型概率分布

假设该分布 G ( i ) \mathcal G^{(i)} G(i)是一个一维随机分布,并且其内部包含 K \mathcal K K个离散特征:
G ( i ) = ( g 1 ( i ) , g 2 ( i ) , ⋯   , g K ( i ) ) T ∑ k = 1 K g k ( i ) = 1 \mathcal G^{(i)} = (g_1^{(i)},g_2^{(i)},\cdots,g_{\mathcal K}^{(i)})^T \quad \sum_{k=1}^{\mathcal K} g_k^{(i)} = 1 G(i)=(g1(i),g2(i),,gK(i))Tk=1Kgk(i)=1
其中 g k ( i ) g_k^{(i)} gk(i)表示 G ( i ) \mathcal G^{(i)} G(i)中的第 k k k个特征,它的权重信息。其他权重信息对应的示例结果表示如下:
一维随机测度示例
其中,图像中竖线的长度就表示特征权重信息的大小。我们将 K \mathcal K K个权重结果划分成 D \mathcal D D个区域,每个区域中可能存在若干个权重结果:

  • 其中 a d ( d = 1 , 2 , ⋯   , D ) a_d(d=1,2,\cdots,\mathcal D) ad(d=1,2,,D)表示区域编号; G ( i ) ( a d ) \mathcal G^{(i)}(a_d) G(i)(ad)表示区域 a d a_d ad内存在的权重结果之和。
  • 这仅是一个特征信息重组的部分,总量没有发生变化。
    { G ( i ) ( a 1 ) , G ( i ) ( a 2 ) , ⋯   , G ( i ) ( a D ) } { G ( i ) ( a d ) = ∑ g k ( i ) ∈ a d g k ( i ) ∑ d = 1 D G ( i ) ( a d ) = 1 \left\{\mathcal G^{(i)}(a_1),\mathcal G^{(i)}(a_2),\cdots,\mathcal G^{(i)}(a_{\mathcal D})\right\} \quad \begin{cases} \mathcal G^{(i)}(a_d) = \sum_{g_k^{(i)} \in a_d} g_k^{(i)} \\ \quad \\ \sum_{d=1}^{\mathcal D} \mathcal G^{(i)}(a_d) = 1 \end{cases} {G(i)(a1),G(i)(a2),,G(i)(aD)} G(i)(ad)=gk(i)adgk(i)d=1DG(i)(ad)=1

这意味 G ( i ) ( a d ) ( d = 1 , 2 , ⋯   , D ) \mathcal G^{(i)}(a_d)(d=1,2,\cdots,\mathcal D) G(i)(ad)(d=1,2,,D)同样是随机变量。关于新的离散分布 { G ( i ) ( a 1 ) , G ( i ) ( a 2 ) , ⋯   , G ( i ) ( a D ) } \left\{\mathcal G^{(i)}(a_1),\mathcal G^{(i)}(a_2),\cdots,\mathcal G^{(i)}(a_{\mathcal D})\right\} {G(i)(a1),G(i)(a2),,G(i)(aD)},它需要服从的性质是狄利克雷分布

  • 并且‘狄利克雷分布’内部对应参数信息是 α H ( a d ) ( d = 1 , 2 , ⋯   , D ) \alpha \mathcal H(a_d)(d=1,2,\cdots,\mathcal D) αH(ad)(d=1,2,,D)
  • 可以比较 H ( θ ( i ) ) \mathcal H(\theta^{(i)}) H(θ(i)) H ( a d ) \mathcal H(a_d) H(ad)的意义,它们均表示基本测度,只不过 a d a_d ad区域中可能包含若干个 θ \theta θ.
    { G ( i ) ( a 1 ) , G ( i ) ( a 2 ) , ⋯   , G ( i ) ( a D ) } ∼ Dir [ α H ( a 1 ) , α H ( a 2 ) , ⋯   , α H ( a D ) ] \left\{\mathcal G^{(i)}(a_1),\mathcal G^{(i)}(a_2),\cdots,\mathcal G^{(i)}(a_{\mathcal D})\right\} \sim \text{Dir} \left[\alpha \mathcal H(a_1),\alpha \mathcal H(a_2),\cdots,\alpha \mathcal H(a_{\mathcal D})\right] {G(i)(a1),G(i)(a2),,G(i)(aD)}Dir[αH(a1),αH(a2),,αH(aD)]

随机测度的生成过程

现在已经知道了狄利克雷过程的定义,那么随机测度 G ( i ) \mathcal G^{(i)} G(i)要如何生成呢?自然是采样( Sampling \text{Sampling} Sampling)。在蒙特卡洛方法介绍中提到了关于从分布中生成的方式。如拒绝采样( Rejection Sampling \text{Rejection Sampling} Rejection Sampling):
M ⋅ Q ( x ) ≥ P ( x ) \mathcal M \cdot \mathcal Q(x) \geq \mathcal P(x) MQ(x)P(x)
重要性采样( Importance Sampling \text{Importance Sampling} Importance Sampling)等等:
E P ( x ) [ f ( x ) ] ≈ 1 N ∑ i = 1 N [ f ( x ( i ) ) ⋅ P ( x ( i ) ) Q ( x ( i ) ) ] \mathbb E_{\mathcal P(x)} [f(x)] \approx \frac{1}{N} \sum_{i=1}^N \left[f(x^{(i)}) \cdot \frac{\mathcal P(x^{(i)})}{\mathcal Q(x^{(i)})}\right] EP(x)[f(x)]N1i=1N[f(x(i))Q(x(i))P(x(i))]
但这些采样方式仅针对于单个样本

经过上面的介绍, G ( i ) \mathcal G^{(i)} G(i)并不是一个简单样本,而是一个完整分布。在极大似然估计与最大后验概率估计中介绍过,概率分布是一个客观的存在,它可以源源不断地产生样本。

如何去采出一个存在无穷样本的分布?我们直接从样本的权重信息进行采样,构造一个过程。这个过程也被称作折棍子过程( Stick-breaking \text{Stick-breaking} Stick-breaking):

  • 已知关于参数 θ = { θ ( i ) } i = 1 N \theta = \{\theta^{(i)}\}_{i=1}^N θ={θ(i)}i=1N基本测度 H ( θ ) \mathcal H(\theta) H(θ)。首先从 H ( θ ) \mathcal H(\theta) H(θ)中随机采样出一个样本 θ ( i ) \theta^{(i)} θ(i)
    θ ( k ) ∼ H ( θ ) \theta^{(k)} \sim \mathcal H(\theta) θ(k)H(θ)

  • 下一步,我们需要采样它的权重信息

    • θ ( k ) \theta^{(k)} θ(k)被确定后,它就已经是随机离散测度 G ( i ) \mathcal G^{(i)} G(i)中的一个随机变量了,按照理论来说,这种随机变量是无穷无尽的,因为我们从 H ( θ ) \mathcal H(\theta) H(θ)中源源不断的产生样本。
    • 随着样本 θ ( k ) \theta^{(k)} θ(k)的增多, G ( i ) \mathcal G^{(i)} G(i)的离散程度越低,最终会成为连续分布。为了保证 G ( i ) \mathcal G^{(i)} G(i)是离散分布,关于 θ ( k ) \theta^{(k)} θ(k)权重的分配是至关重要的。
    • 通过观察发现, θ ( k ) \theta^{(k)} θ(k)的生成仅与基本测度 H ( θ ) \mathcal H(\theta) H(θ)相关,和标量参数 α \alpha α无关。
  • 假定 θ ( k ) \theta^{(k)} θ(k)对应的权重为 π ( k ) \pi^{(k)} π(k),该值服从 Beta \text{Beta} Beta分布
    关于 Beta \text{Beta} Beta分布,该分布中的样本值域均为 ( 0 , 1 ] (0,1] (0,1],并且关于 Beta(a,b) \text{Beta(a,b)} Beta(a,b)分布的期望(该分布的位置)与参数 a , b a,b a,b之间的关系为: E [ x ] = a a + b \mathbb E[x] = \frac{a}{a + b} E[x]=a+ba.
    π ( k ) = β 1 ∼ Beta ( 1 , α ) \pi^{(k)} = \beta_1 \sim \text{Beta}(1,\alpha) π(k)=β1Beta(1,α)

  • 此时, θ ( k ) \theta^{(k)} θ(k)对应权重 π ( k ) \pi^{(k)} π(k)已经采样完成。继续采集后续的样本。再次从 H ( θ ) \mathcal H(\theta) H(θ)中采出一个样本 θ ( j ) \theta^{(j)} θ(j),继续计算它的权重信息

    • 和第一个样本 θ ( k ) \theta^{(k)} θ(k)不同的是,它需要从除去 π ( k ) \pi^{(k)} π(k)后的剩余权重中获取相应的权重.
    • 很明显,就像‘折棍子’一样,如果将 ( 0 , 1 ] (0,1] (0,1]视作完整的棍子,那么每次迭代过程中,每折掉一段,就将剩余的长度到下次迭代时,再进行折断。
      { θ ( j ) ∼ H ( θ ) β 2 ∼ Beta ( 1 , α ) π ( j ) = ( 1 − π ( k ) ) ⋅ β 2 \begin{cases} \theta^{(j)} \sim \mathcal H(\theta) \\ \beta_2 \sim \text{Beta}(1,\alpha) \\ \pi^{(j)} = (1 - \pi^{(k)}) \cdot \beta_2 \end{cases} θ(j)H(θ)β2Beta(1,α)π(j)=(1π(k))β2
  • 以此类推,直到权重全部被分配出去,此时的概率分布就完成了,此时就生成了一个随机测度 G ( i ) \mathcal G^{(i)} G(i)
    从上述的过程可以发现,虽然都是从 Beta ( 1 , α ) \text{Beta}(1,\alpha) Beta(1,α)中随机结果,但是随着‘棍子’的长度缩短,对应的权值结果是‘递减’的。越往后迭代产生的权重,对于整个分布的影响越小。

从随机测度的生成过程观察标签参数 α \alpha α与随机测度离散程度之间的关系

关于从 Beta ( 1 , α ) \text{Beta}(1,\alpha) Beta(1,α)分布中产生的权值结果 β \beta β,它的期望表示如下:
E [ x ] = 1 1 + α \mathbb E[x] = \frac{1}{1 + \alpha} E[x]=1+α1
而期望在 Beta \text{Beta} Beta分布表示 被采样概率最高的样本位置,实际它就是确定了 Beta \text{Beta} Beta分布的位置

  • 如果 α = 0 \alpha = 0 α=0时,对应的期望结果 E [ x ] = 1 \mathbb E[x] = 1 E[x]=1,这意味着第一次采样的时候就将所有的权重全部分配给第一个样本;剩余的样本没有任何权重;
  • 相反,当 α = ∞ \alpha = \infty α=时,对应的期望结果 E [ x ] → 0 \mathbb E[x] \to 0 E[x]0,这意味着每一次采样仅能获取无限接近于 0 0 0的权重,也就是说,即便采集了无穷个样本,也无法将权重消耗完,那么此时的分布 G ( i ) \mathcal G^{(i)} G(i)就是基本测度 H \mathcal H H

相关参考:
徐亦达机器学习:Dirichlet-Process-part 3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/384289.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

云服务器ECS 什么是云服务器ECS?

云服务器ECS(Elastic Compute Service)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。 云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共…

【线性DP】猴子与香蕉

可恶,就差一点就能独立写出这道题了!4548. 猴子和香蕉 - AcWing题库题意:思路:设计状态的时候一开始不知道怎么设,后来试了一下发现这样设很合理因此在设状态的时候很多时候都要试一试当时间或空间吃不消时&#xff0c…

django ModelForm外鍵問題

背景 django在使用ModelForm時如果存在外鍵字段,默認是ChoiceField讓你選擇外鍵關聯表有的值,但是如果關聯表的數據很多的話選擇就很難找到選項。所以想能不能換成輸入框TextInput。 舉個例子 models.py 這裏建了兩個表,把用戶表的name作…

ERP的实施节省了公司人力吗?

业界一直有句老话:“不上ERP等死,上了ERP找死”。 可把ERP的尴尬处境说透了。 有人把ERP奉为信仰:“那些说ERP不好用的根本是没用明白。” 有人则认为ERP只是卖概念,冷嘲:“实施ERP的企业,估计一半都倒闭…

手机质保调到36个月,会对行业造成怎样的冲击?

2月17日,中国信通院发布数据显示,2022年全年国内市场手机出货量累计2.72亿部,同比下降22.6%。其中5G手机的出货量为2.14亿部,同比下降19.6%。这则数据打破了一些手机行业内的美好幻想:5G时代的到来,并没有涌…

哔哩哔哩自动生成视频上传,B站发布软件使用教程

哔哩哔哩自动生成视频上传,B站发布软件使用教程,全自动引流发帖软件介绍#引流发帖软件#全自动引流发帖#引流推广#拓客引流#爆粉软件 大家好,我是百收编辑狂潮老师,下面给大家讲一下 b 站上传软件它的一个使用方法。第一次使用的时…

几种常见的 JVM 调优场景

一、cpu占用过高 cpu占用过高要分情况讨论,是不是业务上在搞活动,突然有大批的流量进来,而且活动结束后cpu占用率就下降了,如果是这种情况其实可以不用太关心,因为请求越多,需要处理的线程数越多&#xff…

[Java·算法·困难]LeetCode25. K 个一组翻转链表

每天一题,防止痴呆题目示例分析思路1题解1分析思路2题解2分析思路3题解3👉️ 力扣原文 题目 给你链表的头节点 head ,每 k 个节点一组进行翻转,请你返回修改后的链表。 k 是一个正整数,它的值小于或等于链表的长度。…

JavaWeb--用户注册登录案例

用户注册登录案例1 用户登录1.1 需求分析1.2 环境准备1.3 代码实现2 用户注册2.1 需求分析2.2 代码编写3 SqlSessionFactory工具类抽取目标: 能够完成用户登录注册案例的实现能够完成SqlSessionFactory工具类的抽取 接下来我们通过两个比较常见的案例,一…

国家能源局持续发文,赛宁网安以实力响应电力网络靶场建设

​​一、政策导向 ​​国家能源局连续三年发文 推进电力网络靶场建设 2021.1. 国家能源局印发《2021电力安全监管重点工作任务》提出:加强电网及网络安全监管。推进电力行业网络安全仿真验证环境(靶场)建设,组织开展电力行业网…

如何构建一个稳定、可靠、安全的大型工业机械远程监控系统?

在工业机械设备的应用过程中,对于生产的质量、效率等要求都非常高,尤其是大型设备往往需要多人协同操作,如果没有实时的数据反馈和监控系统进行数据处理,就会出现数据偏差甚至错误现象。当前,国内大型工业机械设备数量…

AB测试-A/B Test

网络上有很多类似名称,又名A/B试验,ab test。 文章目录一、应用场景二、什么是AB测试三、AB测试可以解决什么问题四、AB测试的流程五、AB测试常见的误区六、AB测试的原理一、应用场景 以公司遇到的问题及需求入手,帮助大家建立感性认识。总结…

动态规划:leetcode 198.打家劫舍、213.打家劫舍II、337.打家劫舍III

leetcode 198.打家劫舍leetcode 213.打家劫舍IIleetcode 337.打家劫舍IIIleetcode 198.打家劫舍你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相…

GitCode使用教程

目录 0.前言 1. 安装git 2. 注册 gitcode 3. 创建SSH key 4. GitCode 中配置公钥 5. 新建项目 6. clone项目 7. push 项目 0.前言 笔者之前大致知道,2020年9月10日,CSDN正式推出全新升级的开源平台 GitCode,不过鉴于稳定性原因一直没…

第十章 优化stop功能

优化stop功能 突然发现其实stop存在边缘案例是没有通过的,比如我图中红框中的obj.prop 当加上这句代码后,运行测试案例是不能通过的,原因分析: stop后已经把依赖清除了,obj.prop又走了get,触发了依赖收集…

Java 获取文件后缀名【一文总结所有方法】

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

Delphi 中 FireDAC 数据库连接(管理事务)

参见:Delphi 中 FireDAC 数据库连接(总览)描述了如何使用FireDAC来管理DBMS事务。FireDAC提供TFDConnection和TFDTransaction组件来帮助你处理数据库事务。一、概述默认情况下,FireDAC应用程序在自动提交模式下工作,当…

Spring Cloud Alibaba全家桶(四)——微服务调用组件Feign

前言 本文小新为大家带来 微服务调用组件Feign 的相关知识,具体内容包含什么是Feign,Spring Cloud Alibaba快速整合OpenFeign,Spring Cloud Feign的自定义配置及使用(包括:日志配置、契约配置、自定义拦截器实现认证逻…

五方面提高销售流程管理的CRM系统

销售充满了不确定性,面对不同的客户,销售人员需要采用不同的销售策略。也正因为这种不确定性,规范的销售流程对企业尤为重要,它会让销售工作更加有效,快速地实现成交。下面小编给您推荐个不错的CRM销售流程管理系统。 …

BQ25071QWDQCRQ1示意图ISO6721BQDRQ1引脚配置ISO7330CQDWRQ1数字隔离器

1、BQ25071QWDQCRQ1应用程序示意图BQ25071 1A 单输入、单节线性电池充电器是一款高度集成的线性 LiFePO4 电池充电器,适用于空间受限的便携式应用。它接受来自 USB 端口或交流适配器的电力,为单节 LiFePO4 电池提供高达 1A 的充电电流。该器件具有单个电…