机器学习笔记之受限玻尔兹曼机(四)推断任务——边缘概率

news2025/1/10 17:14:17

机器学习笔记之受限玻尔兹曼机——推断任务[边缘概率]

  • 引言
    • 回顾:场景构建
    • 推断任务——边缘概率求解
    • 边缘概率与Softplus函数

引言

上一节介绍了受限玻尔兹曼机中随机变量节点的后验概率,本节将介绍随机变量结点的边缘概率

回顾:场景构建

已知受限玻尔兹曼机示例表示如下:
受限玻尔兹曼机——示例
随机变量集合 X ∈ R p \mathcal X \in \mathbb R^p XRp分成观测变量 v v v隐变量 h h h两个部分:
X = ( x 1 , x 2 , ⋯   , x p ) T = ( h v ) p × 1 { h = ( h 1 , h 2 , ⋯   , h m ) m × 1 T v = ( v 1 , v 2 , ⋯   , v n ) n × 1 T m + n = p \mathcal X = (x_1,x_2,\cdots,x_p)^T = \begin{pmatrix} h \\ v \end{pmatrix}_{p \times 1} \quad \begin{cases} h = (h_1,h_2,\cdots,h_m)_{m \times 1}^T \\ v = (v_1,v_2,\cdots,v_n)_{n \times 1}^T \end{cases} \quad m + n = p X=(x1,x2,,xp)T=(hv)p×1{h=(h1,h2,,hm)m×1Tv=(v1,v2,,vn)n×1Tm+n=p
并且观测变量 v v v、隐变量 h h h中的每一个随机变量均服从伯努利分布
h j ( j = 1 , 2 , ⋯   , m ) ∈ { 0 , 1 } v i ( i = 1 , 2 , ⋯   , n ) ∈ { 0 , 1 } \begin{aligned} h_j(j=1,2,\cdots,m) \in \{0,1\} \\ v_i (i=1,2,\cdots,n) \in \{0,1\} \end{aligned} hj(j=1,2,,m){0,1}vi(i=1,2,,n){0,1}
基于该模型,随机变量集合 X \mathcal X X联合概率分布表示如下:
P ( X ) = P ( v , h ) = 1 Z exp ⁡ { − E ( h , v ) } = 1 Z exp ⁡ ( v T W h + b T v + c T h ) = 1 Z exp ⁡ [ ∑ j = 1 m ∑ i = 1 n v i ⋅ w i j ⋅ h j + ∑ i = 1 n b i v i + ∑ j = 1 m c j h j ] \begin{aligned} \mathcal P(\mathcal X) = \mathcal P(v,h) & = \frac{1}{\mathcal Z} \exp \{- \mathbb E(h,v)\} \\ & = \frac{1}{\mathcal Z} \exp \left(v^T\mathcal W h + b^Tv + c^Th\right) \\ & = \frac{1}{\mathcal Z} \exp \left[\sum_{j=1}^m\sum_{i=1}^n v_i \cdot w_{ij} \cdot h_j + \sum_{i=1}^n b_i v_i + \sum_{j=1}^m c_j h_j\right] \end{aligned} P(X)=P(v,h)=Z1exp{E(h,v)}=Z1exp(vTWh+bTv+cTh)=Z1exp[j=1mi=1nviwijhj+i=1nbivi+j=1mcjhj]

推断任务——边缘概率求解

  • 受限玻尔兹曼机中,仅对观测变量 v v v的边缘概率分布进行求解。边缘概率 P ( v ) \mathcal P(v) P(v)本质上就是对联合概率分布关于隐变量 h h h的积分操作
    P ( v ) = ∑ h P ( v , h ) \mathcal P(v) = \sum_{h}\mathcal P(v,h) P(v)=hP(v,h)
  • 由于模型已知,即模型参数 W , b , c \mathcal W,b,c W,b,c是已知的。将上式沿 P ( v , h ) \mathcal P(v,h) P(v,h)展开:
    再写一遍~
    化简目标是:将 P ( v , h ) \mathcal P(v,h) P(v,h)中关于隐变量 h h h中的项积分掉,使其变为‘仅包含观测变量’ v v v的式子。
    P ( v ) = ∑ h [ 1 Z exp ⁡ ( ∑ j = 1 m ∑ i = 1 n v i ⋅ w i j ⋅ h j + ∑ i = 1 n b i v i + ∑ j = 1 m c j h j ) ] = ∑ h 1 , ⋯ ∑ h m [ 1 Z exp ⁡ ( ∑ j = 1 m ∑ i = 1 n v i ⋅ w i j ⋅ h j + ∑ i = 1 n b i v i + ∑ j = 1 m c j h j ) ] \begin{aligned} \mathcal P(v) & = \sum_{h} \left[\frac{1}{\mathcal Z} \exp \left(\sum_{j=1}^m\sum_{i=1}^n v_i \cdot w_{ij} \cdot h_j + \sum_{i=1}^n b_i v_i + \sum_{j=1}^m c_j h_j\right)\right] \\ & = \sum_{h_1},\cdots \sum_{h_m}\left[\frac{1}{\mathcal Z} \exp \left(\sum_{j=1}^m\sum_{i=1}^n v_i \cdot w_{ij} \cdot h_j + \sum_{i=1}^n b_i v_i + \sum_{j=1}^m c_j h_j\right)\right] \\ \end{aligned} P(v)=h[Z1exp(j=1mi=1nviwijhj+i=1nbivi+j=1mcjhj)]=h1,hm[Z1exp(j=1mi=1nviwijhj+i=1nbivi+j=1mcjhj)]
  • 观察上述中括号内的项,其中 1 Z , ∑ i = 1 n b i v i \frac{1}{\mathcal Z},\sum_{i=1}^n b_iv_i Z1,i=1nbivi与随机变量 h j ( j = 1 , 2 , ⋯   , m ) h_j(j=1,2,\cdots,m) hj(j=1,2,,m)无关;因而将它们提到公式前端:
    为了方便观看,将 v i ( i = 1 , 2 , ⋯   , n ) v_i(i=1,2,\cdots,n) vi(i=1,2,,n)的部分进行合并
    P ( v ) = 1 Z exp ⁡ ( b T v ) ⋅ ∑ h 1 , ⋯   , ∑ h m exp ⁡ { ∑ j = 1 m [ ( h j W j ) T v + c j h j ] } = 1 Z exp ⁡ ( b T v ) ⋅ ∑ h 1 , ⋯   , ∑ h m exp ⁡ { [ ( h 1 W 1 ) T v + c 1 h 1 ] + ⋯ + ( h m W m + c m h m ) T v } \begin{aligned} \mathcal P(v) & = \frac{1}{\mathcal Z} \exp (b^Tv) \cdot \sum_{h_1},\cdots,\sum_{h_m} \exp\left\{\sum_{j=1}^m \left[(h_j \mathcal W_j)^T v + c_jh_j\right]\right\} \\ & = \frac{1}{\mathcal Z} \exp (b^Tv) \cdot \sum_{h_1},\cdots,\sum_{h_m} \exp\left\{[(h_1\mathcal W_1)^Tv + c_1h_1] + \cdots + (h_m\mathcal W_m + c_mh_m)^Tv\right\} \end{aligned} P(v)=Z1exp(bTv)h1,,hmexp{j=1m[(hjWj)Tv+cjhj]}=Z1exp(bTv)h1,,hmexp{[(h1W1)Tv+c1h1]++(hmWm+cmhm)Tv}
    大括号第一项为例 ( h 1 W 1 ) T v + c 1 h 1 (h_1\mathcal W_1)^Tv + c_1h_1 (h1W1)Tv+c1h1中只和隐变量 h 1 h_1 h1相关,与其他隐变量无关。因此,上式可改写为:
    P ( v ) = 1 Z exp ⁡ ( b T v ) ⋅ { ∑ h 1 exp ⁡ [ ( h 1 W 1 ) T v + c 1 h 1 ] } ⋯ { ∑ h m exp ⁡ [ ( h m W m ) T v + c m h m ] } \mathcal P(v) = \frac{1}{\mathcal Z} \exp (b^Tv) \cdot \left \{\sum_{h_1} \exp [(h_1\mathcal W_1)^Tv + c_1h_1]\right\} \cdots \left \{\sum_{h_m} \exp [(h_m\mathcal W_m)^Tv + c_mh_m]\right\} P(v)=Z1exp(bTv){h1exp[(h1W1)Tv+c1h1]}{hmexp[(hmWm)Tv+cmhm]}
    由于 h j ( j = 1 , 2 , ⋯   , m ) ∈ { 0 , 1 } h_j(j=1,2,\cdots,m) \in \{0,1\} hj(j=1,2,,m){0,1},因此上式每个大括号中的项可继续展开,表示为如下形式。这里以第一项为例
    ∑ h 1 exp ⁡ [ ( h 1 W 1 ) T v + c 1 h 1 ] = ∑ h 1 ∈ { 0 , 1 } exp ⁡ [ ( h 1 W 1 ) T v + c 1 h 1 ] = exp ⁡ ( 0 ) + exp ⁡ ( W 1 T v + c 1 ) = 1 + exp ⁡ ( W 1 T v + c 1 ) \begin{aligned} \sum_{h_1} \exp [(h_1\mathcal W_1)^Tv + c_1h_1] & = \sum_{h_1 \in \{0,1\}}\exp [(h_1\mathcal W_1)^Tv + c_1h_1] \\ & = \exp(0) + \exp(\mathcal W_1^Tv + c_1) \\ & = 1 + \exp(\mathcal W_1^Tv + c_1) \end{aligned} h1exp[(h1W1)Tv+c1h1]=h1{0,1}exp[(h1W1)Tv+c1h1]=exp(0)+exp(W1Tv+c1)=1+exp(W1Tv+c1)
    对上式继续化简:
    1 + exp ⁡ ( W j T v + c j ) 1 + \exp(\mathcal W_j^Tv + c_j) 1+exp(WjTv+cj)进行变形,将 l o g log log函数引入,从而使 exp ⁡ , log ⁡ \exp,\log exp,log相互抵消。
    1 + exp ⁡ ( W j T v + c j ) = exp ⁡ { log ⁡ [ 1 + exp ⁡ ( W j T v + c j ) ] } j = 1 , 2 , ⋯   , m 1 + \exp(\mathcal W_j^Tv + c_j) = \exp \left \{\log [1 + \exp(\mathcal W_j^Tv + c_j)]\right\} \quad j=1,2,\cdots,m 1+exp(WjTv+cj)=exp{log[1+exp(WjTv+cj)]}j=1,2,,m
  • 因而原式 P ( v ) \mathcal P(v) P(v)有:
    P ( v ) = 1 Z exp ⁡ ( b T v ) ⋅ ∏ j = 1 m exp ⁡ { log ⁡ [ 1 + exp ⁡ ( W j T v + c j ) ] } \mathcal P(v) = \frac{1}{\mathcal Z} \exp (b^Tv) \cdot \prod_{j=1}^m \exp\left \{\log [1 + \exp(\mathcal W_j^Tv + c_j)]\right\} P(v)=Z1exp(bTv)j=1mexp{log[1+exp(WjTv+cj)]}
    e x p exp exp提出来,最终有:
    P ( v ) = 1 Z exp ⁡ { b T v + ∑ j = 1 m log ⁡ [ 1 + exp ⁡ ( W j T v + c j ) ] } \mathcal P(v) = \frac{1}{\mathcal Z} \exp \left\{b^Tv + \sum_{j=1}^m \log[1 + \exp(\mathcal W_j^T v + c_j)]\right\} P(v)=Z1exp{bTv+j=1mlog[1+exp(WjTv+cj)]}
    观测变量 v v v的边缘概率分布即为所求。

边缘概率与Softplus函数

观察上式中的 log ⁡ [ 1 + exp ⁡ ( W j T v + c j ) ] \log[1 + \exp(\mathcal W_j^T v + c_j)] log[1+exp(WjTv+cj)]部分,它实际上就是softplus的表现形式:
Softplus ( x ) = log ⁡ [ 1 + exp ⁡ ( x ) ] \text{Softplus}(x) = \log [1 + \exp(x)] Softplus(x)=log[1+exp(x)]
Softplus \text{Softplus} Softplus函数图像表示如下:
Softplus-Sigmoid函数图像
Softplus也是一种激活函数,它可看做是ReLU函数的平滑效果,其值域为 ( 0 , ∞ ) (0,\infty) (0,)(不含0)。并且不会像ReLU函数产生神经元挂掉情况。
并且更值得一提的属性是,Softplus函数的导数是Sigmoid函数:
∂  Softplus ( x ) ∂ x = exp ⁡ ( x ) exp ⁡ ( x ) + 1 = 1 1 + 1 exp ⁡ ( x ) = 1 1 + exp ⁡ ( − x ) \begin{aligned}\frac{\partial \text{ Softplus}(x)}{\partial x} & = \frac{\exp(x)}{\exp(x) + 1} \\ & = \frac{1}{1 + \frac{1}{\exp (x)}} \\ & = \frac{1}{1 + \exp(-x)} \end{aligned} x Softplus(x)=exp(x)+1exp(x)=1+exp(x)11=1+exp(x)1

因而上述公式可最终化简为:
W j \mathcal W_j Wj表示 W \mathcal W W矩阵第 j j j行的行向量。
P ( v ) = 1 Z exp ⁡ { b T v + ∑ j = 1 m Softplus ( W j T v + c j ) } \mathcal P(v) = \frac{1}{\mathcal Z} \exp \{b^Tv + \sum_{j=1}^m \text{Softplus}(\mathcal W_j^T v + c_j)\} P(v)=Z1exp{bTv+j=1mSoftplus(WjTv+cj)}

至此,受限玻尔兹曼机介绍结束(Learning问题的坑后续补)。下一节将介绍配分函数(Partition Function)。

相关参考:
机器学习-受限玻尔兹曼机(6)-模型推断(Inference)-边缘概率
速用笔记 | Sigmoid/Tanh/ReLu/Softplus 激活函数的图形、表达式、导数、适用条件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/63472.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

木聚糖-氨基|Xylan-NH2|木聚糖-聚乙二醇-氨基|氨基-PEG-木聚糖

木聚糖-氨基|Xylan-NH2|木聚糖-聚乙二醇-氨基|氨基-PEG-木聚糖 Xylan-NH2 木聚糖-氨基 中文名称:木聚糖-氨基 英文名称:Xylan-NH2 别称:氨基修饰木聚糖,氨基-木聚糖 PEG分子量可选:350、550、750、1k、2k、34k、5…

统计学-双变量相关分析-相关系数、相关比、克莱姆相关系数

双变量相关分析根据变量的数据类型不同而不同。当数值数据和数值数据计算相关性时,指标为相关系数;数值数据和类别数据计算相关性时,指标为相关比;类别数据和类别数据计算相关性时,指标为克里姆相关系数。 1 计算公式…

基于现代深度学习的目标检测方法综述

论文地址:A Survey of Modern Deep Learning based Object Detection Models 论文结构: 一、论文亮点(与其他综述不同): 1、深度分析了两类检测方法:单步和两步检测,并从历史的角度分析&…

【covid 时间序列】基于matlab GUI冠状病毒病例、死亡、疫苗接种仿真【含Matlab源码 2262期】

一、⛄SEIR模型简介 1 SEIR模型简介 如果所研究的传染病有一定的潜伏期,与病人接触过的健康人并不马上患病,而是成为病原体的携带者,归入 E 类。此时有: 仍有守恒关系 S(t) E(t) I(t) R(t) 常数,病死者可归入 R…

Vue3 快速入门及巩固基础

1. Vue 框架介绍 2. Vue3 安装方式 3. Vue3 模板语法 4. 组件的 data 属性 5. 计算属性和方法 6. 侦听器的使用 7. class 类名绑定对象 8. class 类名绑定数组 9. style 样式绑定对象 10. style 样式绑定数组 11. 条件渲染 v-if 和 v-show 12. 列表渲染 v-for 13. …

1,2-二苯基-1,2-二(4-苄溴基苯基)乙烯;TPE-MB结构式

中文名称:1,2-二苯基-1,2-二(4-苄溴基苯基)乙烯 中文同义词:1,2-双(4-(溴甲基)苯基)-1,2-二苯乙烯; 分子式:C28H22Br2 分子量:518.28 CAS:1053241-67-0 1,2-二苯基-1,2-二(4-苄溴基苯基)乙烯化学性质 沸点 :533.545.0 C(Predicted) 密度 &#xff…

医依通小程序项目总结

一、项目介绍: 这是一个医疗类的小程序,主要用于新冠疫苗预约,HPV疫苗预约,核酸预约,和咨询等,主要作用就是方便快捷,可以在手机上进行预约挂号,和一些健康自测的功能,还…

MySQL的零拷贝技术

1.需要了解Buffer 与 cache 的区别 Bbuffer 与 Cache 非常类似,因为它们都用于存储数据数据,被应用层读取字节数据。在很多场合它们有着相同的概念: 首先从翻译上,Buffer应该翻译为“缓冲”,Cache应该翻译为“缓存”&#xff0c…

高企技术企业对企业的作用

高新技术企业认定的作用 1、促进企业科技转型 创新是企业发展的根本动力,高新技术企业认定政策是一项引导政策,目的是引导企业调整产业结构,走自主创新、持续创新的发展道路,激发企业自主创新的热情,提高科技创新能力…

堆排序(大根堆与小根堆)

(1)是什么? 是一种适用于关键字较多的情况下的排序算法,例如在十亿个数中选出前1000个最大值或者最小值 如果在传统的排序算法中(例如冒泡,插入等),我们习惯把目标数据整体进行一次…

Cisco ASA应用——NAT的类型

作者简介:一名在校云计算网络运维学生、每天分享网络运维的学习经验、和学习笔记。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​​ 目录 前言 一.NAT的类型 1.动态NAT 2.静态NAT 3.静态PAT 4.动态PAT 前言…

爱奇艺:基于龙蜥与 Koordinator 在离线混部的实践解析

在 2022 云栖大会龙蜥峰会云原生专场上,来自爱奇艺的基础架构研究员赵慰分享了《基于龙蜥与 Koordinator 的在离线混部实践》技术演讲,以下为本次演讲内容: 一、爱奇艺离线业务混部背景 与众多互联网公司一样,爱奇艺常见的负载类…

WSN final fighting 12.05

0.网络时间协议(NTP) p54 1.Min-Max定位 p63 2.质心算法定位 p64 3.覆盖修复过程 p95 4.数据融合的卡尔曼滤波法 p72 5.数据融合的神经网络算法 p73 6.TMAC协议 p135 7.基于分分簇网络的MAC协议 p140 8.蓝牙协议 p170 9.GEM路由协议 p206 10.MECN路由协议 p206 11.阐…

INTERSPEECH 2022——基于层级上下文语义信息的多尺度语音合成风格建模

本文由清华大学与虎牙信息科技有限公司、元象唯思控股(深圳)有限公司和香港中文大学合作。 人类语音的风格表达是多尺度的,不仅包括全局尺度的情感表达,还包括局部尺度的韵律表达。 而现有关于表现力语音合成的工作只考虑了单一尺…

C++ 静态成员变量与静态成员函数

在C的类中&#xff0c;有静态成员变量和静态成员函数 #include <iostream> #include <string>using namespace std;class test { private:static int m_value; //定义类的静态成员变量public:static int getValue() //定义类的静态成员函数{return m_value;} };in…

Mybatis-Plus中的and和or用法

先看Mybatis-Plus官网中对这两个关键字用法的介绍 数据库文件&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1KzY32Jq0srDQU9m-a-YtBQ?pwdrsdg 提取码&#xff1a;rsdg 表数据&#xff1a; 比如我们想查age等于23并且school_id等于300的 sql语句为&#xff1a;select…

FL Studio 20音乐制作教程

FL Studio 20音乐制作教程 FL Studio 20 中的音乐制作 – 制作 3 首完整曲目 – 只需一天即可管理 FL Studio&#xff0c;音乐、混音和母带制作 课程英文名&#xff1a;FL Studio 20 Music Production In FL Studio for Mac & PC 此视频教程共20.0小时&#xff0c;中英双…

【C++11多线程】线程的创建、结束、传递参数

文章目录1.普通函数作为线程函数1.1 thread1.2 join()1.3 detach()1.4 joinable()2.函数对象作为线程函数3.lambda表达式作为线程函数4.类成员函数作为线程函数5.向线程函数传递参数1.普通函数作为线程函数 程序运行起来&#xff0c;生成一个进程&#xff0c;其中主线程从 mai…

毕业设计 基于单片机的地震探测器系统 - stm32 物联网 嵌入式

文章目录0 前言1 简介2 主要器件3 实现效果4 硬件设计3轴加速度计ADXL335ADXL335加速度计的工作原理电路图和连接5 部分核心代码最后0 前言 &#x1f525; 这两年开始毕业设计和毕业答辩的要求和难度不断提升&#xff0c;传统的毕设题目缺少创新和亮点&#xff0c;往往达不到毕…

[附源码]计算机毕业设计基于Springboot物品捎带系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…