概率有向图模型(一)

news2024/11/14 6:06:43

文章目录

  • 前言
  • 概率有向图模型
  • 验证
  • 回到书中
    • 隐马尔可夫模型
    • 信念网络
    • 朴素贝耶斯
  • 总结

前言

经过前面的复习,我们把李航老师的《统计学习方法》中的监督学习部分回顾了一遍,接下来我们在此基础上,开始学习邱锡鹏老师的《神经网络与深度学习》,其中内容略有拔高,不过好在邱锡鹏老师讲解很细致,阴阳互补,循序渐进。

概率有向图模型

概率有向图模型就是用有向图来表示联合概率分布。概率无向图使用无向图来表示联合概率分布。他们惟一的区别就在于条件概率的计算公式不同。因为概率无向图的条件概率的化简公式使用了马尔可夫性相关关系+贝耶斯公式,而概率有向图中条件概率的化简公式使用了因果关系条件独立性+贝耶斯公式。可以简单理解为在马尔可夫相关性的基础上加上了方向,把条件概率局限在了单方向,比如说:如果 x x x y y y只是相关关系,那么 P ( x ∣ y ) P(x|y) P(xy) P ( y ∣ x ) P(y|x) P(yx)都存在,现在限制为因果关系: x → y x\to y xy x x x为因, y y y为果,所以现在只存在 P ( y ∣ x ) P(y|x) P(yx)

验证

我们还是直接画个图进行验证。注意概率有向图必须要是有向无环图。
有向无环图
注意为了确保其中每个条件概率都是存在的,我们需要从起点开始,然后逐层的相乘。从图中可以看出: ( A , E ) → ( B ) → ( D ) → ( C ) (A,E)\to (B)\to (D)\to (C) (A,E)(B)(D)(C)的层级结构,至于如何看出这样的层次结构我想应该是《图论》中的相关知识吧。
P ( A , B , C , D , E ) = P ( A ) P ( E ∣ A ) P ( B ∣ E , A ) P ( D ∣ A , E , B ) P ( C ∣ A , B , D , E ) = P ( A ) P ( E ∣ A ) P ( B ∣ E , A ) P ( D ∣ B , E ) P ( C ∣ B , D ) \begin{align*} P(A,B,C,D,E)=&P(A)P(E|A)P(B|E,A)P(D|A,E,B)P(C|A,B,D,E)\\ =& P(A)P(E|A)P(B|E,A)P(D|B,E)P(C|B,D)\\ \end{align*} P(A,B,C,D,E)==P(A)P(EA)P(BE,A)P(DA,E,B)P(CA,B,D,E)P(A)P(EA)P(BE,A)P(DB,E)P(CB,D)

在有向概率图模型中我们可以总结出条件概率的化简公式:

  • 条件中有相邻原因点集的可以化简到只剩相邻原因点
  • 所有起点应该作为联合概率分布分解公式中的一个团来计算,就比如上面的 P ( A , E ) P(A,E) P(A,E)

这样的话从结果上来说就是亲父子才会被化为一个团来作为分解中的一个因子
他跟概率无向图中联合概率的计算公式不同之处在于,概率有向图分解必须严格按照层级,而概率无向图可以不按照顺序

回到书中

上述规律就跟书中局部马尔可夫性质对应起来了:“每个 随机变量在给定父节点的情况下,条件独立于它的非后代节点”。

隐马尔可夫模型

根据隐马尔可夫模型的定义,我们可以给出以下示例:
隐马尔可夫模型
其中状态序列为 S 1 , S 2 , S 3 , S 4 S_1,S_2,S_3,S_4 S1,S2,S3,S4,观测序列为 V 1 , V 2 , V 3 , V 4 V_1,V_2,V_3,V_4 V1,V2,V3,V4,从中可以看出这是一个有方向的因果关系概率有向图。首先分析层级图: ( S 1 ) → ( V 1 , S 2 ) → ( V 2 , S 3 ) → ( V 3 , S 4 ) → ( V 4 ) (S_1)\to (V_1,S_2)\to (V_2,S_3)\to (V_3,S_4)\to (V_4) (S1)(V1,S2)(V2,S3)(V3,S4)(V4)它的联合概率分布为:
P ( S 1 , ⋯   , S 4 , V 1 , ⋯   , V 4 ) = P ( S 1 ) P ( V 1 ∣ S 1 ) P ( S 2 ∣ S 1 , V 1 ) P ( V 2 ∣ S 1 , V 1 , S 2 ) P ( S 3 ∣ S 1 , V 1 , S 2 , V 2 ) P ( V 3 ∣ S 1 , V 1 , S 2 , V 2 , S 3 ) P ( S 4 ∣ S 1 , V 1 , S 2 , V 2 , S 3 , V 3 ) P ( V 4 ∣ S 1 , V 1 , S 2 , V 2 , S 3 , V 3 , S 4 ) = P ( S 1 ) P ( V 1 , S 2 ∣ S 1 ) P ( V 2 , S 3 ∣ S 1 , V 1 , S 2 ) P ( V 3 , S 4 ∣ S 1 , V 1 , S 2 , V 2 , S 3 ) P ( V 4 ∣ S 1 , V 1 , S 2 , V 2 , S 3 , V 3 , S 4 ) = P ( S 1 ) P ( V 1 , S 2 ∣ S 1 ) P ( V 2 , S 3 ∣ S 2 ) P ( V 3 , S 4 ∣ S 3 ) P ( V 4 ∣ S 4 ) \begin{align*} P(S_1,\cdots,S_4,V_1,\cdots,V_4)=&P(S_1)P(V_1|S_1)P(S_2|S_1,V_1)P(V_2|S_1,V_1,S_2)P(S_3|S_1,V_1,S_2,V_2)P(V_3|S_1,V_1,S_2,V_2,S_3)P(S_4|S_1,V_1,S_2,V_2,S_3,V_3)P(V_4|S_1,V_1,S_2,V_2,S_3,V_3,S_4)\\ =&P(S_1)P(V_1,S_2|S_1)P(V_2,S_3|S_1,V_1,S_2)P(V_3,S_4|S_1,V_1,S_2,V_2,S_3)P(V_4|S_1,V_1,S_2,V_2,S_3,V_3,S_4)\\ =&P(S_1)P(V_1,S_2|S_1)P(V_2,S_3|S_2)P(V_3,S_4|S_3)P(V_4|S_4)\\ \end{align*} P(S1,,S4,V1,,V4)===P(S1)P(V1S1)P(S2S1,V1)P(V2S1,V1,S2)P(S3S1,V1,S2,V2)P(V3S1,V1,S2,V2,S3)P(S4S1,V1,S2,V2,S3,V3)P(V4S1,V1,S2,V2,S3,V3,S4)P(S1)P(V1,S2S1)P(V2,S3S1,V1,S2)P(V3,S4S1,V1,S2,V2,S3)P(V4S1,V1,S2,V2,S3,V3,S4)P(S1)P(V1,S2S1)P(V2,S3S2)P(V3,S4S3)P(V4S4)
根据上面分析的父子关系,其实也就是隐马尔可夫模型中说到的后一个状态只依赖于前一个状态,当前观测只依赖与当前状态的另一种等价表达。

这也从另一个角度解开了我心中的疑惑,为什么当时隐马尔可夫模型的联合概率分布的分解要满足那样的要求,其实是从条件独立出发所得来的。孰途同归。

仔细观察上式也是父子团,我们还可以进一步分解为《统计学习方法》中所示的联合概率分布的计算公式。
P = P ( S 1 ) P ( V 1 ∣ S 1 ) P ( S 2 ∣ S 1 ) P ( V 2 ∣ S 2 ) P ( S 3 ∣ S 2 ) P ( V 3 ∣ S 3 ) P ( S 4 ∣ S 3 ) P ( V 4 ∣ S 4 ) P=P(S_1)P(V_1|S_1)P(S_2|S_1)P(V_2|S_2)P(S_3|S_2)P(V_3|S_3)P(S_4|S_3)P(V_4|S_4) P=P(S1)P(V1S1)P(S2S1)P(V2S2)P(S3S2)P(V3S3)P(S4S3)P(V4S4)
其中 P ( S 1 ) P(S_1) P(S1)就是初始状态概率, P ( V 1 ∣ S 1 ) P(V_1|S_1) P(V1S1)就是观测概率, P ( S 2 ∣ S 1 ) P(S_2|S_1) P(S2S1)就是状态转移概率,又相互印证了。

信念网络

要想分析信念网络我们需要先回顾一下。
借助于隐马尔可夫模型的分析,我们可以发现联合概率分布可以分解为一个个因子团的乘积,而每个因子团的变量其实就是父子变量。比如上面的 P ( V 1 , S 2 ∣ S 1 ) P(V_1,S_2|S_1) P(V1,S2S1)我们完全可以使用一个三元函数 f ( S 1 , V 1 , S 2 ) f(S_1,V_1,S_2) f(S1,V1,S2)来表示,同时为了保持为正数,我们可以取指数函数, exp ⁡ ( f ( S 1 , V 1 , S 2 ) ) \exp(f(S_1,V_1,S_2)) exp(f(S1,V1,S2)),换言之,父子团中变量就是函数中的变量。我们现在可以开始分析信念网络了。
书中写道信念网络的父子团条件概率为:
P ( x k = 1 ∣ N x k ) = σ ( θ 0 + ∑ x i ∈ N x k θ i x i ) P(x_k=1|N_{x_k})=\sigma(\theta_0+\sum_{x_i\in N_{x_k}}\theta_i x_i) P(xk=1∣Nxk)=σ(θ0+xiNxkθixi)

我们看到上面是对于 x k = 1 x_k=1 xk=1的概率,我们可以套用sigmoid函数的定义,求出 x k = 0 x_k=0 xk=0的概率。
P ( x k = 0 ∣ N x k ) = 1 − σ ( θ 0 + ∑ x i ∈ N x k θ i x i ) = 1 − 1 1 + exp ⁡ ( − ( θ 0 + ∑ x i ∈ N x k θ i x i ) ) = exp ⁡ ( − ( θ 0 + ∑ x i ∈ N x k θ i x i ) ) 1 + exp ⁡ ( − ( θ 0 + ∑ x i ∈ N x k θ i x i ) ) \begin{align*} P(x_k=0|N_{x_k})=&1-\sigma(\theta_0+\sum_{x_i\in N_{x_k}}\theta_i x_i)\\ =&1-\frac{1}{1+\exp(-(\theta_0+\sum_{x_i\in N_{x_k}}\theta_i x_i))}\\ =&\frac{\exp(-(\theta_0+\sum_{x_i\in N_{x_k}}\theta_i x_i))}{1+\exp(-(\theta_0+\sum_{x_i\in N_{x_k}}\theta_i x_i))}\\ \end{align*} P(xk=0∣Nxk)===1σ(θ0+xiNxkθixi)11+exp((θ0+xiNxkθixi))11+exp((θ0+xiNxkθixi))exp((θ0+xiNxkθixi))

我们再抽象一下,求 P ( x k ∣ N x k ) P(x_k|N_{x_k}) P(xkNxk)
P ( x k ∣ N x k ) = 1 ∗ x k + exp ⁡ ( − ( θ 0 + ∑ x i ∈ N x k θ i x i ) ) ∗ ( 1 − x k ) 1 + exp ⁡ ( − ( θ 0 + ∑ x i ∈ N x k θ i x i ) ) P(x_k|N_{x_k})=\frac{1*x_k+\exp(-(\theta_0+\sum_{x_i\in N_{x_k}}\theta_i x_i))*(1-x_k)}{1+\exp(-(\theta_0+\sum_{x_i\in N_{x_k}}\theta_i x_i))} P(xkNxk)=1+exp((θ0+xiNxkθixi))1xk+exp((θ0+xiNxkθixi))(1xk)

也就是说,这个条件概率跟 x k , N x k x_k,N_{x_k} xk,Nxk都有关系,也就是跟父子团都有关系,所以他也是是一个概率有向图。我们把这个关系画出来。
信念网络
回头来分析,其实这个网络并没有具体针对有几个父亲这种因果关系(隐马尔可夫模型说一个人有一个父亲),这个网络的作用是告诉我们可以用所有变量的线性函数来作为 f ( x k , N x k ) f(x_k,N_{x_k}) f(xk,Nxk),给我们提供了一个示例函数 exp ⁡ ( f ( x k , N x k ) ) = 1 ∗ x k + exp ⁡ ( − ( θ 0 + ∑ x i ∈ N x k θ i x i ) ) ∗ ( 1 − x k ) 1 + exp ⁡ ( − ( θ 0 + ∑ x i ∈ N x k θ i x i ) ) \exp(f(x_k,N_{x_k}))=\frac{1*x_k+\exp(-(\theta_0+\sum_{x_i\in N_{x_k}}\theta_i x_i))*(1-x_k)}{1+\exp(-(\theta_0+\sum_{x_i\in N_{x_k}}\theta_i x_i))} exp(f(xk,Nxk))=1+exp((θ0+xiNxkθixi))1xk+exp((θ0+xiNxkθixi))(1xk)
当然我们也可以不使用他社想的这种,我们可以设想另一种: exp ⁡ ( f ( x k , N x k ) ) = exp ⁡ ( θ 0 x k + b 0 + ∑ x i ∈ N x k θ i x i ) \exp(f(x_k,N_{x_k}))=\exp(\theta_0x_k+b_0+\sum_{x_i\in N_{x_k}}\theta_ix_i) exp(f(xk,Nxk))=exp(θ0xk+b0+xiNxkθixi)
当然如果你够狠,你也可以加入核技巧,让里面的 x k , N x k x_k,N_{x_k} xk,Nxk变个形式, exp ⁡ ( f ( x k , N x k ) ) = exp ⁡ ( θ 0 ϕ ( x k ) + b 0 + ∑ x i ∈ N x k θ i ϕ ( x i ) ) \exp(f(x_k,N_{x_k}))=\exp(\theta_0\phi(x_k)+b_0+\sum_{x_i\in N_{x_k}}\theta_i\phi(x_i)) exp(f(xk,Nxk))=exp(θ0ϕ(xk)+b0+xiNxkθiϕ(xi))

朴素贝耶斯

万万没想到竟然又回到了朴素贝耶斯,复习路上遇到的第一个拦路虎:贝耶斯估计这里,孰途同归。
朴素贝耶斯模型是基于条件独立性假设的,也就是 P ( x 1 , x 2 , ⋯   , x n ∣ y ) = P ( x 1 ∣ y ) ⋯ P ( x n ∣ y ) P(x_1,x_2,\cdots,x_n|y)=P(x_1|y)\cdots P(x_n|y) P(x1,x2,,xny)=P(x1y)P(xny),书中说也可以看成概率有向图。

总结

上面最后一个朴素贝耶斯又点拨到我了,原来概率有向图的判别方式有三种。第一种是从Gibbs分布的形式出发,满足 P ( x k ∣ N x k ) = f ( x k , N x k ) P(x_k|N_{x_k})=f(x_k,N_{x_k}) P(xkNxk)=f(xk,Nxk)的形式就可以说它的联合概率可以被认为是概率有向图;第二种是从文字表述形式出发,说明变量之间的依赖关系就像是隐马尔可夫模型那样,也是概率有向图;第三种就是从条件概率的条件独立性出发,直接给出条件概率相互独立的公式也是一个概率有向图。
芜湖,邱锡鹏老师真是润物细无声,孰途同归。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/985854.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

02_常见网络层协议的头结构

1.ARP报文的报文结构 ARP首部的5个字段的含义: 硬件类型:值为1表示以太网MAC地址。 协议类型:表示要映射的协议地址类型,0x0800 表示映射为IP地址。 硬件地址长度:在以太网ARP的请求和应答中都是6,表示M…

【LeetCode题目详解】第九章 动态规划part06 完全背的讲解 518. 零钱兑换 II 377. 组合总和 Ⅳ (day44补)

本文章代码以c为例! 动态规划:完全背包理论基础 思路 # 完全背包 有N件物品和一个最多能背重量为W的背包。第i件物品的重量是weight[i],得到的价值是value[i] 。每件物品都有无限个(也就是可以放入背包多次)&#…

QT QScrollArea控件 使用详解

本文详细的介绍了QScrollArea控件的各种操作,例如:新建界面、源文件、布局、进度条宽、进度条高、水平滚动条值、垂直滚动条值、移入事件、移出事件、效果图、其它文章等等操作。 实际开发中,一个界面上可能包含十几个控件,手动调…

Qt creator中项目的构建配置和运行设置

使用 Qt Creator 集成开发环境构建和运行程序是一件非常简单的事情,一个按钮或者一个快捷键搞定全部,大家已经都了解了。但是,这些看起来简单的过程,背后到底发生了什么呢? 点击 Qt Creator 项目模式,可以…

elasticsearch的DSL查询文档

DSL查询分类 查询所有:查询出所有数据,一般测试用。例如:match_all 全文检索(full text)查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配。例如: match_query multi_ma…

(源码版)2023 年高教社杯全国大学生数学建模竞赛-E 题 黄河水沙监测题一数据分析详解+Python代码

十分激动啊啊啊题目终于出来了!!官网6点就进去了结果直接卡死现在才拿到题目,我是打算A-E题全部做一遍。简单介绍一下我自己:博主专注建模四年,参与过大大小小数十来次数学建模,理解各类模型原理以及每种模…

50etf期权最多能开仓多少手?

50etf期权限仓限额的操作,是为了能更好防范和控制期权交易的风险,无论是期货还是期权,在交易中都有规定的持仓限额,不能超过某个额度,那么50etf期权最多能开仓多少手?下文为你们全面介绍!本文来…

2023高教社杯数学建模E题思路模型 - 黄河水沙监测数据分析

# 1 赛题 E 题 黄河水沙监测数据分析 黄河是中华民族的母亲河。研究黄河水沙通量的变化规律对沿黄流域的环境治理、气候变 化和人民生活的影响, 以及对优化黄河流域水资源分配、协调人地关系、调水调沙、防洪减灾 等方面都具有重要的理论指导意义。 附件 1 给出了位…

项目01—基于nignx+keepalived双vip的负载均衡高可用Web集群

文章目录 一.项目介绍1.拓扑图2.详细介绍 二.前期准备1.项目环境2.IP划分 三. 项目步骤1.ansible部署软件环境1.1 安装ansible环境1.2 建立免密通道1.3 批量部署nginx 2.配置NFS服务器和负载均衡器搭建keepalived2.1 修改nginx的index.html界面2.2 nginx实现七层负载均衡2.4 使…

[LeetCode]栈,队列相关题目(C语言实现)

文章目录 LeetCode20. 有效的括号LeetCode225. 用队列实现栈LeetCode232. 用栈实现队列LeetCode622. 设计循环队列 LeetCode20. 有效的括号 题目 给定一个只包括 (,),{,},[,] 的字符串 s ,判断字符串是否有…

【数据结构与算法系列4】长度最小的子数组

给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其总和大于等于 target 的长度最小的 连续子数组 [numsl, numsl1, ..., numsr-1, numsr] ,并返回其长度**。**如果不存在符合条件的子数组,返回 0 。 示例 1: 输入&…

读书笔记-《ON JAVA 中文版》-摘要24[第二十一章 数组]

文章目录 第二十一章 数组1. 数组特性2. 一等对象3. 返回数组4. 多维数组5. 泛型数组6. Arrays的fill方法7. Arrays的setAll方法8. 数组并行9. Arrays工具类10. 数组拷贝11. 数组比较12. 流和数组13. 数组排序14. binarySearch二分查找15. 本章小结 第二十一章 数组 1. 数组特…

【Spring面试】一、SpringBoot启动优化与Spring IoC

文章目录 Q1、SpringBoot可以同时处理多少请求Q2、SpringBoot如何优化启动速度Q3、谈谈对Spring的理解Q4、Spring的优缺点Q5、Spring IoC容器是什么?作用与优点?Q6、Spring IoC的实现机制是什么Q7、IoC和DI的区别是什么Q8、紧耦合与松耦合的区别&#xf…

算法训练day38|动态规划 part01(理论基础、LeetCode509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯)

文章目录 理论基础什么是动态规划动态规划的解题步骤 509. 斐波那契数思路分析代码实现思考总结 70. 爬楼梯思路分析代码实现思考总结 746. 使用最小花费爬楼梯思路分析代码实现 理论基础 什么是动态规划 动态规划,英文:Dynamic Programming&#xff0c…

【虚拟机开不了】linux、centOS虚拟机出现entering emergency mode解决方案

按他的操作输入journalctl之后输入shiftg到日志最后查看报错发现是xfs(dm-0有问题) xfs_repair -v -L /dev/dm-0 reboot解决问题

生信豆芽菜-XGboost构建诊断模型

网址:http://www.sxdyc.com/xgboostBuilds 1、准备数据 训练集表达谱数据 训练集样本分组数据 验证集表达谱数据 验证集样本分组数据 2、提交等待运行结果即可 当然,如果不清楚数据是什么样的,可以选择下载我们的示例数据&#…

PostMan传时间参数一次性发送多次请求

文章目录 1. Date类型的参数, "date": "2023-09-07 22:01:51"格式会报错2. 在Pre-request Script预置时间3. 使用postman一次性发送多次请求 1. Date类型的参数, “date”: "2023-09-07 22:01:51"格式会报错 2. 在Pre-req…

NumPy模块:Python科学计算神器之一

⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者:秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们点赞👍🏻、收藏⭐️、…

巨人互动|Google海外户Google分析的基础概念

Google Analytics(谷歌分析)是最受欢迎的网站分析工具之一。它为网站管理员提供了深入了解其网站访问者的机会,并通过数据分析提供有关网站流量、用户行为和转化率的洞察。 1、跟踪代码(Tracking Code) 跟踪代码是嵌入…

网络技术二十二:NATPPP

NAT 转换流程 产生背景 定义 分类 常用命令 PPP PPP会话建立过程 认证 PPP会话流程