深度学习中的结构化概率模型 - 结构化概率模型的深度学习方法篇

news2025/2/3 10:18:58

序言

在深度学习的广阔领域中,结构化概率模型( Structured Probabilistic Model \text{Structured Probabilistic Model} Structured Probabilistic Model)扮演着至关重要的角色。这类模型利用图论中的图结构来表示概率分布中随机变量之间的复杂关系,为处理高维、结构丰富的数据(如图像、语音、文本等)提供了强有力的工具。结构化概率模型不仅降低了表示概率分布所需的参数数量,还显著提升了模型的学习与推断效率,成为深度学习研究中的关键组成部分。

结构化概率模型的深度学习方法

  • 深度学习实践者通常使用与从事结构化概率模型研究的其它机器学习研究者相同的基本计算工具。然而,在深度学习中,我们通常对如何组合这些工具做出不同的设计,导致总体算法、模型与更传统的图模型具有非常不同的风格。

  • 深度学习并不总是涉及特别深的图模型知识。

    • 在图模型中,我们可以根据图模型的图而不是计算图来定义模型的深度。
    • 如果从潜变量 h i h_i hi 到可观察变量的最短路径是 j j j 步,我们可以认为潜变量 h j h_j hj 处于深度 j j j
    • 我们通常将模型的深度描述为任何这样的 h j h_j hj 的最大深度。
    • 这种深度不同于由计算图定义的深度。
    • 用于深度学习的许多生成模型没有潜变量或只有一层潜变量,但使用深度计算图来定义模型中的条件分布。
  • 深度学习基本上总是利用分布式表示的思想。即使是用于深度学习目的的浅层模型(例如预训练浅层模型,稍后将形成深层模型),也几乎总是具有单个大的潜变量层。 深度学习模型通常具有比可观察变量更多的潜变量。变量之间复杂的非线性相互作用通过多个潜变量的间接连接来实现。

  • 相比之下,传统的图模型通常包含至少是偶尔观察到的变量,即使一些训练样本中的许多变量随机地丢失。传统模型大多使用高阶项和结构学习来捕获变量之间复杂的非线性相互作用。如果有潜变量,它们通常数量很少。

  • 潜变量的设计方式在深度学习中也有所不同。

    • 深度学习实践者通常不希望潜变量提前包含了任何特定的含义——训练算法可以自由地开发对特定数据集建模所需要的概念。
    • 在事后解释潜变量通常是很困难的,但是可视化技术可以得到它们表示的一些粗略表征。
    • 当潜变量在传统图模型中使用时,它们通常被赋予具有一些特定含义——比如文档的主题、学生的智力、导致患者症状的疾病等。
    • 这些模型通常由研究者解释,并且通常具有更多的理论保证,但是不能扩展到复杂的问题,并且不能像深度模型一样在许多不同背景中重复使用。
  • 另一个明显的区别是深度学习方法中经常使用的连接类型。

    • 深度图模型通常具有大的与其他单元组全连接的单元组,使得两个组之间的相互作用可以由单个矩阵描述。
    • 传统的图模型具有非常少的连接,并且每个变量的连接选择可以单独设计。
    • 模型结构的设计与推断算法的选择紧密相关。
    • 图模型的传统方法通常旨在保持精确推断的可追踪性。
    • 当这个约束太强的时候,我们可以采用一种流行的被称为是环状信念传播 ( loopy belief propagation \text{loopy belief propagation} loopy belief propagation) 的近似推断算法。
    • 这两种方法通常在稀疏连通图上有很好的效果。
    • 相比之下,在深度学习中使用的模型倾向于将每个可见单元 v i \text{v}_i vi 连接到非常多的隐藏单元 h j \text{h}_j hj 上,从而使得 h \textbf{h} h 可以获得一个 v i \text{v}_i vi 的分布式表示(也可能是其他几个可观察变量)。
    • 分布式表示具有许多优点,但是从图模型和计算复杂性的观点来看,分布式表示有一个缺点就是对于精确推断和环状信念传播等传统技术来说很难使用不够稀疏的图。
    • 结果,大尺度图模型和深度图模型最大的区别之一就是深度学习中几乎从来不会使用环状信念传播。
    • 相反的,许多深度学习模型可以用来加速 Gibbs \text{Gibbs} Gibbs 采样或者变分推断。
    • 此外,深度学习模型包含了大量的潜变量,使得高效的数值计算代码显得格外重要。
    • 除了选择高级推断算法之外,这提供了另外的动机,用于将结点分组成层,相邻两层之间用一个矩阵来描述相互作用。
    • 这要求实现算法的单个步骤可以实现高效的矩阵乘积运算,或者专门适用于稀疏连接的操作,例如块对角矩阵乘积或卷积。
  • 最后,图模型的深度学习方法的一个主要特征在于对未知量的较高容忍度。

    • 与简化模型直到它的每一个量都可以被精确计算不同的是,我们仅仅直接使用数据运行或者是训练,以增强模型的威力。
    • 我们一般使用边缘分布不能计算但是可以简单从中采样的模型。
    • 我们经常训练具有难以处理的目标函数的模型,我们甚至不能在合理的时间内近似,但是如果我们能够高效地获得这样一个函数的梯度估计,我们仍然能够近似训练模型。
    • 深度学习方法通常是找出我们绝对需要的最小量信息,然后找出如何尽快得到该信息的合理近似。

受限玻尔兹曼机实例



  • RBM \text{RBM} RBM结构的限制产生了好的属性:
    p ( h ∣ v ) = ∏ i p ( h i ∣ v ) p(\textbf{h}\mid\textbf{v})=\prod\limits_i p(\text{h}_i\mid\text{v}) p(hv)=ip(hiv) — 公式2 \quad\textbf{---\footnotesize{公式2}} 2

  • 以及: p ( v ∣ h ) = ∏ i p ( v i ∣ h ) p(\textbf{v}\mid\textbf{h})= \prod\limits_i p(\text{v}_i\mid\textbf{h}) p(vh)=ip(vih) — 公式3 \quad\textbf{---\footnotesize{公式3}} 3

  • 独立的条件分布很容易计算。对于二元的受限玻尔兹曼机,我们可以得到:
    { p ( h i = 1 ∣ v ) = σ ( v ⊤ W : , i + b i ) — 公式4 p ( h i = 0 ∣ v ) = 1 − σ ( v ⊤ W : , i + b i ) — 公式5 \begin{cases}\begin{aligned} p(\text{h}_i=1\mid\textbf{v})&=\sigma(\textbf{v}^\top\boldsymbol{W}_{:,i}+b_i) &\quad\textbf{---\footnotesize{公式4}}\\ p(\text{h}_i=0\mid\textbf{v})&=1-\sigma(\textbf{v}^\top\boldsymbol{W}_{:,i}+b_i) &\quad\textbf{---\footnotesize{公式5}} \end{aligned} \end{cases} {p(hi=1v)p(hi=0v)=σ(vW:,i+bi)=1σ(vW:,i+bi)45

  • 结合这些属性可以得到高效的块吉布斯采样 ( block Gibbs Sampling \text{block Gibbs Sampling} block Gibbs Sampling),它在同时采样所有 h \boldsymbol{h} h 和同时采样所有 v \boldsymbol{v} v 之间交替。

    • RBM \text{RBM} RBM模型通过 Gibbs \text{Gibbs} Gibbs 采样产生的样本在图例2中。

  • 图例2: 训练好的 RBM \text{RBM} RBM样本及其权重。
    • 训练好的 RBM \text{RBM} RBM样本及其权重
      在这里插入图片描述

    • 说明:

      • (左)
        • MNIST \text{MNIST} MNIST 训练模型,然后用 Gibbs \text{Gibbs} Gibbs 采样进行采样。
        • 每一列是一个单独的 Gibbs \text{Gibbs} Gibbs 采样过程。
        • 每一行表示另一个 1000 步后 Gibbs \text{Gibbs} Gibbs 采样的输出。
        • 连续的样本之间彼此高度相关。
      • (右)
        • 对应的权重向量。
        • 将本图结果与线性因子模型 - 稀疏编码篇 - 图例1中描述的线性因子模型的样本和权重相比。
        • 由于 RBM \text{RBM} RBM的先验 p ( h ) p(\boldsymbol{h}) p(h) 没有限制为因子,这里的样本表现得更好。
        • 采样时 RBM \text{RBM} RBM能够学习到哪些特征需要一起出现。
        • 另一方面说, RBM \text{RBM} RBM后验 p ( h ∣ v ) p(\boldsymbol{h} \mid \boldsymbol{v}) p(hv) 是因子的,而稀疏编码的后验并不是,所以在特征提取上稀疏编码模型表现得更好。
        • 其他的模型可以使用非因子的 p ( h ) p(\boldsymbol{h}) p(h) 和非因子的 p ( h ∣ h ) p(\boldsymbol{h} \mid \boldsymbol{h}) p(hh)
        • 图片的复制经过 LISA (2008) \text{LISA (2008)} LISA (2008) 的允许。

  • 由于能量函数本身只是参数的线性函数,很容易获取能量函数的导数。例如,
    ∂ ∂ W i , j E ( v , h ) = − v i h j \frac{\partial}{\partial W_{i,j}}E(\textbf{v},\textbf{h})=-\text{v}_i\text{h}_j Wi,jE(v,h)=vihj — 公式6 \quad\textbf{---\footnotesize{公式6}} 6
  • 这两个属性,高效的 Gibbs \text{Gibbs} Gibbs 采样和导数计算,使训练过程非常方便。在后续篇章:面对配分函数中,我们将看到,可以通过计算应用于这种来自模型样本的导数来训练无向模型。
  • 训练模型可以得到数据 v \boldsymbol{v} v 的表示 h \boldsymbol{h} h。我们可以经常使用 E h ∼ p ( h ∣ v ) [ h ] \mathbb{E}_{\textbf{h}\sim p(\textbf{h}\mid\boldsymbol{v})}[\boldsymbol{h}] Ehp(hv)[h] 作为一组描述 v \boldsymbol{v} v 的特征。
  • 总的来说, RBM \text{RBM} RBM展示了典型的图模型深度学习方法:结合由矩阵参数化的层之间的高效相互作用通过多层潜变量完成表示学习。
  • 图模型的语言为描述概率模型提供了一种优雅、灵活、清晰的语言。在前面的章节中,我们使用这种语言,以其他视角来描述各种各样的深概率模型。

总结

深度学习中的结构化概率模型深度学习方法,通过构建复杂的图结构来捕捉变量间的非线性相互作用。这些方法不仅利用分布式表示的思想,还通过引入大量潜变量来增强模型的表达能力。与传统的图模型相比,深度学习模型在设计上更加灵活,能够处理更加复杂的问题。在深度学习中,模型的深度并非仅由计算图决定,而是根据图模型中潜变量到可观察变量的最短路径来定义。此外,深度学习模型还采用了高效的数值计算技术和优化算法,以加速模型的训练和推断过程。通过这些深度学习方法,结构化概率模型在图像识别、语音识别、自然语言处理等多个领域取得了显著进展,为人工智能的发展注入了新的活力。

往期内容回顾

应用数学与机器学习基础 - 概率与信息论篇
深度学习中的结构化概率模型 - 从图模型中采样篇
线性因子模型 - 稀疏编码篇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2191468.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

普渡PUDU MT1:AI赋能,破解大面积场景清洁新挑战

普渡AI智能扫地机器人PUDU MT1:破解大面积场景清洁难题的新利器 在仓储物流、工业车间、交通枢纽、大型商场等大面积场景中,清洁难题一直是管理者们头疼的问题。这些区域面积广阔,清洁任务繁重,传统清洁方式难以胜任。然而,普渡机器人最新推出的AI智能扫地机器人PUDU MT1…

【目标检测】工程机械车辆数据集2690张4类VOC+YOLO格式

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2694 标注数量(xml文件个数):2694 标注数量(txt文件个数):2694 标注…

付费计量系统数据元素(Data elements)

See also Clause 4 for a discussion on general concepts.Data elements are the instruments used to keep record of information on the status of the system and changes over time. 参见条目 4 关于一般概念的讨论。数据元素是仪器使用保留关于系统状态和随时间…

【Kubernetes】常见面试题汇总(四十五)

目录 102.使用 Kubernetes 时可以采取的最佳安全措施是什么? 103.什么是联合集群? 特别说明: 题目 1-68 属于【Kubernetes】的常规概念题,即 “ 汇总(一)~(二十二)” 。 题目…

1688商品详情关键词数据-API

要利用 Python 爬虫采集 1688 商品详情数据,需要先了解 1688 网站的页面结构和数据请求方式。一般使用 requests 库请求网站的数据,使用 BeautifulSoup 库解析网页中的数据。 以下是一个简单的 Python 爬虫采集 1688 商品详情数据的示例代码&#xff1a…

二、变量与基本类型

变量与基本类型 变量定义声明和使用 基本类型数字类型介绍运算算术运算符位运算符赋值运算符运算符优先级 布尔类型字符类型字符串类型 变量 定义 变量,指值可以变的量。变量以非数字的符号来表达,一般用拉丁字母。变量的用处在于能一般化描述指令的方式…

Java_Se 泛型

泛型基本概念: 泛型是JDK5.0以后增加的新特性。泛型的本质就是“数据类型的参数化”,处理的数据类型不是固定的,而是可以作为参数传入。我们可以把“泛型”理解为数据类型的一个占位符(类似:形式参数),即告诉编译器&am…

如何搭建自己的域名邮箱服务器?Poste.io邮箱服务器搭建教程,Linux+Docker搭建邮件服务器的教程

Linux系统Docker搭建Poste.io电子邮件服务器,搭建属于自己的域名邮箱服务器,可以无限收发电子邮件(Email)! 视频教程:https://www.bilibili.com/video/BV11p1mYaEpM/ 前言 什么是域名邮箱? …

【深度学习】— softmax回归、网络架构、softmax 运算、小批量样本的向量化、交叉熵

【深度学习】— softmax回归、网络架构、softmax 运算、小批量样本的向量化、交叉熵 3.4 Softmax 回归3.4.1 分类问题3.4.2 网络架构 3.4.3 全连接层的参数开销3.4.4 softmax 运算3.4.5 小批量样本的向量化3.4.6 损失函数对数似然softmax 的导数 3.4.7 信息论基础熵信息量重新审…

MySQL 和 Elasticsearch 的应用场景

MySQL 和 Elasticsearch 的应用场景 一、MySQL 关系型数据库管理系统,用于存储和管理结构化数据。 存储数据场景: 企业的财务系统、人力资源系统等,需要存储和管理具有明确关系的数据,如员工信息表、工资表等,这些表…

一阶差分模板的频率响应

一阶差分模板不同于二阶差分模板,它是一个奇对称的模板,傅里叶变换是纯虚数,无法用图形直接显示傅里叶变换,只能显示幅值谱。 冈萨雷斯的这个图我一直很好奇是怎么显示的,也没有坐标轴标出变量表示。 如今终于想明白…

基于Es的分词查询通过高亮效果实现前端高亮显示!!!!

引言: 经常我们在浏览器界面搜索关键词的时候,浏览器返回给我们的页面都是高亮显示关键词的效果, 如下: 我们要简单实现这个效果很简单,可以通过多种办法,这里通过Es 的高亮效果实现给我们关键字字段加自…

FRP搭建内网穿透:云服务端 + 家用Linux/Windows主机【2024】

介绍 FRP是一个可以自己搭建内网穿透服务的开源项目,开源地址直达: FRP-GitHub 实际上frp由两个程序组成 ①frps:在服务端运行的程序 ②frpc:在客户端运行的程序 运作方式示意图如下 服务端 因为服务上使用了1Panel面板,直接在应用商店安…

每日一题|134. 加油站|循环数组单次遍历

本题题目比较绕,理解了之后发现就是给一个一维数组表示余量,找出能够首尾相连且后构成每个位置处的累积和都是正数的索引。 首先,根据cost和gas相减,确定每个位置出发去下一个位置所剩余的gas。 这里可以直接统计全部的余量和&…

【德国EnMAP高光谱卫星】

德国EnMAP(Environmental Mapping and Analysis Program)高光谱卫星是德国在地球观测领域的一项重要成就,以下是对该卫星的详细介绍: 一、基本信息 发射时间:2022年4月1日研发机构:由德国航空航天中心&a…

【多模态项目实战】-模态表示:基于对应表示的跨模态检索(图文互搜)

【多模态项目实战】-模态表示:基于对应表示的跨模态检索 文章目录 【多模态项目实战】-模态表示:基于对应表示的跨模态检索1.任务介绍2.跨模态检索技术简介3.模型训练流程3.1读取数据1)下载数据集🚀2)整理数据集3)定义数据集类4)批量读取数据…

zutilo不支持zotero7,zotero7实现复制条目链接方法。

更新zotero7后原来的zutilo插件失效了,为其中复制条目链接这个功能修改了一个脚本,仅粘贴链接,无标题。 {"translatorID": "2de2b1a5-5725-494c-9224-5781cdf9b7ef","label": "Markdown ZotSelect"…

读数据湖仓08数据架构的演化

1. 数据目录 1.1. 需要将分析基础设施放置在数据目录(Data Catalogue)的结构中 1.1.1. 元数据 1.1.2. 数据模型 1.1.3. 本体 1.1.4. 分类标准 1.2. 数据目录类似于图书馆的图书检索目录 1.2.1. 先通过图书馆的图书检索目录进行查找,以便快速找到所需的图书 1…

《深度学习》OpenCV 摄像头OCR 过程及案例解析

目录 一、摄像头OCR 1、含义 2、一般操作步骤 1)安装OpenCV库 2)设置摄像头 3)图像采集 4)图像预处理 5)文本识别 6)文本处理 7)结果显示 二、案例实现 1、定义展示图像函数 2、定…

CANoe_TestModule截图功能TestReportAddWindowCapture

前言 TestReportAddWindowCapture方法作为CAPL脚本中的一个重要功能,其能够将指定窗口的屏幕截图添加到测试报告中,对于记录和验证界面状态具有重要意义。本文将全面解析TestReportAddWindowCapture方法的使用方法、参数解释、示例应用以及注意事项&…