Pattern Recognition:最大化高斯性准则

news2024/11/29 10:34:28

近日,清华大学、昆明理工大学、北京邮电大学联合在模式识别权威杂志 Pattern Recognition (IF 8.0) 上发表论文,报告了一种最大化高斯性 (Maximum Gaussianality) 的训练准则,用于对数据分布进行规整。

图片

分布规整与标准化流模型

我们知道数据的概率分布对如何选择模式识别算法至关重要。通常我们希望概率分布越简单越好,最好是高斯分布,这样就可以选择简单的模型对其进行建模,进而完成分类、生成等模式识别任务。例如在随机线性区分性分析 (Probabilistic LDA, PLDA),数据必须是服从一些协方差一致的一组高斯分布,且这些高斯分布的均值本身也是一个高斯分布。形象的理解,如下图所示。

图片

问题在于,现实应用中大部分数据都很复杂,这就必须用一个复杂的模型来建模。那么,有没有可能把一个复杂的分布映射成一个简单的分布呢?是有可能的,标准化流模型 (Normalization Flow, NF) 就是这样一个模型。它可以通过一串可逆映射把复杂分布映射到高斯分布,或反过来将高斯分布再映射回观察数据空间,如下图所示。

图片

NF模型的天然缺陷

NF模型训练采用最大似然准则 (Maximum Likelihood, ML),目的是使得隐空间的高斯分布映射回数据空间后在数据样本点处的概率最大。这一ML准则在数学上没有问题,但在实际应用中很容易陷入过拟合。这是因为训练数据是有限的,而NF模型可以非常灵活,总可以通过提高每个数据样本点处的概率密度来提高整体似然值。过拟合导致NF网络及相应的高斯隐空间并不能真正代表训练数据。如下图所示,基于左侧的数据学习得到了中间图所表示的高斯隐空间;对这一隐空间进行采样并映射回数据空间后得到了右图,可见隐空间所代表的分布与原始数据分布相差甚远。事实上,这一过拟合问题是ML准则用于训练连续数据模型时的天然缺陷,本质上是连续分布的概率密度函数在有限训练样本点上的无界性造成的。

图片

最大化高斯准则

为解决这一问题,本文提出一种基于最大高斯性的训练准则,不是通过ML实现隐空间的高斯化,而是直接优化隐空间分布的属性,使之满足高斯分布条件。文章选择高维高斯分布的两项主要属性作为训练的目标:一是高维高斯分布的大部分概率集中在一个高维球壳上,因此样本向量的长度基本相同;二是从高维高斯分布采样的任意两个随机样本接近正交。基于这两条属性,文章用高斯分布来分别近似采样的长度和采样间的余弦距离,进而得出衡量高斯性的两个准则

图片

图片

MG准则用于说话人向量规整

MG是一个通用的训练准则,可对任何数据做正规化。作为例子,文章将MG准则应用于说话人识别,取得了明显的性能提升。当前说话人识别依赖神经网络提取说话人向量,归因于神经网络的灵活性,说话人向量的分布不受约束(下图左),这对后端打分带来很大压力。采用MG准则对类间分布和类内分布分别做高斯化,可使得说话人向量更规整(下图右),从而有利于对说话人的辨识。

图片

论文地址

Yunqi Cai, Lantian Li, Andrew Abel, Xiaoyan Zhu, Dong Wang. Maximum Gaussianality training for deep speaker vector normalization[J]. Pattern Recognition, 2024, 145:109977.

https://www.sciencedirect.com/science/article/abs/pii/S0031320323006751

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1166161.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电视「沉浮录」:跌出家电“三大件”?

【潮汐商业评论/原创】 “这年头谁还看电视,家里电视近一年都没打开过了,我明天就打算把它二手卖掉。”想到已落灰许久的电视机,Andy打开了二手平台。 “要不是这几年孩子网课多,我是真没考虑换新电视,家里用了8年的…

阿里云双11服务器返现活动来了

大家好,我是彭涛! 阿里云双11活动,我成为了阿里云推广大使,从阿里云朋友哪儿搞了阿里云福利。 以前:给大家搞的 1c1g 的服务,太难了,今年没办法弄了! 今年:新用户 99元…

S32K312 ITCM代码使用示例

在上一篇文章中,介绍了S32K312 DTCM在代码中使用示例,具体可以参考配置文件的编辑,本文主要介绍ITCM的代码使用和调试。ITCM是将功能代码放到了高速缓存中,一方面频繁调用的函数可以快速访问,提高效率;另一…

Talk | CoRL 2023 Oral 上海交通大学迮炎杰:通用机器人操作的视觉表征

本期为TechBeat人工智能社区第543期线上Talk! 北京时间11月02日(周四)20:00,上海交通大学—迮炎杰的Talk已准时在TechBeat人工智能社区开播! 他与大家分享的主题是: “通用机器人操作的视觉表征”,他分享他们团队在进一步拓展能够…

【EC800M 】 模组测试 定位+短信+mqtt功能 AT 指令测试

本博文主要记录,利用 EC800M 模组测试 定位短信mqtt功能,采用物联网SIM卡测试 【EC800M 】 模组测试 定位短信mqtt功能 AT 指令测试 1. 【测试定位功能】2. 【测试4g功能】3. 测试mqtt功能3.1 发布消息3.2 订阅消息 硬件请参考: EC800X核心板…

uniapp-微信公众号之微信支付流程

文章目录 支付前置条件微信支付流程关键代码一、获取微信用户唯一标识openId第一步:用户同意授权,获取code第二步:通过code换取网页授权access_token第三步:通过access_token获取用户的openId 一、微信公众号支付第一步&#xff1…

在云栖,一场关于数据洞察的创新实践

云布道师 数据驱动创新创新鉴于未来。做好数据洞察,是鉴往知来的必备条件。阿里云将携手广大开发者,进一步完善相关技术和工具,提供更好的产品和方案,让数据洞察的应用更加广泛和深入。 2023 年 11 月 2 日,是为期三…

LeetCode | 203. 移除链表元素

LeetCode | 203. 移除链表元素 OJ链接 这里有两个思路我接下来看 当cur不等于6就一直找,找到了6就删除,但是能不能直接删除?不能,直接free了就找不到下一个了 这个时候我们就要定义next指针,和prev指针&#xff0c…

【Unity细节】论复合函数在Start生命周期中的调用顺序和时间

👨‍💻个人主页:元宇宙-秩沅 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 本文由 秩沅 原创 😶‍🌫️收录于专栏:unity细节和bug 😶‍🌫️优质专栏 ⭐【…

Websocket @ServerEndpoint不能注入@Autowired

在websocket中使用ServerEndpoint无法注入Autowired、Value 问题分析 Spring管理采用单例模式(singleton),而 WebSocket 是多对象的,即每个客户端对应后台的一个 WebSocket 对象,也可以理解成 new 了一个 WebSocket&…

【希赛网】软考高级系统架构每日一题总结

目录 前言基础知识知识产权与标准化软件开发软件工程软件测试架构质量属性质量评估 数据库计算机网络嵌入式信息系统系统配置与性能评价系统安全分析与设计操作系统数学 前言 为了准备软考高级,考前20天刷大量希赛网每日一题,以下题目都来自希赛网~ 总…

Spring cloud负载均衡 @LoadBalanced注解原理

接上一篇文章,案例代码也在上一篇文章的基础上。 在上一篇文章的案例中,我们创建了作为Eureka server的Eureka注册中心服务、作为Eureka client的userservice、orderservice。 orderservice引入RestTemplate,加入了LoadBalanced注解&#x…

新时代备考利器 | 国考路上的得力助手,拓世AI为你打造智能学习之路!

随着人工智能(AI)和大数据时代的到来,其影响已经全面席卷全球,对于人才的需求和培养提出了全新的挑战和要求。这股潮流推动着教育领域逐步迎来深刻的改革和变革,旨在培养适应未来社会发展需求的多元化人才。同时&#…

react+canvas实现横跨整个页面的动态的波浪线(贝塞尔曲线)

本来写这个特效 我打算用css实现的,结果是一波三折,我太难了,最终没能用css实现,转战了canvas来实现。来吧先看效果图 当然这个图的波浪高度、频率、位置、速度都是可调的,请根据自己的需求调整,如果你讲波…

Spring Data Redis + RabbitMQ - 基于 string 实现缓存、计数功能(同步数据)

目录 一、Spring Data Redis 1.1、缓存功能 1.1.1、分析 1.1.2、案例实现 1.1.3、效果演示 1.2、计数功能(Redis RabbitMQ) 1.2.1、分析 1.2.2、案例实现 一、Spring Data Redis 1.1、缓存功能 1.1.1、分析 使用 redis 作为缓存, M…

EEG公开数据集介绍

EEG公开数据集介绍 0 引言1 项目简单介绍1.1 运动想象1.2 情绪识别1.3 误差相关电位 (ErrP)1.4 视觉诱发电位 (VEP)1.5 事件相关电位 [ERP]1.6 慢皮质电位 (SCP)1.7 静息状态1.8 音乐和脑电图1.9 眨眼/运动…

ruby语言怎么写个通用爬虫程序?

Ruby语言爬虫是指使用Ruby编写的网络爬虫程序,用于自动化地从互联网上获取数据。其中,CRawler是一个基于文本的小型地牢爬虫,它被设计为可扩展,所有游戏数据均通过JSON文件提供,程序仅处理游戏引擎。除此之外&#xff…

企业服务器数据库中了mkp勒索病毒怎么解决,勒索病毒解密数据恢复

在近期,云天数据恢复中心陆续接到很多企业的求助,企业的服务器数据库遭到了勒索病毒攻击,导致企业的所有重要数据被加密。尤其是从10月份以来,勒索病毒的攻击频率越来越高,有很多企业都是二次被攻击,尤其是…

视频特效制作After Effects 2024 for Mac(ae)

After Effects 2024是一款由Adobe公司开发的专业的视频特效和动态图形设计软件,它可以帮助用户创建各种令人惊叹的视觉效果,例如粒子系统、合成特效、绿屏抠像等。该软件支持动画制作,包括关键帧动画、形状动画、运动跟踪等工具,可…

高浓度cod废水怎么处理

高浓度COD废水的处理方法主要有物理法、生物法和化学法。 物理法:一般通过加入絮凝剂,利用絮凝剂的吸附、电中和等作用将水中的颗粒物结团沉降下去,从而达到去除部分来自颗粒物的COD。此方法基本上只对浓度上万、上千的COD起作用&#xff0c…