模式识别与机器学习-半监督学习

news2024/12/26 21:19:05

模式识别与机器学习-半监督学习

  • 半监督学习
  • 半监督学习的三个假设
  • 半监督学习算法
    • 自学习算法
      • 自学习的步骤:
      • 自学习的优缺点:
        • 优点:
        • 缺点:
    • 协同训练
    • 多视角学习
    • 生成模型
    • 半监督SVM

谨以此博客作为复习期间的记录

半监督学习

半监督学习(Semi-Supervised Learning)是机器学习的一种范式,它利用同时包含标记(有标签)和未标记(无标签)数据的数据集来进行模型训练。相比于监督学习和无监督学习,半监督学习尝试结合已标记数据和未标记数据来提高模型的性能和泛化能力。

在半监督学习中,通常只有少部分数据被手动标记了标签,而大部分数据没有标签。其主要思想是利用未标记数据的潜在分布和结构,辅助模型在训练过程中更好地捕获数据的特征和规律。

半监督学习的常见方法和技术包括:

  1. 自训练(Self-training): 通过使用已标记数据训练初始模型,然后使用该模型对未标记数据进行预测,并将置信度高的预测结果添加到已标记数据中,反复迭代训练。

  2. 半监督支持向量机(Semi-Supervised Support Vector Machines): 在支持向量机中,通过在优化目标函数中添加未标记数据的信息,以利用未标记数据的特征。

  3. 图半监督学习(Graph-based Semi-Supervised Learning): 基于图的方法,利用数据之间的关系构建图模型,并通过图的传播或标签传递等方法来利用未标记数据。

  4. 生成式模型: 一些生成模型,如生成对抗网络(GANs)和变分自编码器(VAEs),也可以结合有监督和无监督信号来进行半监督学习。

半监督学习的优点和适用场景包括:

  • 利用未标记数据: 能够利用未标记数据提供的额外信息,提高模型性能和泛化能力。

  • 节省人力成本: 减少手动标记数据的成本,尤其在某些领域标记数据可能很昂贵或耗时。

半监督学习的三个假设

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

半监督学习算法

自学习算法

自学习(Self-training)是半监督学习中的一种常见方法,其核心思想是通过已标记数据训练一个初始模型,然后利用这个模型对未标记数据进行预测,并将高置信度的预测结果加入到已标记数据中,然后重新训练模型。这个过程会反复迭代进行,直至模型收敛或达到停止条件。

自学习的步骤:

  1. 初始化模型: 使用少量的有标签数据训练一个初始模型。

  2. 预测未标记数据: 利用这个初始模型对未标记数据进行预测,得到它们的预测标签。

  3. 置信度筛选: 选取置信度较高的预测标签,并将这些样本标记为新的有标签数据。

  4. 模型更新: 将新标记的数据加入到已标记数据中,重新训练模型。

  5. 迭代训练: 重复以上步骤,直到满足停止条件(如达到最大迭代次数、模型收敛等)。

自学习的优缺点:

优点:
  • 充分利用未标记数据: 利用了未标记数据的信息,可以增加模型的训练样本量,提高模型的性能和泛化能力。

  • 简单易实现: 自学习算法相对简单,并且易于实现。

缺点:
  • 标签传播风险: 自学习可能将预测错误的标签加入到已标记数据中,会带入噪声和错误信息,导致模型性能下降。

  • 标签偏向性: 初始标签偏差会在迭代中逐步放大,可能导致模型偏向于初始标签。

  • 忽略数据不确定性: 忽略了模型对于预测的不确定性,可能导致未标记数据预测的不准确性。

在实际应用中,自学习算法可以在数据标记成本较高或标记数据较少的情况下起到一定的作用,但需要小心处理预测置信度和不确定性,以及监督信息的传播风险。

协同训练

和最近大火的多模态有点相似。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

多视角学习

多视角学习(Multi-view Learning)是一种利用多个视角或多个数据来源进行学习的方法,旨在提高模型的鲁棒性和泛化能力。这些不同视角可以是来自不同传感器、不同特征提取方式或不同数据来源等。

在这里插入图片描述

生成模型

在传统机器学习任务中,生成模型(如高斯混合模型 GMM)通常只利用有标签的样本数据,通过对有标签样本的联合概率进行建模和估计。其目标是最大化有标签样本的似然概率或联合概率,以学习数据的分布和模式。

然而,在半监督学习中,除了利用有标签样本的信息,还可以充分利用未标记数据的信息来提高模型的性能和泛化能力。半监督学习中的生成模型通常通过结合有标签数据和未标记数据来进行建模。学习目标可以最大化有标签样本和无标签样本的似然概率或联合概率,如下图所示。
由于学习目标的不同,生成的决策边界也有所不同,黑色的点是有标注样本,蓝色的点是无标注训练数据。结合了无标注训练数据生成的概率分布要更加贴合数据情况。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

半监督SVM

半监督支持向量机(Semi-Supervised Support Vector Machines,S3VM)是支持向量机(SVM)的一种扩展形式,用于半监督学习问题。S3VM结合了有标签数据和未标签数据,旨在提高模型的泛化能力和性能。

通常,标准的支持向量机(SVM)只使用有标签的数据进行训练,但在半监督学习中,S3VM允许利用未标记数据来辅助训练模型,以改善模型的泛化能力。S3VM尝试找到一个最优的超平面或决策边界,同时考虑有标签数据和未标记数据。其核心思想是最大化所有数据的间隔,而不仅仅是有标注数据的间隔。下图蓝色虚线是只使用有标注数据训练得出的分割间隔,红色实线是结合无标注数据得到的间隔。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1352291.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

儿童可以戴骨传导耳机吗?骨传导耳机对儿童有危害吗?

儿童是可以佩戴骨传导耳机的,相比于传统的入耳式蓝牙耳机,佩戴骨传导耳机要更健康一些。 首先骨传导耳机通过人体骨骼来传递声音,不经过耳道和耳膜,所以对听力的损伤较小,而且由于儿童还处于发育期,耳道和耳…

Java多线程技术9——非阻塞队列

1 概述 非阻塞队列的特色是队列里面没有数据时,返回异常或null。在JDK的并发包中,常见的非阻塞队列有:ConcurrentHashMap、ConcurrentSkipListMap、ConcurrentSkipListSet、ConcurrentLinkedQueue、ConcurrentLinkedDeque、CopyOnWriteArrayL…

代码随想录算法训练营Day16 | 654.最大二叉树、617.合并二叉树、700.二叉搜索树中的搜索、98.验证二叉搜索树

LeetCode 654 最大二叉树 本题思路:我们可以看到每次其实这个找最大值,然后创建节点的过程就是一个二叉树的前序遍历的过程。所以,我们可以递归来完成它。 先创找到数组中,最大的值的下标,然后创建根节点然后根据下标…

Jmeter二次开发实操问题汇总(JDK问题,jar包问题)

前提 之前写过一篇文章:https://qa-lsq.blog.csdn.net/article/details/119782694 只是简单尝试了一下生成一个随机手机号码。 但是如果在工作中一个实际场景要用的二次开发,可能会遇到一些问题。 比如这样一个场景: Mobile或者前端调用部分…

【数据结构】堆的实现及TOP-K问题

文章目录 前言1. 堆的概念及结构2. 堆的实现2.1 堆向上调整算法2.2 堆向下调整算法2.3 堆的创建2.4 堆的删除2.5 堆的常用接口代码实现 3. 堆的应用TOP-K问题 前言 在正式讲堆之前,我们要先来讲一下二叉树的顺序结构: 普通的二叉树是不适合用数组来存储…

Python 实现给 pdf 文件自动识别标题并增添大纲

一、背景: 客户方提供过来一个开放平台的pdf文档,文档里有几十个接口,没有大纲和目录可以定位到具体内容,了解整体的API功能,观看体验极度差劲,所以想使用Python代码自动解析pdf文档,给文档增添…

AntDB设计之CheckPoint——引言与功能简述

1.引言 数据库服务能力提升是一项系统性的工程,在不同的应用场景下,用户对于数据库各项能力的关注点也不同,如:读写延迟、吞吐量、扩展性、可靠性、可用性等等。国内不少数据库系统通过系统架构优化、硬件设备升级等方式&#xf…

【单片机 TB作品】节拍器,电子音乐节拍器,51单片机,Proteus仿真

节拍器的使用可以使练琴者正确掌握乐曲的速度,从而使音 乐练习达到事半功倍的效果。本课题基于单片机设计具有声光晋 示的电子乐器节拍器,充分利用单片机的定时和中断系统,通过 C语言程序设计,控制外部相关硬件电路,实现对音乐速,度 40~120次/分钟范围内连续可调,节拍114、 2/4…

Redis命令---Hash(哈希)篇 (超全)

目录 1.Redis Hmset 命令 - 同时将多个 field-value (域-值)对设置到哈希表 key 中。简介语法可用版本: > 2.0.0返回值: 如果命令执行成功,返回 OK 。 示例 2.Redis Hmget 命令 - 获取所有给定字段的值简介语法可用版本: > 2.0.0返回值: 一个包含多个给定字段…

Simple Facebook Sign-In

简单的Facebook登录为Android、iOS、Windows、Mac、通用Windows平台(UWP)和Unity制作的WebGL应用程序提供了基于OAuth 2.0的Facebook登录。 优点: ● 跨平台游戏和应用程序的跨平台用户身份验证 ● 无插件,无第三方库,无依赖● 对建筑规模没有影响 ● 客户端-服务器应…

PMP证书可以挂靠吗?

PMP证书不是国内的证书,挂靠不了呀,想挂靠,可以考软考/一建等,里面也有项目管理相关的证书。 PMP证书虽然不能挂靠,但是用处还是很大的,例如提升个人能力、薪资待遇,还有持证可享一些城市的福利…

kafka容灾演练的方案

背景 kafka可以通过MirrorMaker工具把集群的数据从一个集群同步到另一个集群,通过在另一个数据中心创建灾备集群的方式可以做到容灾的效果,但是如果我们不通过如此重量级的工具也想达到容灾演练的目的,可以怎么做呢 kafka简单容灾实现 当原kafka集群发…

计算机网络--作业

作业一 1、比较电路交换、报文交换和分组报文交换优缺点 电路交换 电路交换是以电路连接为目的的交换方式,通信之前要在通信双方之间建立一条被双方独占的物理通道(由通信双方之间的交换设备和链路逐段连接而成)。 优点: ①由于…

MyBatis学习一:快速入门

前言 公司要求没办法,前端也要了解一下后端知识,这里记录一下自己的学习 学习教程:黑马mybatis教程全套视频教程,2天Mybatis框架从入门到精通 文档: https://mybatis.net.cn/index.html MyBatis 快速入门&#xf…

HackTheBox - Medium - Linux - Bagel

Bagel 今天我开始了《Red Team Development and Operations A Practical Guide》的学习,保持学习,后面差不多到时机后就学CRTOⅡ Bagel 是一款中等难度的 Linux 机器,其特点是电子商店容易受到路径遍历攻击,通过该攻击可以获取应…

Tinker 环境下数据表的用法

如果我们要自己手动创建一个模型文件,最简单的方式是通过 make:model 来创建。 php artisan make:model Article 删除模型文件 rm app/Models/Article.php 创建模型的同时顺便创建数据库迁移 php artisan make:model Article -m Eloquent 表命名约定 在该文件中&am…

k8s中实现pod自动扩缩容

一、k8s应用自动扩缩容概述 1)背景: 在实际的业务场景中,我们经常会遇到某个服务需要扩容的场景(例如:测试对服务压测、电商平台秒杀、大促活动、或由于资源紧张、工作负载降低等都需要对服务实例数进行扩缩容操作&…

SD-WAN组网方式详解

企业网络的演进势不可挡,对于高效、可靠的网络连接需求日益增加。SD-WAN(软件定义广域网)作为一项创新的网络技术,备受企业青睐并得到广泛应用。SD-WAN提供了多种灵活的组网方式,以满足企业多样化的需求和不同的网络环…

AI实景无人直播创业项目:开启自动直播新时代,一部手机即可实现财富增长

在当今社会,直播已经成为了人们日常生活中不可或缺的一部分。无论是商家推广产品、明星互动粉丝还是普通人分享生活,直播已经渗透到了各行各业。然而,传统直播方式存在着一些不足之处,如需现场主持人操作、高昂的费用等。近年来&a…

亚信安慧AntDB数据库引领数字时代:数字驱动创新峰会主旨演讲深度解析

近日,庄严肃穆的数字驱动创新峰会在中国首都北京隆重召开,聚焦于探讨数据经济的创新前沿。在此次盛会中,备受瞩目的亚信安慧AntDB数据库荣幸受邀参与,该数据库的副总裁张桦以其深刻见解和卓越经验发表了引人瞩目的主旨演讲。 图1&…