半监督学习介绍(为什么半监督学习是机器学习的未来)

news2025/1/12 23:45:23

文章目录

  • 半监督学习的好处
  • 半监督学习原理
  • 半监督范式
  • 总结

半监督学习是一种利用标记和未标记数据的机器学习方法。半监督学习的目标是结合监督学习和无监督学习的优点;利用标记数据的准确性以及未标记数据的丰富性和较低成本。半监督学习可以被认为是 监督学习(利用标记数据进行训练)和 无监督学习(不需要标签)之间的桥梁。监督学习要求所有数据都被标记,而无监督学习根本不需要标签,而半监督学习结合了标记和未标记数据来训练模型,然后可以进行预测。与单独使用其他两种方法相比,这会带来更好的性能。
在这里插入图片描述

半监督学习的好处

使用半监督学习有几个主要好处:

  1. 节省成本:标记数据可能是一个乏味且昂贵的过程,并且在许多情况下,标记项目所需的所有数据根本不切实际。半监督学习可以通过使用标记和未标记数据来帮助降低收集数据的成本。
  2. 准确性:如上所述,同时使用标记数据和未标记数据有助于提高模型的准确性。这是因为使用标记数据可以阻止模型学习虚假相关性,而使用未标记数据可以添加有关数据中潜在模式的有价值的信息。
  3. 节省时间:标记数据可能需要大量时间,因此半监督学习可以加快模型训练速度,因为不必全部标记数据。

本文将对半监督学习进行友好的介绍并解释其核心概念。

半监督学习原理

img

半监督学习的实际应用。粗线表示监督学习得到的决策边界。虚线显示了半监督情况的边界。点是未标记的数据点,三角形/加号是标记的数据点。图取自 van Engelen 等人。(2018)

上图显示了所有三种学习方案的实际效果。圆圈代表两个类的未标记数据点。圆圈和三角形对应于标记的样本。为了使未标记的样本有用,我们必须假设它们仍然包含对我们有用的信息。更数学地说:

基础边际分布p(x)应提供有关后验p(y|x) 的有用信息。

为了使半监督训练发挥作用,我们必须依赖三个主要假设:

平滑度假设

它指出,如果两个样本x1x2在输入空间中接近,则它们应该共享相同的标签。例如,假设有一个描述汽车的数据集,其中包含重量和油耗。两个特征值较小的样本可能代表紧凑型汽车,而值较高的样本往往对应于 SUV。当我们还考虑未标记的数据时,这种假设会派上用场,因为我们希望它们共享最接近的标记邻居的标签。

低密度假设

从平滑假设,我们可以直接推导出另一个前提。类之间的决策边界应位于输入空间的低密度区域。这意味着,它应该位于很少有标记和未标记样本的区域。如果它位于高密度区域,则将违反平滑度假设,因为输入空间中接近的样本将不再共享相同的标签。

流形假设

机器学习任务的数据通常是高维的。尽管如此,并非所有特征都显示出相同水平的方差,这使得它们对模型的用处不大。因此,高维数据通常位于低维流形上(空间中的结构)。该信息可用于推断未标记样本的类别。

这三个假设构建了几乎所有半监督学习算法的基础。

半监督范式

最近的半监督学习算法的一件事是,它们都基于两种范式之一(有时甚至是两者)。

第一个范式称为 伪标记 ,它使用网络本身为未标记的数据生成真实标签。为此,模型通常使用需要获得的完全标记的子集进行预训练。然后将未标记的样本输入网络并记录它们的类别预测。如果样本的最大类别概率超过设定的阈值,则将相应的类别用作基本事实。然后可以使用这些样本以监督方式训练模型。随着模型的性能变得越来越好,可以使用相同的技术迭代地细化人工获得的标签。

第二种范式称为一致性正则化,它训练模型在输入同一图像的两个略有不同的版本时输出相似的预测。在许多情况下,原始图像的这些扰动版本通常是使用数据增强方法获得的,例如旋转、移位、对比度改变或许多其他技术。这样的训练使模型能够更好地泛化并且更加鲁棒。由于我们只是强制执行类似的预测,因此在这种情况下不需要类标签。因此,可以按原样使用未标记的数据。

总结

半监督学习是一种强大的机器学习方法,可以结合监督学习和无监督学习的优点。通过使用标记和未标记数据,半监督学习可以提高许多机器学习项目的准确性、成本和时间节省。它利用标记和未标记数据来生成一个模型,该模型通常比以标准监督方式训练的模型更强大。这些算法通常基于伪标签和/或一致性正则化。

半监督学习将监督学习和非监督学习的过拟合和“不拟合”倾向(分别)结合起来的能力,创建了一个模型,在给出最小数量的标记数据和大量的未标记数据的情况下,可以出色地执行分类任务。除了分类任务,半监督算法还有许多其他用途,如增强聚类和异常检测。尽管这一领域本身相对较新,但由于在当今的数字领域中发现了巨大的需求,算法一直在不断地被创造和完善。

不过,即使半监督训练通常比标准监督训练有所改进,也不能保证您自己的应用程序就是这种情况。研究表明,在某些有限的情况下,它甚至可能导致性能下降。

半监督学习确实是机器学习的未来。

参考:
https://www.elecfans.com/d/1411567.html
https://towardsdatascience.com/a-friendly-intro-to-semi-supervised-learning-3783c0146744
https://towardsdatascience.com/improve-your-models-performance-with-unlabeled-data-d6e78a57fadb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1090526.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[ubuntu]OpenFOAM国内源码满速下载地址

下列地址可直接使用git clone,例如,打开终端,在终端直接将下面的复制进去: git clone https://e.coding.net/dyfluid/ThirdParty-6/ThirdParty-6.git即可在本地创建ThirdParty-6文件夹。如果提示你没有git,那么输入下面…

OpenCV实现人脸关键点检测

目录 实现过程 1,代码解读 1.1 导入工具包 1.2导入所需图像,以及训练好的人脸预测模型 1.3 将 dlib 的关键点对象转换为 NumPy 数组,以便后续处理 1.4图像上可视化面部关键点 1.5# 读取输入数据,预处理 1.6进行人脸检测 1…

Django框架集成Celery异步-【2】:django集成celery,拿来即用,可用操作django的orm等功能

一、项目结构和依赖 study_celery | --user |-- models.py |--views.py |--urls.py |--celery_task |--__init__.py |--async_task.py |-- celery.py | --check_task.py | --config.py | --scheduler_task.py | --study_celery | --settings.py | --manage.py 依赖&#xff1a…

竞赛 深度学习+opencv+python实现昆虫识别 -图像识别 昆虫识别

文章目录 0 前言1 课题背景2 具体实现3 数据收集和处理3 卷积神经网络2.1卷积层2.2 池化层2.3 激活函数:2.4 全连接层2.5 使用tensorflow中keras模块实现卷积神经网络 4 MobileNetV2网络5 损失函数softmax 交叉熵5.1 softmax函数5.2 交叉熵损失函数 6 优化器SGD7 学…

HTTP Basic 认证

HTTP Basic 认证 难度等级:【初级】 由RFC7617定义的HTTP Basic认证是一种非常基础而简单的认证模式,因此叫他Basic认证。他本质上就是浏览器提供的一个接口,能够根据HTTP返回值,自动弹出一个登录框,让用户输入ID和密码…

利达卓越:以数字金融,追梦新未来

秉持初心、勇敢前行,便能如火炬照彻黑暗,在平凡的生活中不断创新、保持优势,一步步走向梦想的远方。在金融投资领域,利达卓越广招贤才,坚持创新的原则,以数字技术为金融赋能,与多方市场参与建立长期合作关系,为推动全球经济和社会发展贡献力量,以团队金融优势续写时代华美篇章,…

用Golang手写一个Container

本文作者系360奇舞团前端开发工程师 前言 Docker 作为一种流行的容器化技术,对于每一个程序开发者而言都具有重要性和必要性。因为容器化相关技术的普及大大简化了开发环境配置、更好的隔离性和更高的安全性,对于部署项目和团队协作而言也更加方便。本文…

【git的使用方法】——上传文件到gitlab仓库

先进入到你克隆下来的仓库的目录里面 比如:我的仓库名字为zhuox 然后将需要上传推送的文件拷贝到你的克隆仓库下 这里的话我需要拷贝的项目是t3 输入命令ls,就可以查看该文件目录下的所有文件信息 然后输入git add 文件名 我这边输入的是 &#x…

LLMs的终局是通用人工智能AGI总结 生成式AI和大语言模型 Generative AI LLMs

终于学完了 生成式AI和大语言模型 Generative AI & LLMs. LLMs 解决了如下问题: 对NLP的不能够理解长句子,解决方案 自注意力机制Transformers architecture Attention is all you need大模型算力不够,解决方案 LLMs 缩放法则和计算最…

服务器使用u盘安装麒麟系统报错“dracut-initqueue timeout”,/dev/root does not exist

最近使用u盘安装麒麟系统,发现找不到u盘引导程序,提示dracut-initqueue timeout或者/dev/root does not exist 解决方法,先确定启动u盘所在盘符,使用 blkid 命令,我这边显示启动u盘所在盘符是 /dev/sdd4 blkid重启服…

基于Linux安装Hive

Hive安装包下载地址 Index of /dist/hive 上传解压 [rootmaster opt]# cd /usr/local/ [rootmaster local]# tar -zxvf /opt/apache-hive-3.1.2-bin.tar.gz重命名及更改权限 mv apache-hive-3.1.2-bin hivechown -R hadoop:hadoop hive配置环境变量 #编辑配置 vi /etc/pro…

LLMs AWS Sagemaker JumpStart

现在您已经探讨了使用LLM构建应用程序的基础知识,我想向您展示一项名为Amazon Sagemaker JumpStart的AWS服务,它可以帮助您快速进入生产并进行大规模操作。 以下是您在先前视频中探讨的应用程序堆栈。正如您所看到的,构建一个LLM驱动的应用程…

Macos数字音乐库:Elsten Software Bliss for Mac

Elsten Software Bliss for Mac是一款优秀的音乐管理软件,它可以帮助用户自动化整理和标记数字音乐库,同时可以自动识别音乐信息并添加标签和元数据。 此外,Bliss还可以修复音乐库中的问题,例如重复的音乐文件和缺失的专辑封面等…

深耕全面预算管理 拥抱企业数字未来

随着世界数字未来的不断发展,我国也正经历着一场更大范围、更深层次的科技变革。企业面对构建内部生态平衡体系的艰巨任务,对于其信息化部署也提出了更高的要求。增强预算编制的全面性,启动预算管理一体化改革成为了我国企业提高数字化水平的…

Rocket Typist pro for mac 「Macos文本快速输入工具」

Rocket Typist Pro是一款在Mac上使用的文本快速输入工具,它可以帮助用户更快速、更准确地输入文本。 这款软件的设计非常简单、高效,它通过使用短语或宏,可以快速插入文本,减少重复性工作,提高工作效率。 Rocket Typ…

华为校招机试题- 机器人活动区域-2023年

题目描述: 现有一个机器人,可放置于 M N的网格中任意位置,每个网格包含一个非负整数编号。当相邻网格的数字编号差值的绝对值小于等于 1 时,机器人可在网格间移动 问题:求机器人可活动的最大范围对应的网格点数目。 说明: 1)网格左上角坐标为 (0, 0),右下角坐标为 (m-…

Vue 的响应式数据 ref的使用

ref 是 vue 提供给我们用于创建响应式数据的方法。 ref 常用于创建基本数据&#xff0c;例如&#xff1a;string、number、boolean 等。 ref 还是通过 Object.defineProperty 的 get 与 set 方法&#xff0c;实现的响应式数据。 ref 创建基本数据&#xff1a; <template…

springboot 通过url下载文件并上传到OSS

DEMO流程 传入一个需要下载并上传的url地址下载文件上传文件并返回OSS的url地址 springboot pom文件依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w…

【【萌新的SOC学习之基于BRAM的PS和PL数据交互实验】】

萌新的SOC学习之基于BRAM的PS和PL数据交互实验 基于BRAM的PS和PL的数据交互实验 先介绍 AXI BRAM IP核控制器的简介 AXI BRAM ip核 是xilinx提供的一个软核 这个ip核被设计成 AXI的一个从机接口 用于AXI互联的集成 系统的主设备和本地的RAM进行通信 &#xff08;我们可以通过这…

大数据分析/开发项目实战班

大数据分析/开发项目实战班采用新型教学模式&#xff0c;让学生“学有所用&#xff0c;学能所用”&#xff0c;角色演练开展项目式教学&#xff0c;将产业项目与教学知识结合&#xff0c;突出学生的主体性&#xff0c;打破传统教学壁垒。 大数据分析/开发项目实战班介绍&#x…