【机器学习300问】23、什么是主动学习?

news2024/10/7 10:16:51

一、带标签的数据很难获得

        机器学习中,比如监督学习需要带有标签的训练样本才能得到模型,然而在以下几种场景中去获取带有标签的数据是很难的:

  • 自动驾驶场景:对自动驾驶汽车收集的高清地图数据或实时摄像头数据进行标注,需要标记行人、车辆、交通标志、道路障碍物等,这是一个极度繁琐且昂贵的过程,需要专门团队花费大量时间精细检查和标记每一个像素级别的对象。
  • 情感分析:对文本进行情感倾向标注(如积极、消极或中立)是一项复杂的任务,因为情感往往是微妙且主观的,而且受文化背景、语境和个人表达习惯影响很大。这导致大规模高质量的情感标注数据集构建困难。
  • 医疗影像诊断:医学影像数据(如CT扫描、MRI图像)的标注通常需要医学专家的专业知识才能完成,例如识别肿瘤、病变区域等。这一过程耗时费力,且要求高度专业性和准确性,所以很难快速积累大量的带标签数据。

二、主动学习的定义

        主动学习(Active Learning)是一种旨在通过最少的人工标注工作获得最优模型性能的学习策略。相比于传统的机器学习方法,主动学习不是简单地使用预先标记好的大型数据集进行训练,而是让算法本身参与到数据选择的过程中来,优先选择最有价值样本标注标签。

        说人话:“主动学习是一个帮我将无标签数据标注上标签的模型,还没完!重点在于它可以选择对学习最为有价值的未标注数据。”

        主动学习中有一些特有的用词,在这里用一个表格来解释说明一下:

术语解释
学习者 (Learner)主动学习模型,负责训练和根据策略选择需要标注的样本。
判定者 (Oracle)能够提供准确标签信息的权威来源,可以是人类专家或自动化系统。
提问 (Querying)学习者根据策略选择样本并请求判定者为其标注的过程。
未标注数据池 (Unlabeled Pool)存储待筛选和可能被选中进行标注的大量数据集合。
已标注数据集 (Labeled Dataset)存储已经被判定者正确标注过的数据,用于模型训练。
查询策略 (Query Strategy)决定从未标注数据池中选取哪些样本进行提问的具体方法。

三、主动学习的过程

        主动学习的过程通常可以分为以下几个步骤:

  1. 初始化:首先,从大量未标记的数据中随机选择一小部分来进行手动标记。
  2. 训练:然后,使用这些标记的数据来训练模型。
  3. 选择:模型对剩下的未标记的数据进行预测并为其打分,通常这个分数反映了模型对该样本的不确定性或者信息量。然后选择分数最高的一部分样本,也就是模型最需要学习的样本。
  4. 查询:将这些被选中的样本提交给专家进行标记。
  5. 更新:将新标记的样本加入到训练集中,并使用更新后的训练集来重新训练模型。
  6. 循环迭代:重复第3步到第5步,直到达到预设的条件,例如循环次数、模型性能或者标注预算。

        主动学习的核心就是在第3步,如何选择最需要学习的样本,不同的主动学习算法会有不同的选择策略。

学习者、判定者、提问

四、常见的样本选择策略

        如上所说,如何去选择一个最需要学习的样本,给它打上标签非常关键。这里只详细介绍一个策略。

(1)最低置信度策略的思想

        最低置信度(Least Confidence)是一种常见的样本选择策略,用于确定下一步应该优先标注哪些未标注样本。这种策略假设模型对某个样本的预测越不确定,那么这个样本就可能越重要,因为它有可能提供更多的信息帮助模型改进。

        具体来说,对于一个多分类问题,最低置信度策略计算每个未标注样本属于任一类别预测的概率,并选择其中模型预测信心最小的样本作为下一个请求标注的对象。计算方式通常是找到模型输出的概率向量中最大概率值对应的索引,然后取1减去这个最大概率值,得到的就是模型对该样本预测的不确信度。

(2)手写字体识别举例

        假设模型正在对数字手写体识别任务进行训练,对于一个未标注的手写数字图片,模型可能输出 [0.1, 0.2, 0.3, 0.15, 0.25] 这样的概率分布,表示模型认为该图片分别是0, 1, 2, 3, 4的概率。此时,模型对这个样本预测的最大概率为0.3(属于类别2的概率),那么不确信度为1 - 0.3 = 0.7。若这是所有样本中最大的不确信度,则该样本会被选作下一个请求专家标注的样本。

        通过这种方式,最低置信度策略可以优先挑选那些模型最难确定类别的样本,从而期望通过获取它们的真实标签来最大程度地提升模型性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1443573.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue3自定义PostCss插件

Vue3自定义PostCss插件 插件功能: 实现自动转px为vw功能 1. 创建插件ts文件2. tsconfig.node.json引入插件3. vite.config.ts增加插件配置4. 编写插件内容5. 示例 插件功能: 实现自动转px为vw功能 px 固定单位,不会随着屏幕的变化而变化 vh vw 相对于视口高宽进行控制 1. 创建…

使用vue-client-only 解决组件不兼容SSR问题

目录 前言 一、解决方案 1.基于Nuxt 框架的SSR应用 2.基于vue2框架的应用 3.基于vue3框架的应用 二、总结 往期回顾 前言 最近在我的单页面SSR应用上开发JSON编辑器功能,在引入组件后直接客户端跳转OK,但是在直接加载服务端渲染的时候一直报这…

DS:顺序栈的实现

创作不易,友友们给个三连吧!! 一、栈的概念及结构 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先…

2024年度十余爆款爱心表白代码,还不进来瞅瞅?(一)

个人名片: 🐼作者简介:一名大三在校生,喜欢AI编程🎋 🐻‍❄️个人主页🥇:落798. 🐼个人WeChat:hmmwx53 🕊️系列专栏:🖼️…

提升MySQL访问性能

1. 读写分离 设置多个从数据库,从数据库可能在多个机器中。写操作在主数据库进行主数据库提供数据的主要依据 缓解了MySQL的读压力。 主从复制原理图如下 如果对于读操作有一致性要求,那么读操作去主数据库即可。 2. 连接池 因为一个请求必须要…

初步探索Pyglet库:打造轻量级多媒体与游戏开发利器

目录 pyglet库 功能特点 安装和导入 安装 导入 基本代码框架 导入模块 创建窗口 创建控件 定义事件 运行应用 程序界面 运行结果 完整代码 标签控件 常用事件 窗口事件 鼠标事件 键盘事件 文本事件 其它场景 网页标签 音乐播放 图片显示 祝大家新…

图神经网络与图表示学习: 从基础概念到前沿技术

目录 前言1 图的形式化定义和类型1.1 图的形式化定义1.2 图的类型 2 图表示学习2.1 DeepWalk: 融合语义相似性与图结构2.2 Node2Vec: 灵活调整随机游走策略2.3 LINE: 一阶与二阶邻接建模2.4 NetMF: 矩阵分解的可扩展图表示学习2.5 Metapath2Vec: 异构图的全面捕捉 3 图神经网络…

Hive-架构与设计

架构与设计 一、背景和起源二、框架概述1.设计特点 三、架构图1.UI交互层2.Driver驱动层3.Compiler4.Metastore5.Execution Engine 四、执行流程1.发起请求2.获取执行计划3.获取元数据4.返回元数据5.返回执行计划6.运行执行计划7.运行结果获取 五、数据模型1.DataBase数据库2.T…

【后端高频面试题--Mybatis篇】

🚀 作者 :“码上有前” 🚀 文章简介 :后端高频面试题 🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬 后端高频面试题--Mybatis篇 什么是Mybatis?Mybatis的优缺点?Mybatis的特点…

例36:打开文件读出文件内容

1.建立一个EXE工程,在主窗体上放一个按钮,如图32。 图32 在按钮的单击事件中输入代码: Sub Form1_Command1_BN_Clicked(hWndForm As hWnd, hWndControl As hWnd)Dim s as StringDim 文件 As CWSTR FF_OpenFileDialog(hWndForm,_"打开…

【JAVA WEB】 百度热榜实现 新闻页面 Chrome 调试工具

目录 百度热榜 新闻页面 Chrome 调试工具 --查看css属性 打开调试工具的方式 标签页含义 百度热榜 实现效果&#xff1a; 实现代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"vi…

React18原理: Fiber架构下的单线程CPU调度策略

概述 React 的 Fiber 架构, 它的整个设计思想就是去参考CPU的调度策略CPU现在都是多核多进程的&#xff0c;重点研究的是 CPU是单核单线程&#xff0c;它是如何调度的?为什么要去研究单线程的CPU&#xff1f; 浏览器中的JS它是单线程的JS 的执行线程和浏览器的渲染GUI 是互斥…

【从Python基础到深度学习】4. Linux 常用命令

1.配置root用户密码 root用户为系统默认最高权限用户&#xff0c;其他用户密码修改命令与root用户修改密码命令相同 sudo passwd root 2.添加用户&#xff08;henry&#xff09; sudo useradd -m henry -s /bin/bash 3.配置henry用户密码 Xshell下连接新用户&#xff08;hen…

Idea Git Review插件

idea git plugin 添加了一些常用的小插件 可以右键打开git bash窗口 可以右键选中文字点击baidu fanyi 可以通过搜索git用户名 指定开始时间查询某个版本自己提交的所有代码文件 可以通过点击蓝色行数&#xff0c;跳转到指定的改动代码块 资源地址&#xff1a; git-pl…

专业课135+总分400+西安交通大学815/909信号与系统考研电子信息与通信工程,真题,大纲,参考书。

经过将近一年的考研复习&#xff0c;终于梦圆西安交大&#xff0c;今年专业可815(和909差不多)信号与系统135&#xff0c;总分400&#xff0c;回想这一年的复习还是有很多经验和大家分享&#xff0c;希望可以对大家复习有所帮助&#xff0c;少走弯路。 专业课&#xff1a; 这…

2 月 9 日算法练习- 数据结构 - 除夕快乐♪٩(´ω`)و♪

翻转括号序列 暴力过20%数据 思路&#xff1a;括号合法序列问题可以利用前缀和&#xff0c;将"(“看成 1&#xff0c;”)"看成 0&#xff0c;规律是到某个位置为止的前缀和>0并且到最后前缀和0。 #include<bits/stdc.h> using namespace std; const int N…

【Spring MVC】Spring MVC的执行流程与源码分析

目录 一、Spring MVC的组件详解 1.1 处理器映射器 1.1.1 处理器映射器的继承体系 1.2 处理器适配器和处理器 1.2.1 处理器适配器的继承体系 1.2.2 处理器适配器和处理器的对应关系 第一个适配器&#xff1a;org.springframework.web.servlet.mvc.method.annotation.Reque…

【计算机网络】协议层次及其服务模型

协议栈&#xff08;protocol stack&#xff09; 物理层链路层网络层运输层应用层我们自顶向下&#xff0c;所以从应用层开始探究应用层 协议 HTTP 提供了WEB文档的请求和传送SMTP 提供电子邮件报文的传输FTP 提供两个端系统之间的文件传输报文&#xff08;message&#xff09;是…

计算机网络——05Internet结构和ISP

Internet结构和ISP 互连网络结构&#xff1a;网络的网络 端系统通过接入ISPs连接到互连网 住宅、公司和大学的ISPs 接入ISPs相应的必须是互联的 因此任何2个端系统可相互发送分组到对方 导致的“网络的网络”非常复杂 发展和演化是通过经济的和国家的政策来驱动的 问题&…

re:从0开始的CSS学习之路 9. 盒子水平布局

0. 写在前面 过年也不能停止学习&#xff0c;一停下就难以为继&#xff0c;实属不应 1. 盒子的水平宽度 当一个盒子出现在另一个盒子的内容区时&#xff0c;该盒子的水平宽度“必须”等于父元素内容区的宽度 盒子水平宽度&#xff1a; margin-left border-left padding-lef…