【机器学习】主动学习-增加标签的操作方法-样本池采样(Pool-Based Sampling)

news2025/1/15 0:25:46

Pool-Based Sampling

Pool-based sampling 是一种主动学习(Active Learning)方法,与流式选择性采样不同,它假设有一个预先定义的未标注样本池,算法从中选择最有价值的样本进行标注,以提升模型的性能。这种方法广泛应用于需要人工标注的场景,例如文本分类、图像识别等。


核心思想

  1. 预先准备一个 未标注数据池(Unlabeled Data Pool)。
  2. 使用初始标注数据训练一个模型。
  3. 算法根据特定的选择策略,从未标注池中挑选最有价值的数据点。
  4. 将选中的数据点交给 Oracle(标注者)进行标注。
  5. 用新标注的数据更新模型。
  6. 重复上述过程,直到达到停止条件(如标注预算耗尽或模型精度满足要求)。

主要步骤

  1. 初始化:

    • 准备一个初始的小型标注数据集,用于训练初始模型。
    • 定义一个未标注样本池。
  2. 选择样本:

    • 基于选择策略,从未标注样本池中选出最有助于提升模型性能的样本。
  3. Oracle 标注:

    • 将选中的样本交由 Oracle(人工或自动标注系统)标注。
  4. 模型更新:

    • 使用新增的标注样本重新训练或微调模型。
  5. 循环迭代:

    • 重复选择、标注和更新的过程。
  6. 停止条件:

    • 达到预设的停止条件,如标注数量限制、预算耗尽或模型性能满足预期。

选择策略

选择策略决定了从未标注池中挑选哪些样本进行标注。以下是常见的选择策略:

  1. 不确定性采样(Uncertainty Sampling):

    • 选择模型最不确定的样本。例如:
      • 最小置信度法(Least Confidence): 挑选模型预测概率最高的类别置信度最低的样本。
      • 最大熵法(Maximum Entropy): 挑选预测分布熵值最大的样本。
  2. 基于信息增益(Information Gain):

    • 选择能够最大化模型信息增益的样本。
  3. 密度加权方法(Density-Weighted Methods):

    • 同时考虑样本的不确定性和它与数据分布的代表性,确保模型泛化能力。
  4. 查询实例多样性(Diversity Sampling):

    • 选择与当前标注样本差异较大的样本,避免模型过拟合局部分布。
  5. 基于错误减少(Error Reduction):

    • 选择标注后对模型总体错误率降低最大的样本。

优点

  1. 高效标注:

    • 只标注最有价值的样本,降低标注成本。
  2. 简单易用:

    • 使用现有的未标注样本池,无需处理实时数据流。
  3. 可控性强:

    • 数据池是预定义的,可以针对特定需求优化选择策略。

缺点

  1. 标注依赖:

    • 标注仍然依赖 Oracle,标注成本可能较高。
  2. 计算成本:

    • 每次迭代需要对未标注池的所有样本进行选择策略的评估,可能增加计算复杂度。
  3. 数据池局限性:

    • 依赖于初始未标注池的多样性,数据池如果不够丰富可能影响模型性能。

实际应用场景

  1. 文本分类:

    • 从海量未标注文本中选择最有助于提升分类器性能的文本进行人工标注。
  2. 图像识别:

    • 从图像池中挑选最模糊或不确定的图像请求人工标注。
  3. 医学诊断:

    • 从患者数据中选择可能代表罕见或边界情况的数据进行医生标注。
  4. 推荐系统优化:

    • 选择对推荐系统模型最重要的用户行为数据进行分析和标注。

对比其他采样方法

方法数据来源采样方式适用场景
Pool-Based Sampling预定义的未标注池从数据池中选择最有价值的样本标注成本高,数据池丰富时
Stream-Based Sampling实时数据流动态决定是否标注当前数据点实时数据环境,连续数据输入
Query Synthesis无预定义数据算法主动生成查询实例,向 Oracle 请求标注数据稀缺或模型需主动探索

总结:
Pool-based sampling 是一种经典的主动学习方法,尤其适用于需要从大量静态数据中选择最有价值样本的场景。通过设计合适的选择策略,能够显著提升模型性能,同时大幅减少标注工作量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2276721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小创新模型!6种2024算法优化BiTCN-SVM单变量输入单步预测,MATLAB机器学习预测全家桶再更新...

截止到本期MATLAB机器学习预测全家桶,一共发了26篇关于机器学习预测代码的文章。算上这一篇,一共27篇!参考文章如下: 1.五花八门的机器学习预测?一篇搞定不行吗? 2.机器学习预测全家桶,多步预测…

3_CSS3 渐变 --[CSS3 进阶之路]

CSS3 引入了渐变(gradients),它允许在两个或多个指定的颜色之间显示平滑的过渡。CSS3 支持两种类型的渐变: 线性渐变(Linear Gradients):颜色沿着一条线性路径变化,可以是水平、垂直…

25/1/13 嵌入式笔记 继续学习Esp32

PWM(Pulse Width Modulation,脉宽调制) 是一种通过快速切换高低电平来模拟中间电压值的技术。它广泛应用于控制 LED 亮度、电机速度、音频生成等场景。 analogWrite函数:用于在微控制器(如 Arduino)上生成模拟信号。 …

【端云一体化】云函数的使用

前言 为丰富HarmonyOS对云端开发的支持、实现端云联动,DevEco Studio以Cloud Foundation Kit(云开发服务)为底座、在传统的“端开发”基础上新增“云开发”能力,开发者在创建工程时选择合适的云开发工程模板,即可在De…

行业案例:高德服务单元化方案和架构实践

目录 为什么要做单元化 高德单元化的特点 高德单元化实践 服务单元化架构 就近接入实现方案 路由表设计 路由计算 服务端数据驱动的单元化场景 总结 系列阅读 为什么要做单元化 单机房资源瓶颈 随着业务体量和服务用户群体的增长,单机房或同城双机房无法支持服…

基于单片机的语音控制玩具汽车的设计

语音控制小汽车选用了两个单片机、一个语音识别芯片、两个无线收发模块、一个电机驱动模块、两个电机、一个音频解码模块。语音控制端选用了一个语音识别芯片,实现了将声音信号转换成数字信号,再将数据传输给单片机的功能。小车端选用了单片机来控制电机…

解锁“搭子小程序”开发新机遇,助力企业数字化转型

搭子作为一种新型的社交方式,逐渐进入到了年轻人的生活中,在日常旅游、学习、逛街等,年轻人都可以找到志同道合的“搭子”,提高生活的幸福指数。 随着搭子市场的发展,通过互联网寻找搭子已经成为了年轻人的必备方式。…

Spring Boot 2 学习全攻略

Spring Boot 2 学习资料 Spring Boot 2 学习资料 Spring Boot 2 学习资料 在当今快速发展的 Java 后端开发领域,Spring Boot 2 已然成为一股不可忽视的强大力量。它简化了 Spring 应用的初始搭建以及开发过程,让开发者能够更加专注于业务逻辑的实现&am…

31_搭建Redis分片集群

Redis的主从复制模式和哨兵模式可以解决高可用、高并发读的问题。但是依然有两个问题没有解决:海量数据存储问题、高并发写的问题。由于数据量过大,单个master复制集难以承担,因此需要对多个复制集进行集群,形成水平扩展每个复制集只负责存储整个数据集的一部分,这就是Red…

IMX6U Qt 开发环境

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、交叉编译 1. 安装通用 ARM 交叉编译工具链 2. 安装 Poky 交叉编译工具链 二、编译出厂源码 1. U-boot 2. 内核和模块 3. 编译出厂 Qt GUI 综合 Demo 前言…

数据结构与算法之链表: LeetCode 92. 反转链表 II (Ts版)

反转链表 II https://leetcode.cn/problems/reverse-linked-list-ii/description/ 描述 给你单链表的头指针 head 和两个整数 left 和 right &#xff0c;其中 left < right请你反转从位置 left 到位置 right 的链表节点&#xff0c;返回 反转后的链表 示例 1 输入&…

【Uniapp-Vue3】@import导入css样式及scss变量用法与static目录

一、import导入css样式 在项目文件中创建一个common文件夹&#xff0c;下面创建一个css文件夹&#xff0c;里面放上style.css文件&#xff0c;编写的是公共样式&#xff0c;我们现在要在App.vue中引入该样式。 在App.vue中引入该样式&#xff0c;这样就会使样式全局生效&#…

MySQL中的四种表联结

目录 1、联结、关系表 &#xff08;1&#xff09;关系表 &#xff08;2&#xff09;为什么使用联结 2、如何创建联结 &#xff08;1&#xff09;笛卡尔积&#xff08;叉联结&#xff09;--用逗号分隔 &#xff08;2&#xff09;where子句的重要性 &#xff08;3&#xff…

DVWA靶场CSRF漏洞通关教程及源码审计

目录标题 CSRFlow源码审计 medium源码审计 high源码审计 impossible源码审计 CSRF low 先修改密码 看到地址栏 复制在另一个网页打开 成功登录 源码审计 没有任何过滤措施&#xff0c;很危险&#xff0c;并且采用了不安全的md5加密 <?phpif( isset( $_GET[ Change ] )…

JVM之垃圾回收器G1概述的详细解析

G1(并发) G1 特点 G1&#xff08;Garbage-First&#xff09;是一款面向服务端应用的垃圾收集器&#xff0c;应用于新生代和老年代、采用标记-整理算法、软实时、低延迟、可设定目标&#xff08;最大 STW 停顿时间&#xff09;的垃圾回收器&#xff0c;用于代替 CMS&#xff0…

宝塔面板 申请证书后 仍然提示不安全

证书显示有效&#xff0c;但是网站显示不安全 导致的原因是引入静态文件使用的是HTTP&#xff0c;查看方法为F12打开console控制台 可以看到静态文件全部都是HTTP 网站采用wordpress搭建&#xff0c;基于问题解决&#xff0c;其他方式搭建也是一样&#xff0c;处理掉所有的H…

【1】Word:邀请函

目录 题目 文字解析 流程 题目 文字解析 考生文件夹☞Word.docx☞一定要用ms打开&#xff0c;wps打开作答无效☞作答完毕&#xff0c;F12或者手动另存为&#xff08;考生文件夹&#xff1a;路径文件名&#xff09; 注意&#xff1a;一定要检查&#xff0c;很有可能你前面步…

Docker安装和卸载(centos)

Docker安装和卸载 一&#xff0c;已安装Docker&#xff0c;卸载Docker 1.方法一 sudo yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine​ 如果出现以下提示就证明没卸载…

JVM:ZGC详解(染色指针,内存管理,算法流程,分代ZGC)

1&#xff0c;ZGC&#xff08;JDK21之前&#xff09; ZGC 的核心是一个并发垃圾收集器&#xff0c;所有繁重的工作都在Java 线程继续执行的同时完成。这极大地降低了垃圾收集对应用程序响应时间的影响。 ZGC为了支持太字节&#xff08;TB&#xff09;级内存&#xff0c;设计了基…

ASP.NET Core - 日志记录系统(二)

ASP.NET Core - 日志记录系统&#xff08;二&#xff09; 2.4 日志提供程序2.4.1 内置日志提供程序2.4.2 源码解析 本篇接着上一篇 ASP.NET Core - 日志记录系统(一) 往下讲&#xff0c;所以目录不是从 1 开始的。 2.4 日志提供程序 2.4.1 内置日志提供程序 ASP.NET Core 包括…