主动学习如何解决数据标注的难题?主动学习和弱监督学习有何区别?

news2024/10/6 8:38:25

机器学习的成功与否取决于数据标注的质量和数量。利用主动学习的机器学习技术能加快模型训练的进度和减少数据获取的资金投入。依靠主动学习来得到有价值的数据,以便机器模型从中学习。如果一个模型被具有价值的数据加以训练,它将以较少的人工标注和更短的训练周期达到预期的性能。本文将介绍主动学习如何解决数据标注的难题和主动学习和弱监督学习的区别。

主动学习如何解决数据标注的难题?

  1. 缩短标注数据流程和降低标注成本
  2. 有效获得模型结果反馈
  3. 提高模型准确率

主动学习的方法是将数据标注的步骤呈现为学习算法和用户之间的交互过程,由算法来建议哪些数据值得被标注,而人工则对这些选定的样本进行标注。应用主动学习将加快标注进程、控制成本,获得理想的训练数据。相较于传统的标注方法,主动学习能够挑选有价值的数据进行标注,排除一些冗余数据、噪声数据的干扰,摒弃传统标注中对所有数据进行标注,加上模型从中的学习发现更具有价值的数据,减少标注量提高标注效率。下图简单描述了主动学习框架下的数据标注流程: 

主动学习框架下的数据标注流程

主动学习和弱监督学习有何区别?

两种学习类型均可产生高性能的模型,但它们在几个关键方面有明显的不同:

标签来源

不同学习类型所需的标签来源千差万别: 主动学习

  • 人工(通常是SME)标注数据集。
  • 假定这些标签准确。
  • 标签来自一个来源。

弱监督学习

  • 来源灵活,可来自任何地方。
  • 标签不一定非常准确或完整。
  • 必须使用多个数据源。

所需资源

投资用于每种学习类型的时间、金钱和人力配比不同: 主动学习

  • 利用SME进行标注成本高昂且可用性也有限。
  • 主动学习需要人工标注数据集中至少一部分数据。

弱监督学习

  • 标注功能可以在几秒钟内应用于数百万个数据点,从而节省大量标注时间。
  • 根据数据源的不同,投入在弱监督训练上的时间也会有差异,但通常都少于主动学习项目所需的时间。

过程迭代

虽然机器学习始终是个迭代过程,但弱监督学习和主动学习的迭代次数不同: 主动学习

  • 使用多个循环的人机协同迭代过程。
  • 标注数据后对模型进行训练。

弱监督学习

  • 在开始训练模型之前,已完全标注数据集。
  • 训练过程不会涉及任何人机协同。

两种方法的优点

尽管存在差异,但主动学习和弱监督学习仍与完全监督学习有所区别。它们的优势是节省了大量的标注时间,并可以通过限制SME的工作节省资金。弱监督学习所需的成本较高的数据量将远远少于监督学习所需的数据。同样,如果有一种使用主动学习的有效采样技术,则可以比传统方法使用更少的标注数据点来实现高质量的模型性能。 最重要的是,并不存在万能的机器学习方法。选择这种或那种学习方法,将取决于可用的时间、资金和人员分配;收集数据的计划和数据来源;以及特定使用场景。根据特定使用场景,不一定要选择主动学习和弱监督学习,它们并不总是相互排斥,具体取决于要使用的应用场景。在决策AI解决方案的过程中需要讲以上这些因素纳入考量标准。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1339432.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安防视频监控系统EasyCVR实现H.265视频在3秒内起播的注意事项

可视化云监控平台/安防视频监控系统EasyCVR视频综合管理平台,采用了开放式的网络结构,可以提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集中存储、云存储等丰富的视频能力,同时…

ZETA落地合肥、宜城南方水泥,纵行科技携手中才邦业助力水泥企业数智化管理

近日,合肥南方水泥、宜城南方水泥落地ZETA预测性维护方案,通过在水泥厂内搭建ZETA网络,并在B类及C类主辅机设备上安装ZETA系列端智能传感器,进行数据采集和监测设备运行状态、以及早期故障警报和诊断,实现水泥生产设备…

PHP的Laravel加一个小页面出现问题(whereRaw的用法)

1.权限更新问题 因为是已经有样例了所以html和php页面很快写出来了 然后就是页面写完了路由不知道在哪写,后来想起来之前有要开权限来着,试了一下,还是不行,不过方向是对了 这是加的路由,不过需要在更新一下权限 这…

零基础刷代码随想录【Day1】|| 二分查找,移除元素

我的个人主页:☆光之梦☆的博客_CSDN博客-C语言基础语法(超详细)领域博主 欢迎各位 👍点赞 ⭐收藏 📝评论 我的专栏:C语言基础语法(超详细)_☆光之梦☆的博客-CSDN博客(这…

Ubuntu安装K8S(1.28版本,基于containrd)

原文网址:Ubuntu安装K8S(1.28版本,基于containrd)-CSDN博客 简介 本文介绍Ubuntu安装K8S的方法。 官网文档:这里 1.安装K8S 1.让apt支持SSL传输 sudo apt-get update sudo apt-get -y install apt-transport-https ca-certi…

【算法与数据结构】860、LeetCode柠檬水找零

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:本题的思路比较简单,首先要保存收到的零钱,其次计算找零,最后分解找…

git的常用命令以及在可视化工具中的使用方法

一.引言 想当初在刚进公司的时候,对于git的使用非常不熟悉,特别是分支的概念,导致开发效率变低,故通过此文章,总结git的使用经验 二.Git 常用命令详解 2.1 git clone [url]: 克隆远程仓库到本地 刚开始时&#xff0c…

Anaconda 环境中安装OpenCV (cv2)

1、使用Anaconda 的对应环境,查看环境中的Python版本号 (1)使用Anaconda 查看存在的环境:conda info --env (2)激活环境:conda activate XXX 2、根据版本号,下载对应的 python-opencv 包 (1)选择国内源的…

K8S网络类型

k8s的网络类型 k8s的通信模式 1 pod内部之间容器与容器之间的通信,在同一个pod中容器是共享资源和网络,使用同一个网络命名空间,可以直接通信 2 同一个node节点之内,不同pod之间的通信,每个pod都有一个全局的真实ip地…

RabbitMQ 报错:Failed to declare queue(s):[QD, QA, QB]

实在没想到会犯这种低级错误。 回顾整理一下吧: 原因:SpringBoot主配置类默认只会扫描自己所在的包及其子包下面的组件。其他位置的配置不会被扫描。 如果非要使用其他位置,就需要在启动类上面指定新的扫描位置。注意新的扫描位置会覆盖默…

深入浅出:分布式、CAP 和 BASE 理论(荣耀典藏版)

大家好,我是月夜枫,一个漂泊江湖多年的 985 非科班程序员,曾混迹于国企、互联网大厂和创业公司的后台开发攻城狮。 在计算机科学领域,分布式系统是一门极具挑战性的研究方向,也是互联网应用中必不可少的优化实践&…

如何在Android Termux中使用SFTP实现远程传输文件

文章目录 1. 安装openSSH2. 安装cpolar3. 远程SFTP连接配置4. 远程SFTP访问5. 配置固定远程连接地址6、结语 SFTP(SSH File Transfer Protocol)是一种基于SSH(Secure Shell)安全协议的文件传输协议。与FTP协议相比,SFT…

超时控制:Go语言下的网络请求与时间赛跑

开场白:在互联网的世界里,我们经常要与各种API打交道。有时,这些API可能会因为各种原因而变得“慢条斯理”,这时,超时控制就显得尤为重要了。今天,我们就来聊聊如何在Go语言中实现HTTP请求的超时控制&#…

千巡翼X4轻型无人机 赋能智慧矿山

千巡翼X4轻型无人机 赋能智慧矿山 传统的矿山测绘需要大量测绘员通过采用手持RTK、全站仪对被测区域进行外业工作,再通过方格网法、三角网法、断面法等进行计算,需要耗费大量人力和时间。随着无人机航测技术的不断发展,利用无人机作业可以大…

Linux磁盘管理与文件系统

目录 一、磁盘的数据结构 二、MBR和GPT磁盘 1、分区介绍 1.1分区的原因 1.2分区的优点 1.3分区的缺点 1.4分区的类型 2、MBR分区 3、GPT分区 三、文件系统 1、xfs: centos 7默认的文件系统 2、ext4:centos 6默认的文件系统 四、磁盘分区的…

Docker 概念介绍

1、Docker 简介 Docker一个快速交付应用、运行应用的技术: 可以将程序及其依赖、运行环境一起打包为一个镜像,可以迁移到任意Linux操作系统运行时利用沙箱机制形成隔离容器,各个应用互不干扰启动、移除都可以通过一行命令完成,方便快捷 Doc…

three.js实现3D汽车展厅效果展示

项目搭建 本案例还是借助框架书写three项目,借用vite构建工具搭建vue项目,搭建完成之后,用编辑器打开该项目,在终端执行 npm i 安装一下依赖,安装完成之后终端在安装 npm i three 即可。 因为我搭建的是vue3项目&…

HPCC:高精度拥塞控制

HPCC:高精度拥塞控制 文章目录 HPCC:高精度拥塞控制摘要1 引言1.1 背景1.2 现有CC的局限性1.3 HPCC的提出 2 研究动机2.1 大型RDMA部署2.2 RDMA目标2.3 当前RDMA CC中的权衡DCQCNTIMELY 2.4 下一代高速CC 3 技术方案3.1 INT3.2 HPCC设计3.3 HPPC的参数 4…

Ubuntu20.04服务器使用教程(安装教程、常用命令、故障排查)持续更新中.....

安装教程(系统、驱动、CUDA、CUDNN、Pytorch、Timeshift、ToDesk) 制作U盘启动盘,并安装系统 在MSDN i tell you下载Ubuntu20.04 Desktop 版本,并使用Rufus制作UEFI启动盘,参考UEFI安装Ubuntu使用GPTUEFI模式安装&am…

学习笔记:数据挖掘与机器学习

文章目录 一、数据挖掘、机器学习、深度学习的区别(一)数据挖掘(二)机器学习(三)深度学习(四)总结 二、数据挖掘体系三、数据挖掘的流程四、典型的数据挖掘系统 一、数据挖掘、机器学…