主动学习与弱监督学习

news2024/7/6 5:44:31

人工智能数据的获取没有想象中的那么简单,虽然我们早已身处大数据的浪潮下,很多公司在获取数据的大浪中翻滚却始终没有找到一个合适的获取数据的渠道。很多情况下,获取高质量的人工智能数据需要消耗大量的人力、时间、金钱,但是对于未来世界,以“人机协同”的方式为生活创造价值早已成为一个必然的趋势。 试想一下用这些数据来训练一个有监督的机器学习(ML)算法怎么样?ML算法可以执行与人类相同的分类任务,只是速度快得多!它可以减少成本和低效率。它可以减少成本和低效率。它可以在你的混合数据上工作,如图像、文本文件,以及简单的数字。它可以做所有这些事情,如果你的模型够好,你真的可以为所欲为。但是,要想获取这些数据,你要付出巨大的代价。不过我们总是能找到解决方案,如果你发现了一个“主动学习”的机器学习技术,或许如何获取大量数据也不会让你望而却步。

两种流行机器学习技术的比较

机器学习(ML)领域的发展已呈指数级增长,但对于许多企业而言,获取数据仍然是一项艰巨的任务。传统的机器学习算法需要大量人工标注数据。所需的庞大数据通常无法大规模获取,且成本高昂,更不用说手动标注数据所需的时间和精力。成品数据又达不到理想的质量标准。主动学习与弱监督学习:利用这两种出色的机器学习技术克服数据挑战。 标注数据还需要人工标注员。许多情况下,这些标注员在某种程度上是行业专家(SME),他们可以使用他们业内的专业知识进行准确标注。但SME 的可用性有限,而且雇用成本高昂。 考虑到这些挑战,开发人工智能(AI)解决方案的团队从完全监督式学习(需要完整的手动标注数据集训练ML模型)转向主动学习和弱监督学习。后者通常更快,人力成本更低,同时仍能够成功训练模型。了解不同学习技术的工作原理和优势,能够帮助团队决定弱监督学习或主动学习(或两者结合)是否是训练机器模型的合适解决方案。

主动学习与弱监督学习:如何适应监督式学习

首先我们要清楚地知道,在机器学习中存在不同的学习类型,所有这些学习类型均可归为这两大类中的一种:监督学习和无监督学习。在监督学习中,机器接收由人工标注的数据点,并使用这些数据点进行预测。另一方面,无监督学习使用未标注数据;算法必须在没有人工指导的情况下从数据中提取结构和模式。 监督学习还可细分为一系列学习类型。其中就包括主动学习(半监督学习的一种形式)和弱监督学习。

主动学习

主动学习是半监督学习的一种形式。与完全监督学习不同的是,这种学习形式仅从较大规模的未标注数据集中为机器学习算法提供人工标注数据的初始子集。算法对这些数据进行处理,并提供具有一定置信度的预测。低于该置信度水平的任何预测均将表明需要更多的数据。这些低置信度的预测将被发送给标注人员,以标注请求数据的算法。循环重复,直到算法经过训练,并在预期的预测精度下正常运行。 这种迭代的人机协同方法是建立在并非所有样本均有学习价值的基础之上,因此算法会选择所学习的数据。 主动学习的一个关键差异因素是所使用的采样方法,该方法强烈影响着模型的表现方式。数据科学家可以测试不同的采样方法,来选择产生最精确结果的方法。总体而言,与完全监督学习相比,主动学习对人工数据标注的依赖程度较低,因为并非所有数据集都需要标注,仅机器要求的数据点才需标注。

弱监督学习

弱监督学习是一种学习技术,融合了来自各种数据源的知识,其中许多数据源质量较低。这些数据源可能包括:

  • 低成本来自非专业人士的低质量标注数据。
  • 来自SME的高级监督,例如,使用启发法(规则)。启发法可能会这样表述,“如果数据点 = x,则将其标注为 y”。使用一种或一套启发法可以立即标注成千上万,甚至上百万的数据点。
  • 预先训练的旧模型,可能有偏见或有噪声。

这些数据源中的数据通常不精确(数据有标签,但标签并不像期望的那样准确)或不准确(部分标签有错误)。你可以对模型进行编程,以使用简单的技术或标注功能(如模式识别)从收集的数据集中学习。然后,通过调整特征和超参数获得更理想的权重,直到模型达到所需的性能。可根据需要纳入规模较小的监督数据集以完成模型的训练。 弱监督学习是一种编程训练数据的方法,其目的是减少人工手动标注数据所需的时间。当有未标注的数据集需要管理时,或当应用场景明确允许使用弱标签源时,这种方法最适合分类任务。 到这里你大概知道利用主动学习如何能更有效的获取人工智能数据了,如何大量的标记数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1308357.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Py之scikit-surprise:scikit-surprise的简介、安装、使用方法之详细攻略

Py之scikit-surprise:scikit-surprise的简介、安装、使用方法之详细攻略 目录 scikit-surprise的简介 1、基准测试 Movielens 100k Movielens 1M scikit-surprise的安装 scikit-surprise的使用方法 1、基础用法 (1)、简单的示例,展示如何&#x…

分类预测 | Matlab实现HPO-GRU【23年新算法】基于猎食者优化算法优化门控循环单元的数据分类预测

分类预测 | Matlab实现DBO-SVM蜣螂算法优化支持向量机的数据分类预测【23年新算法】 目录 分类预测 | Matlab实现DBO-SVM蜣螂算法优化支持向量机的数据分类预测【23年新算法】分类效果基本描述程序设计参考资料 分类效果 基本描述 1.HPO-GRU【23年新算法】基于猎食者优化算法优…

生物燃料市场分析:预计2029年将达到1968亿美元

生物燃料(biofuel)泛指由生物质组成或萃取的固体、液体或气体燃料,可以替代由石油制取的汽油和柴油,是可再生能源开发利用的重要方向。所谓的生物质是指利用大气、水、土地等通过光合作用而产生的各种有机体,即一切有生命的可以生长的有机物质…

配置文件中的$和@

配置文件中的$和 0、前言 借鉴文章: https://blog.csdn.net/Saintmm/article/details/124603343 https://blog.csdn.net/ster_ben/article/details/119295815在yml配置文件中,可以使用${}和{}来引用其他配置项的值作为配置项的值。 spring:applicati…

19、WEB攻防——.NET项目DLL反编译未授权访问配置调试报错

文章目录 一、.NET项目——DLL文件反编译指向—代码特性二、.NET项目——Web.config错误调试—信息泄露三、.NET项目——身份验证未授权访问—安全漏洞 web搭配: windowsiisaspaccesswindowsiisaspxsqlserver 一、.NET项目——DLL文件反编译指向—代码特性 bin目…

基于物联网的智能仓管理系统方案

基于物联网的智能仓管理系统方案 一、项目背景 随着企业业务的快速发展,传统的人工仓库管理方式已经无法满足现代企业的需求。仓库运营效率低下、货物出入库错误、库存不准确等问题不断涌现。因此,我们提出一个基于物联网技术的智能仓管理系统方案&…

被围绕的区域[中等]

一、题目 给你一个m x n的矩阵board,由若干字符X和O,找到所有被X围绕的区域,并将这些区域里所有的O用X填充。 示例 1: 输入:board [["X","X","X","X"],["X",&qu…

输入一组数据,以-1结束输入[c]

我们新手写题时总能看到题目中类似这样的输入 没有给固定多少个数据,我们没有办法直接设置数组的元素个数,很纠结,下面我来提供一下本人的方法(新手,看到有错误或者不好的地方欢迎大佬指出,纠正&#xff0…

NOIP2017提高组day2 - T2:宝藏

题目链接 [NOIP2017 提高组] 宝藏 题目描述 参与考古挖掘的小明得到了一份藏宝图,藏宝图上标出了 n n n 个深埋在地下的宝藏屋, 也给出了这 n n n 个宝藏屋之间可供开发的 m m m 条道路和它们的长度。 小明决心亲自前往挖掘所有宝藏屋中的宝藏。但…

Linux 安装图形界面 “startx”

———————————————— 报错,如下: bash :startx command not found ———————————————— 解决方法: 1.先安装 — X Windows System,输入以下命令: yum groupinstall “X Window System”…

IPQ6010 vs IPQ8072 What’s the difference?|802.11AX WiFi6 Solution DR6018 DR8072

IPQ6010 vs IPQ8072 What’s the difference?|802.11AX WiFi6 Solution DR6018 DR8072 IPQ6010 vs IPQ8072: In-Depth Comparison and Selection Guide The rapid evolution of networking technologies has driven continuous innovation in routers and network devices. Am…

鸿蒙(HarmonyOS)北向开发项目编译问题汇总

运行Hello World Hello World 工程可以运行在模拟器中,或者运行在真机设备中。本示例先以选择将 Hello World 工程运行在模拟器中进行说明,如果选择运行在真机设备中,需要先对工程进行签名,然后才能运行在真机设备中。 DevEco S…

Proxmox创建CentOS虚拟机

文章目录 下载ISO安装文件上传创建虚拟机启动虚拟机设置DNS CentOS配置国内安装源备份原有安装源下载更新国内源清理yum缓存制作新配置文件缓存 下载ISO安装文件 下载地址:https://www.xitongzhijia.net/ 也可去官网进行下载 上传 下面介绍直接通过页面上传&…

三、Java运算符

1.运算符和表达式 运算符: ​ 就是对常量或者变量进行操作的符号。 ​ 比如: - * / 表达式: ​ 用运算符把常量或者变量连接起来的,符合Java语法的式子就是表达式。 ​ 比如:a b 这个整体就是表达式。 ​ 而其…

11.仿简道云公式函数实战-逻辑函数-TRUE

1. TRUE函数 TRUE 函数可直接返回逻辑值 true。 2. 函数用法 TRUE() 3. 函数示例 TRUE 函数一般不会作为函数单独使用,可与其他函数一起使用,或作为判断逻辑的结果。如,判断字段值是否为空时,设置公式为IF(ISEMPTY(方案选择)…

2023-12-12 AIGC-AI工具的基本工作原理

摘要: 2023-12-12 AIGC-AI工具的基本工作原理 AI工具的基本工作原理 AI工具的基本工作原理涉及到一系列复杂的技术和算法。这些原理可以根据不同类型的AI工具进行概括,包括机器学习、自然语言处理、图像识别等。以下是一些关键的AI工具及其工作原理的概述&#xff…

基础算法(1):排序(1):选择排序

今天对算法产生了兴趣,开始学习基础算法,比如排序,模拟,贪心,递推等内容,算法是很重要的,它是解决某个问题的特定方法,程序数据结构算法,所以对算法的学习是至关重要的&a…

【知网稳定检索】第三届人文,智慧教育与服务管理国际学术会议(HWESM 2024)

第三届人文,智慧教育与服务管理国际学术会议(HWESM 2024) 2024 3rd International Conference on Humanities, Wisdom Education and Service Management 第三届人文,智慧教育与服务管理国际学术会议(HWESM 2024&…

LangChain学习二:提示-实战(上半部分)

文章目录 上一节内容:LangChain学习一:模型-实战学习目标:提示词及提示词模板的运用学习内容一:什么是提示词?学习内容二:提示词模板2.1 入门2.2 模板格式2.3 验证模板2.4 序列化提示模板2.5 将少量示例传递…

Linux 高级管理,MySQL服务器的构建与维护

实验环境 某公司因业务范围日益扩大,最近订购了一套基于B/S架构的电子商务系统,在正式部署之前,要 求对现有的httpd服务器进行改造,首先需要增加MySQL数据库服务。 需求描述 1. 编译安装MySQL服务器,并添加为mysqld系…