用于不平衡医疗数据分类的主动SMOTE

news2025/1/11 10:18:39

一、主动学习如何应用于不平衡数据的处理

        首先,主动SMOTE不是像经典的SMOTE那样从训练集中随机选择一个样本作为生成合成样本的轴心点,而是通过不确定性和多样性采样来智能地进行样本选择,这是主动学习的两种技术。

        在数据不平衡的情况下,可以使用主动学习来平衡训练样本,方法是从多数类中选择最具代表性的实例,从少数类中消除噪声样本,并降低总体不平衡比率。

        主动学习的主要目的是应用动态数据采样来使训练数据沿着训练过程进行进化。主要问题是我们如何选择训练集的样本?什么样的样本会提高算法性能?起初,这个问题听起来可能与不平衡类问题无关。然而,在我们的例子中,问题是:我们首先需要从少数类中选择哪些点来生成合成样本,这样我们才能最终获得良好的模型性能?

        基于主动学习的SMOTE,与传统采样不一样的是,我们如何为训练集选择样本?什么样的样本会提高算法的性能?

        我们需要首先从少数类中选择哪些点来生成合成样本,以便我们最终能够拥有良好的模型性能?为此,我们选择了两种抽样方法:不确定性抽样和多样性抽样。

二、不确定性抽样

不确定性抽样是一组技术,用于识别决策边界附近具有最高不确定性的最低置信度样本,以插入新的训练样本。

测量不确定性的方法有很多,比如最小值、置信度和熵。

三、多样性抽样

它不同于单纯关注存在不确定性的边界样本(如不确定性采样所做的),而是选择彼此不同或差异较大的样本。

这种方法可以帮助识别模型在某些区域的知识盲区,因为这些区域缺乏足够的代表性样本。

相比于只选择靠近决策边界的样本,多样性采样会选择那些与现有训练数据不同的样本。这有助于减少现实世界中的采样偏差,让模型能更好地概括到未知区域。

多样性采样的选择与不确定性采样的选择是不同的。前者选择的样本彼此差异较大,而后者更关注位于决策边界附近的样本。

四、主动SMOTE

主动SMOTE旨在将SMOTE与主动学习相结合。

换句话说,我们不是从训练集中随机选择一个点作为生成合成样本的枢轴点,而是使用不确定性和多样性采样智能地选择点。

实际上,我们可以说新提出的算法有两个主要阶段。不确定性采样阶段和多样性采样阶段。

4.1、不确定性采样阶段

        ①首先,算法会训练一个机器学习模型,使用全部的训练数据。
        ②然后,算法会计算所有少数类样本属于少数类的概率。
        ③接下来,算法会根据某种不确定性度量来计算模型对这些少数类样本的预测不确定性。常用的不确定性度量有:
                置信度边界(Margin):预测概率差值越小,说明模型越不确定。
                熵(Entropy):预测概率分布越均匀,说明模型越不确定。
       ④ 最后,算法会选择一定比例的最不确定的少数类样本,这个比例是一个超参数

4.2、多样性采样阶段

多样性抽样阶段的目的是对所选的最不确定的样本进行多样性抽样。

首先,我们使用K-means将最不确定的项目划分为k个聚类

然后从每个聚类中分层抽样。k簇的数量是一个需要调整的超参数,以及我们将从每个簇中选择的项目数量。我们选择K-means作为聚类方法,因为它是最常用的聚类策略。

创新点:比较其他聚类方法优劣

4.3、算法流程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2040468.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024.8完善版 NineAi-ChatGPT系统源码

Nine AI.ChatGPT是基于ChatGPT开发的一个人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代…

Vue2中watch与Vue3中watch对比

上一节说到了 computed计算属性对比 ,虽然计算属性在大多数情况下更合适,但有时也需要一个自定义的侦听器。这就是为什么 Vue 通过 watch 选项提供了一个更通用的方法,来响应数据的变化。当需要在数据变化时执行异步或开销较大的操作时&#…

【策略模式】设计模式系列:在Java中实现灵活的行为选择(实战指南)

文章目录 策略模式:在Java中实现灵活的行为选择引言1. 策略模式的组成1.1 抽象策略 (Strategy)1.2 具体策略 (Concrete Strategy)1.3 上下文 (Context)1.4 UML类图和时序图 2. 策略模式在Java中的实现步骤一:定义抽象策略接口步骤二:创建具体…

[LitCTF 2024]exx

输入任意账号密码进行抓包 考查xxe漏洞 我们加入xxe语句并让它回显我们要它会显的东西:先来读取一下用户名和密码 我们可以看到,它已经读取了服务器下的账号密码文件,接着我们直接读取根目录下的flag文件。通常情况下flag文件的位置一般就根…

CompletableFuture——异步编程艺术

目录 1、CompletableFuture是什么? 2、CompletableFuture和Future、CompletionStage的关系? 3、CompletableFuture常用方法 3.1、 创建 CompletableFuture 实例 3.2、完成时触发thenApply、thenAccept、thenRun 3.3、组合多个 CompletableFuture 3…

C语言中的栈

一、栈的定义: 就是只能表的一端操作的顺序表或链表,允许操作的那一端成为栈顶元素,与之相对应的另一端称为栈底元素。 我们向栈里存入元素称为压栈,即最先放入的元素存放在栈底,最后放入的元素存放在栈顶。 我们将…

怿星科技与您相约——2024 Testing Expo

汽车测试及质量监控博览会(中国)Testing Expo China-Automotive 怿星科技展位路线 届时欢迎莅临2057号展台!

OpenCV图像滤波(16)应用分离式滤波器函数sepFilter2D()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 对图像应用分离式线性滤波器。 该函数对图像应用分离式线性滤波器。首先,src 的每一行都用 1D 内核 kernelX 进行滤波。然后&#x…

爬虫 Web Js 逆向:RPC 远程调用获取加密参数(1)WebSocket 协议介绍

RPC (Remote Procedure Call) 是远程调用的意思。 在 Js 逆向时,本地可以和浏览器以服务端和客户端的形式通过 WebSocket 协议进行 RPC 通信,这样可以直接调用浏览器中的一些函数方法,不必去在意函数具体的执行逻辑,可以省去大量…

计算机网络面试题汇总

文章目录 计算机网络基础计算机网络体系结构(网络分层模型)OSI 七层模型是什么?每一层的作用是什么?TCP/IP 四层模型是什么?每一层的作用是什么?五层体系结构以及对应的协议为什么网络要分层,分层的好处?常见网络协议有哪些,每一层常见协议有哪些?应用层有哪些常见的协…

【网编】——tcp编程

tcp流程 服务器 头文件&#xff1a; #include <sys/types.h> /* See NOTES */ #include <sys/socket.h> #include <errno.h> #include<stdio.h> #include <netinet/in.h> #include <netinet/ip.h> /* superset of previous */ #…

链接Mysql 报错connection errors; unblock with ‘mysqladmin flush-hosts‘错误的解决方法!亲测有效!

文章目录 前言一、使用 mysqladmin flush-hosts 命令解锁 IP 地址二、增加 max_connect_errors 参数三、检查连接错误的原因 前言 今天正常的对各大的测试服进行重启的时候发现每台服务器都启动失败&#xff01;查看日志发现每台服务器都报一下的错误 java.sql.SQLException:…

分布式光伏管理系统具有什么功能?有推荐吗?

1、项目进度管理 分布式光伏管理系统能够全面管理项目的进度&#xff0c;从初步沟通、收资踏勘、设计、施工到并网发电的全流程。系统通过可视化的项目进度管理工具&#xff0c;展示每一步的完成情况&#xff0c;包括员工跟进记录、关键节点时间等&#xff0c;帮助管理者从宏观…

windows下php安装kafka

下载zookeeper Kafka 依赖 Zookeeper 进行分布式协调&#xff0c;所以需要下载Zookeeper &#xff0c;当然你也可以使用kafka包里自带的一个默认配置的 Zookeeper。这里我们单独下载一个 访问Zookeeper官方下载页面在页面中找到最新的稳定版本&#xff0c;点击相应的下载链接…

Datawhale X 魔搭 AI夏令营第四期-魔搭生图task2学习笔记

精读代码 1.环境安装 !pip install simple-aesthetics-predictor!pip install -v -e data-juicer!pip uninstall pytorch-lightning -y !pip install peft lightning pandas torchvision!pip install -e DiffSynth-Studio 开始要先把代码中需要使用到的包、库用pip命令安装。…

Fomepay和Fomecard是不是跑路了?

最近几天&#xff0c;fomepay跑路的消息&#xff0c;很多人知道了&#xff0c;fomepay客服繁忙&#xff0c;也无法提现。更多的是&#xff0c;很多人刚充值&#xff0c;才看到跑路的消息&#xff0c;实在惨啊&#xff01; 而现在&#xff0c;如果之前没有登录过fomepay的话&…

安卓TV入门项目

android studio创建tv项目 下载android studio点此下载 配置环境变量&#xff1a; d盘新增Android文件夹&#xff0c;创建android-avd和android-sdk文件夹 环境变量名称&#xff1a;ANDROID_HOME 环境变量值&#xff1a;D:\Android\android-sdk 环境变量名称&#xff1a;ANDRO…

深入理解 Spring 三级缓存:解决单例 Bean 循环依赖的利器

目录 一、什么是循环依赖&#xff1f; 二、关于传说中的三级缓存 1.基本概念&#xff1a; 2.三级缓存是哪三级&#xff1f; 3.【举个例子】那三级缓存是怎么解决上述代码例子中的A、B互相依赖呢&#xff1f; 详细过程&#xff1a;&#xff08;理解用&#xff09; 简约版…

【专题】2024年7月人工智能AI行业报告合集汇总PDF分享(附原数据表)

原文链接:https://tecdat.cn/?p37350 随着人工智能技术的飞速发展&#xff0c;AI已经成为当今时代的重要驱动力。本报告将聚焦于人工智能AI行业的最新动态&#xff0c;涵盖客户服务、体验营销、资产管理以及国产AI大模型应用等多个领域。通过深入研究和分析&#xff0c;我们…

【Python学习-UI界面】PyQt5 小部件5-QCheckBox

样式如下: 当将QCheckBox对象添加到父窗口时&#xff0c;文本标签之前会出现一个矩形框。 和QRadioButton一样&#xff0c;它也是一个可选择的按钮。 它通常用于用户被要求选择一个或多个可用选项的场景。 不同于单选按钮&#xff0c;复选框默认情况下不是互斥的。 为了限制…