生物信息学中---数据集不平衡的处理方法

news2024/11/23 22:36:42

1.NearMiss:

NearMiss 是 Mani 等人根据数据分布特征,基于 KNN 算法提出的欠采样方案, 对多数类样本利用随机欠采样来达到数据平衡。 根据不同数据采样的距离,可以分为三类: NearMiss-1、 NearMiss-2 和 NearMiss-3。

NearMiss-1 对于每个多数类样本,选择与少数类样本最近的k 个并计算这k 个少数类样本的平均距离,保留平均距离最小的多数类样本; NearMiss-2 与 NearMiss-1不同的是选择最远的k 个少数类样本并计算平均距离并进行保留。 NearMiss-3 在上述基础上进行的改进,对数据更加详细的分类。 首先对于每个少数类样本,选择与多数类样本最近的m 个;接着对于保留的多数类样本,选择距离最近的k 个少数类样本并计算这k 个少数类样本的平均距离,保留平均距离最大的多数类样本。

2 SMOTE:

对于不平衡的数据而言,分类器算法结果通常受多数类样本的影响较大,正负样本差距较大时可能会造成过拟合现象,进而忽视少数类样本在其中带来的影响,严重失衡会影响模型的预测性能。 SMOTE 是由 Chawla 等人[60]在 2002 年提出的一对少数类样本采取随机过采样来达到数据平衡的有效方法。该算法可以描述为: 在少类数据集中每一个样本 x ,利用欧式距离计算出每个样本的k 近邻,然后根据少类样本不平衡的比列确定采样倍率为 N ,从每个样本的k 近邻中随机的选择 N 个样本,若选择的近邻为 Xn( n= 1,2,3, , , ) 在少数类样本和 xn之间进行随机线性插值,则新的样本 x_new 为:

其中rand(0,1)表示生成介于 0 和 1 之间的随机数。将构建出新的少类样本集添加到原少类样本数据集中,最终形成一个新的数据集,即与多类样本数量平衡的数据集。 

3.Borderline-SMOTE

Borderline-SMOTE (Borderline-Synthetic Minority Oversampling Technique) 方法是对SMOTE方法的改进,该算法仅使用边界上的少数类样本来合成新样本。Borderline-SMOTE[60]采样过程是首先将少数类样本分为3类,分别命名为Safe、Danger和Noise。其次,仅对Danger类的少数类样本过采样。具体步骤如下:
Step1:
(1) Safe: 样本周围一半以上均为少数类样本,如图2-1 (A) 中点a。
(2) Danger:样本周围一半以上均为多数类样本,视为在边界上的样本,如图2-1
(A) 中点b。
(3) Noise:样本周围均为多数类样本,视为噪音,如图2-1 (A) 中点c。
Step2:
对b类样本利用SMOTE进行过采样,通过线性插值构建出新的少类样本集添加到原
少类样本数据集中,最终形成一个新的数据集。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/489057.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是数据库分片?

什么是数据库分片? 数据库分片是指将一个大型数据库拆分成多个小型数据库,每个小型数据库称为一个分片。通过这种方式,可以将数据库的负载分散到多个服务器上,从而提高数据库的性能和可伸缩性。 为什么需要数据库分片&#xff1f…

从一到无穷大 #7 Database-as-a-Service租户隔离挑战与解决措施

文章目录 引言计算侧多租户隔离2DFQSQLVMRetro 其他隔离方法其他 引言 在云环境中租户之间的资源共享对于运营商的成本效益来说非常重要,但是一个主要问题是租户之间的资源隔离,这通常与Qos息息相关,从多租户的角度讲,安全性/性能…

ChatGPT 不好用?那你看下这份 Prompt 工程指南

作为大型语言模型接口,ChatGPT 生成的响应令人刮目相看,然而,解锁其真正威力的关键还是在于提示工程。 在本文中,我们将揭示制作提示的专家级技巧,以生成更准确、更有意义的响应。无论你使用 ChatGPT 是为了服务客户、…

用格林童话教你1分钟清晰JS加密

在许多格林童话中,我们可以看到许多隐藏的玄机和谜题,就像JavaScript代码一样。为了保护您的代码安全,我们可以使用JavaScript混淆加密技术来隐藏代码中的逻辑和关键信息。在本文中,我们将以“灰姑娘”为例,介绍如何使…

【视频解读】动手学深度学习V2_00预告

00预告 【动手学深度学习V2】 深度学习是人工智能最热的领域,在过去十年,人工智能的主要突破都来自于深度学习。 深度学习的核心是神经网络,它与人工智能的其他领域不一样的是,神经网络是一个非常灵活的框架,它允许我…

typescript is类型谓词

一、类型谓词是干嘛的? 类型谓词可以有效的帮助我们根据条件缩小类型范围(narrowing)。它与 typeof、instanceof、in类似。但是不同的是typeof、instanceof、in关键字在js中已经是存在的,在ts中使用它们,进行类型收缩…

为什么北欧的顶级程序员数量远远超于中国?

说起北欧,很多人会想到寒冷的冬天,漫长的极夜,童话王国和圣诞老人,但是如果我罗列下诞生于北欧的计算机技术,恐怕你会惊掉下巴,先来看一些人物介绍: Linus Torvalds:是芬兰籍的计算…

人才引进都选什么大学,哪些世界大学排名更靠谱?

最近几年,全国各地都在加大力度引进人才。上海市2020年首先推出留学生落户政策,毕业于世界排名前50名大学的留学生可直接申办落户,毕业于51-100名大学的,缴纳社保满6个月后可申办落户。 国家人事部门也确定了留学生“国家引进人才…

Portraiture4.03一款适用于PS与LR的智能AI磨皮修饰滤镜插件

一款好的图片磨皮软件可以解放修图者的双手,减去繁琐的抠图操作,轻松去除人像脸部的瑕疵。经典而实用的portraiture图片磨皮软件,是人像修图的颇佳选择。 Portraiture 4 是专为人像磨皮开发的经典滤镜,多年以来已经成为人像后期基…

不懂新经济的周黑鸭,陷入“诺基亚式”困境

2022年,卤味巨头们的日子并不好过。曾经创造辉煌业绩的卤味三巨头绝味、周黑鸭、煌上煌,如今都处于业绩下滑的困境之中,巨头自救已然迫在眉睫,其中周黑鸭正在接受挑战的路上。 近期,周黑鸭在武汉举办首届单店特许领袖峰…

YOLO系列损失函数详解

YOLOV1 YOLOV1最后生成77的网格(grid cell),每个grid cell会产生两个预测框(bounding box),每个grid cell产生的两个预测框只能预测同一种类物体,也就是说YOLOV1最多只能预测49种物体,两个预测框中哪一个与标注框的IOU大就选哪一个…

创新案例 | Web3典范BrainTrust如何打造DAO增长飞轮3年扩张50倍

BrainTrust是一家创新的多边平台,类似于去中心化的BOSS直聘。在过去三年中,BrainTrust取得了惊人的增长,总服务价值增长了50倍以上。这家公司的增长模式非常独特,使得它的增长飞轮一路狂飙。在2022年,BrainTrust的成绩…

IP地址是如何定位的

IP地址是互联网中计算机的唯一标识,它由32位二进制数组成,分为四个8位的数字,每个数字之间用"."隔开,例如:106.110.92.215。IP地址的归属地指的是这个IP地址所在的地理位置,对于网络安全、网络监…

巧用语言模型——让准确率再涨一点点!

还记得在去年,我们曾经发过一篇文章介绍 icefall 中的语言模型使用方法:升点小技巧之—在icefall中巧用语言模型。如今半年过去了,k2 团队又有了一些新进展。今天来给大家做一个小小的总结,再给大家的模型涨涨点(又又又…

【问题解决】小米 升级后蓝牙关闭后 早上自动打开怎么办?

目录 原理 连接态: 半连接态:​编辑 关闭态:​编辑 重点来了 升级小米MIUI 14后,发现蓝牙无法关闭,每天睡觉前点击关闭,第二早上它又自动打开,感觉 手机中毒了!! 经过一番研究,搞…

YOLOv6 4.0 使用记录: OpenCV DNN C++推理

目录 1、下载源码 2、下载权重文件 3、配置环境 4、推理 6、ONNX格式导出 权重文件为yolov6list_s.pt 权重为yolov6.pt 7、opencv DNN推理 8、个人总结 1、下载源码 下载最新的4.0版本的 2、下载权重文件 我下的是YOLOv6Lite-S 3、配置环境 cd到项目目录,运…

国民技术N32G430开发笔记(16)- IAP升级 整合多个bin文件为一个升级包

IAP升级 整合多个bin文件为一个升级包 1、我们的程序分区目前为: Boot 0x8000000 – 0x8004000 16KB Settings 0x8004000 – 0x8006000 8KB App 0x8006000 – 0x800B000 20KB Download 0x800B000 – 0x800FFFF 20KB 2、烧录时候的bin文件有三个: Bootl…

Docker笔记整理

安装Docker 通过 uname -r 命令查看你当前的内核版本 uname -r 使用 root 权限登录 Centos。确保 yum 包更新到最新 yum -y update 卸载旧版本(如果安装过旧版本的话) yum remove docker docker-common docker-selinux docker-engine 安装需要的软件包, yum-u…

Web前端已死?别带节奏了,说白了就是“卷”

趁着“前端已死”这个话题还有点热度,我想再好好聊聊这个话题。社区里怎么只有前端已死的论调,后端、DB、运维、连原生开发还在好好“划水”。前端却发出了哀嚎:前端已死,找工作好难啊。 前端技术精微渊深,除了基础的…

( 数组和矩阵) 766. 托普利茨矩阵 ——【Leetcode每日一题】

❓766. 托普利茨矩阵 难度:简单 给你一个 m x n 的矩阵 matrix 。如果这个矩阵是托普利茨矩阵,返回 true ;否则,返回 false 。 如果矩阵上每一条由左上到右下的对角线上的元素都相同,那么这个矩阵是 托普利茨矩阵 。…