机器学习—— PU-Learning算法

news2024/11/24 13:06:35

机器学习—— PU-Learning算法

本篇博客将介绍PU-Learning算法的基本概念、基本流程、基本方法,并简单探讨Two-step PU Learning算法和无偏PU Learning算法的具体流程。最后,将通过Python代码实现一个简单的PU-Learning示例,以便更好地理解这些概念和算法。

1. 基本概念

PU-Learning是一种解决类别不平衡问题的机器学习方法,其中类别包括正例(Positive)和未标记样本(Unlabeled)。在PU-Learning中,希望从未标记样本中挑选出可能的负例,以提高分类器性能。

2. 基本流程

PU-Learning的基本流程如下:

  1. 从已标记样本中选择一部分正例作为训练集的正例。
  2. 从未标记样本中选择一部分样本作为训练集的负例。
  3. 使用选择的正例和负例训练分类器。
  4. 使用训练好的分类器对未标记样本进行分类,并根据分类结果更新训练集。

3. 基本方法

PU-Learning的基本方法包括:

  • 有偏采样(Biased Sampling):从未标记样本中选择概率较高的样本作为负例。
  • 标记传播(Label Propagation):利用已标记样本的信息,通过传播标记来识别未标记样本的类别。
  • 概率估计(Probability Estimation):估计未标记样本属于正例的概率。

4. Two-step PU Learning算法

Two-step PU Learning算法是一种常见的PU-Learning方法,其基本流程如下:

  1. 第一步:有偏采样(Biased Sampling):从未标记样本中选择概率较高的样本作为负例,构建训练集。
  2. 第二步:训练分类器(Train Classifier):使用选择的正例和负例训练分类器。

5. 无偏PU Learning算法

无偏PU Learning算法通过对未标记样本进行加权来减少有偏性,其基本流程如下:

  1. 计算正例和负例的相似度(Calculate Similarity):计算未标记样本与已标记样本的相似度。
  2. 根据相似度进行加权(Weighting):根据相似度对未标记样本进行加权,以减少有偏性。
  3. 训练分类器(Train Classifier):使用加权后的样本训练分类器。

6. 程序示例

下面是一个简单的Python实现PU-Learning的示例代码:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC

class PUClassifier:
    def __init__(self, positive_ratio=0.5, negative_ratio=0.5):
        self.positive_ratio = positive_ratio
        self.negative_ratio = negative_ratio
        self.classifier = SVC()
        
    def fit(self, X, y):
        positive_samples = X[y == 1]
        negative_samples = X[y == 0]
        
        # Biased Sampling
        positive_indices = np.random.choice(len(positive_samples), int(len(positive_samples) * self.positive_ratio), replace=False)
        negative_indices = np.random.choice(len(negative_samples), int(len(negative_samples) * self.negative_ratio), replace=False)
        
        X_train = np.concatenate((positive_samples[positive_indices], negative_samples[negative_indices]))
        y_train = np.concatenate((np.ones(len(positive_indices)), np.zeros(len(negative_indices))))
        
        # Train Classifier
        self.classifier.fit(X_train, y_train)
        
    def predict(self, X):
        return self.classifier.predict(X)
        
# 构造一个二维数据集
X = np.random.randn(100, 2)
y = np.random.randint(2, size=100)  # 随机生成正负例

# 创建PUClassifier对象并进行拟合
pu_classifier = PUClassifier()
pu_classifier.fit(X, y)

# 预测并输出结果
predictions = pu_classifier.predict(X)

# 绘制数据集和分类结果
plt.figure(figsize=(10, 6))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='coolwarm', marker='o', edgecolors='k', label='Samples')
plt.scatter(X[predictions == 1][:, 0], X[predictions == 1][:, 1], c='blue', marker='s', edgecolors='k', label='Predicted Positive')
plt.scatter(X[predictions == 0][:, 0], X[predictions == 0][:, 1], c='red', marker='s', edgecolors='k', label='Predicted Negative')

# 绘制决策边界
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
xx, yy = np.meshgrid(np.linspace(xlim[0], xlim[1], 50), np.linspace(ylim[0], ylim[1], 50))
Z = pu_classifier.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.2, cmap='coolwarm')

plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('PU Learning Results')
plt.legend()
plt.show()

在这里插入图片描述
通过以上代码,使用随机生成的二维数据集,利用PU-Learning算法进行分类,并将结果可视化展示在图中。蓝色和红色方块代表分类器预测为正例和负例的样本,不同颜色的圆圈代表正负例样本,而背景的色块则表示分类器的决策边界。

总结

在本篇博客中,简单介绍了PU-Learning算法的基本概念、基本流程和基本方法,并简单讨论了Two-step PU Learning算法和无偏PU Learning算法的具体流程。通过示例代码,展示了如何用Python实现一个简单的PU-Learning分类器。PU-Learning是解决类别不平衡问题的有效方法,在实际应用中具有广泛的应用前景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1557969.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动态规划——回文串问题

目录 练习1:回文子串 练习2:最长回文子串 练习3:回文串分割IV 练习4:分割回文串 练习5:最长回文子序列 练习6:让字符串成为回文串的最小插入次数 本篇文章主要学习使用动态规划来解决回文串相关问题&…

【C#】知识点速通

前言: 笔者是跟着哔站课程(Trigger)学习unity才去学习的C#,并且C语言功底尚存,所以只是简单地跟着课程将unity所用的C#语言的关键部分进行了了解,然后在后期unity学习过程中加以深度学习。如需完善的C#知识…

JDBC远程连接mysql报错:NotBefore: Sat Mar 30 16:37:41 UTC 2024

虚拟机docker已经部署了mysql,用navicat可以直接远程连接,datagrip却不能,如图: 需要在最后加上 ?useSSLfalse , 如:jdbc:mysql://192.168.30.128:3306?useSSLfalse navicat不用加的原因是没有使用jdbc连接&#x…

实验二 pandas库绘图以及数据清洗

1.1pandas验证操作 1、验证以下代码,并将结果附截图 import pandas as pd A[1,3,6,4,9,10,15] weight[67,66,83,68,79,88] sex[女,男,男,女,男, 男] S1pd.Series(A)#构建S1序列 print(S1) S2pd.Series(weight)#构建S2序列 print(S2) S3pd.Series(sex)#构建S3序列 p…

第3章.引导ChatGPT精准角色扮演:高效输出专业内容

角色提示技术 角色提示技术(role prompting technique),是通过模型扮演特定角色来产出文本的一种方法。用户为模型设定一个明确的角色,它就能更精准地生成符合特定上下文或听众需求的内容。 比如,想生成客户服务的回复…

STM32的DMA

DMA(Direct memory access)直接存储器存取,用来提供在外设和存储器之间或者存储 器和存储器之间的高速数据传输,无须CPU干预,数据可以通过DMA快速地移动,这就节 省了CPU的资源来做其他操作。 STM32有两个DMA控制器共12个通道(DMA1有7个通道…

(八)目标跟踪中参数估计(似然、贝叶斯估计)理论知识

目录 前言 一、统计学基础知识 (一)随机变量 (二)全概率公式 (三)高斯分布及其性质 二、似然是什么? (一)概率和似然 (二)极大似然估计 …

Linux内核之Binder驱动container_of进阶用法(三十四)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

EasyRecovery2024汉化精简版,无需注册

EasyRecovery2024是世界著名数据恢复公司 Ontrack 的技术杰作,它是一个威力非常强大的硬盘数据恢复软件。能够帮你恢复丢失的数据以及重建文件系统。 EasyRecovery不会向你的原始驱动器写入任何东东,它主要是在内存中重建文件分区表使数据能够安全地传输…

ctfshow web入门 XXE

XXE基础知识 XXE(XML External Entity)攻击是一种针对XML处理漏洞的网络安全攻击手段。攻击者利用应用程序在解析XML输入时的漏洞,构造恶意的XML数据,进而实现各种恶意目的。 所以要学习xxe就需要了解xml xml相关: …

Chrome浏览器 安装Vue插件vue-devtools

前言 vue-devtools 是一个为 Vue.js 开发者设计的 Chrome 插件。它可以让你更轻松地审查和调试 Vue 应用程序。与普通的浏览器控制台工具不同,Vue.js devtools 专为 Vue 的响应性数据和组件结构量身定做。 1. 功能介绍 组件树浏览:这个功能可以让你查…

使用Python实现ID3决策树中特征选择的先后顺序,字节跳动面试真题

def empty1(pri_data): hair [] #[‘长’, ‘短’, ‘短’, ‘长’, ‘短’, ‘短’, ‘长’, ‘长’] voice [] #[‘粗’, ‘粗’, ‘粗’, ‘细’, ‘细’, ‘粗’, ‘粗’, ‘粗’] sex [] #[‘男’, ‘男’, ‘男’, ‘女’, ‘女’, ‘女’, ‘女’, ‘女’] for o…

OpenHarmony error: signature verification failed due to not trusted app source

问题:error: signature verification failed due to not trusted app source 今天在做OpenHarmony App开发,之前一直用的设备A在测试开效果,今天换成了设备B,通过DevEco Studio安装应用程序的时候,就出现错误&#xf…

爱上数据结构:栈和队列的概念及使用

​ ​ 🔥个人主页:guoguoqiang. 🔥专栏:数据结构 ​ 一、栈 1.栈的基本概念 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端 称为栈顶,…

不同Python版本和wxPython版本用pyinstaller打包文件大小对比

1、确定wxPython和Python版本的对应关系 在这里可以找到Python支持的所有wxPython版本:https://pypi.tuna.tsinghua.edu.cn/simple/wxpython/ 由于Python从3.6版本开始支持f字符串、从3.9版本开始不支持Windows7操作系统,所以我仅筛选3.6-3.8之间的版本…

qupath再度更新:使用WSInfer进行深度学习

Open and reusable deep learning for pathology with WSInfer and QuPath Open and reusable deep learning for pathology with WSInfer and QuPath | npj Precision Oncology (nature.com) 以前:数字病理图像分析的开源软件qupath学习 ①-CSDN博客 背景 深度学…

HarmonyOS实战开发-如何实现一个自定义抽奖圆形转盘

介绍 本篇Codelab是基于画布组件、显式动画,实现的一个自定义抽奖圆形转盘。包含如下功能: 通过画布组件Canvas,画出抽奖圆形转盘。通过显式动画启动抽奖功能。通过自定义弹窗弹出抽中的奖品。 相关概念 Stack组件:堆叠容器&am…

统计XML文件内标签的种类和其数量及将xml格式转换为yolov5所需的txt格式

1、统计XML文件内标签的种类和其数量 对于自己标注的数据集,需在标注完成后需要对标注好的XML文件校验,下面是代码,只需将SrcDir换成需要统计的xml的文件夹即可。 import os from tqdm import tqdm import xml.dom.minidomdef ReadXml(File…

Day62-Nginx四层负载均衡及结合7层负载均衡实践

Day62-Nginx四层负载均衡及结合7层负载均衡实践 1. 什么是四层负载均衡?2. 四层负载均衡的常用场景3. 百万并发百亿PV大规模架构4. L4和L7的区别及常用软件。5. lvs、nginx、haproxy区别6. nginx四层负载均衡(tcp/ip,ip:port)7. n…

python多方式操作elasticsearch介绍

python多方式操作elasticsearch介绍 1. requests模块操作ES ​ requests 是一个 Python HTTP 库,它简化了发送 HTTP 请求和处理响应的过程。通过 requests 模块,开发人员可以轻松地与 Web 服务进行通信,包括获取网页内容、执行 API 请求等。…