人工智能安全-3-噪声数据处理

news2025/1/15 13:11:43

0 提纲

  • 噪声相关概述
  • 噪声处理的理论与方法
  • 基于数据清洗的噪声过滤
  • 主动式过滤
  • 噪声鲁棒模型

1 噪声相关概述

噪声类型:

  • 属性噪声:样本中某个属性的值存在噪声
  • 标签噪声:样本归属类别

关于噪声分布的假设:均匀分布、高斯分布、泊松分布等。

标签噪声的产生原因:
(1)特定类别的影响,在给定的标注任务中,各个类别样本之间的区分度不同,有的类别与其他类别都比较相似,就会导致这类样本标注错误率高。
(2)标注人为的因素。
(3)少数类的标注更容易错误。
(4)训练数据受到了恶意投毒,当在对抗环境下应用机器学习模型时,攻击者往往会通过一些途径向数据中注入恶意样本,扰乱分类器的性能。

噪声标签的影响:

  • 标签噪声比属性噪声更重要
  • 数据利用率
  • 分类性能下降: k k kNN、决策树和支持向量机、 Boosting 等。
  • 模型复杂度
    – 决策树节点增多
    – 为了降低噪声影响,需要增加正确样本数量
    – 可能导致非平衡数据
  • 正面影响:Bagging训练数据中的噪声有利于提升基分类器的多样性

与噪声类似的概念和研究:

  • 异常
  • 离群点:outlier
  • 少数类
  • 小样本
  • 对抗样本
  • 恶意样本
  • 脏数据

2 噪声处理的理论与方法

2.1 噪声处理的理论基础

概率近似正确定理(probably approximately correct,PAC ):
对于任意的学习算法而言,训练数据噪声率 β \beta β,必须满足 β ≤ ε / ( 1 + ε ) β≤ ε /(1+ ε) βε/(1+ε) ,其中 ε ε ε表示分类器的错误率。

2.2 噪声处理的方法概览

  • 基于数据清洗的噪声过滤
  • 主动式噪声过滤
  • 噪声鲁棒模型

3 基于数据清洗的噪声过滤

数据层

  • 去除噪声样本
  • 修正噪声样本
  • 方法:采用噪声敏感方法检测噪声
    k k kNN, k k k
    – 密度方法
    – 决策树
    – 集成学习:静态集成、动态集成;投票
    – 主动学习:人工+分类器迭代

直接删除:

  • 直接删除法是基于两种情况,把异常值影响较大或看起来比较可疑的实例删除,或者直接删除分类器中分类错误的训练实例。
  • 在具体实现方法上,如何判断异常值、可疑等特征,可以使用边界点发现之类的方法。

基于最近邻的去噪方法:

  • k k kNN本身原理来看,当 k k k比较小的时候,分类结果与近邻的样本标签关系很大。因此,它是一种典型的噪声敏感模型,在噪声过滤中有一定优势。
  • 压缩最近邻CNN、缩减最近邻RNN、基于实例选择的Edited Nearest Neighbor等,也都可以用于噪声过滤。

集成去噪:集成分类方法对若干个弱分类器进行组合,根据结果的一致性来判断是否为噪声,是目前一种较好的标签去噪方法。两种情况:

  • 使用具有相同分布的其他数据集,当然该数据集必须是一个干净、没有噪声的数据。
  • 不使用外部数据集,而是直接使用给定的标签数据集进行 K K K折交叉分析。

在这里插入图片描述

4 主动式过滤

主动式过滤:

  • 基于数据清洗的噪声过滤方法的隐含假设是噪声是错分样本,把噪声和错分样本等同起来。
  • 位于分类边界的噪声最难于处理,需要人工确认。

主动学习框架和理论为人类专家与机器学习的写作提供了一种有效的途径,它通过迭代抽样的方式将某种特定的样本挑选出来,交由专家对标签进行人工判断和标注,从而构造有效训练集的一种方法。
在这里插入图片描述
查询策略如何选择可能是噪声的样本,就成为主动学习的核心问题。
查询策略主要可以分为以下两类:

  • 基于池的样例选择算法;
  • 基于流的样例选择算法。

基于池的样本选择算法代表性的有:

  • 基于不确定性采样的查询方法;
  • 基于委员会的查询方法;
  • 基于密度权重的方法等。

不确定性采样的查询:将模型难于区分的样本提取出来,具体在衡量不确定性时可以采用的方法有最小置信度、边缘采样和熵。
在这里插入图片描述
x L C ∗ = argmax ⁡ x ( 1 − P θ ( y ^ ∣ x ) ) = argmin ⁡ x P θ ( y ^ ∣ x ) x_{L C}^{*}=\operatorname{argmax}_{x}\left(1-P_{\theta}(\hat{y} \mid x)\right)=\operatorname{argmin}_{x} P_{\theta}(\hat{y} \mid x) xLC=argmaxx(1Pθ(y^x))=argminxPθ(y^x)

边缘采样是选择哪些类别概率相差不大的样本:
x M ∗ = argmin ⁡ x ( P θ ( y ^ 1 ∣ x ) − P θ ( y ^ 2 ∣ x ) ) x_{M}^{*}=\operatorname{argmin}_{x}\left(P_{\theta}\left(\hat{y}_{1} \mid x\right)-P_{\theta}\left(\hat{y}_{2} \mid x\right)\right) xM=argminx(Pθ(y^1x)Pθ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/822656.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity 引擎做残影效果——1、BakeMesh

Unity实现残影效果 大家好,我是阿赵。   这次来分享一下在Unity里面做残影的效果。   所谓的残影,就是在角色移动的过程中,留下一串残留的影子。 这种效果比较常出现在格斗游戏和动作游戏。   在Unity里面做残影,方法很多…

DSPM来袭!什么是数据安全态势管理

数据安全态势管理是一种保护云数据的方法,通过确保敏感数据始终具有正确的安全态势,无论其被复制或移动到何处。 那么,什么是DSPM?这是一个简单的例子: 假设您已经为云数据建立了出色的安全态势。在此示例中&#xf…

力扣 96. 不同的二叉搜索树

题目来源:https://leetcode.cn/problems/unique-binary-search-trees/description/ C题解:动归五部曲。 确定dp数组以及下标的含义。dp[i] : 1到i为节点组成的二叉搜索树的个数为dp[i]。确定递推公式。由于是二叉搜索树,我们可以…

vue实现 图片拖拽及鼠标滚轮放大缩小

效果&#xff1a; 代码实现 <template><div class"container"><divclass"image-container"mousewheel.stop"onMouseWheel"mousedown"onMouseDown"mousemove"onMouseMove"mouseleave"onMouseLeave&quo…

大文件传输的有效可用方式

如何传输大文件&#xff1f;大文件传输的方法有哪些&#xff1f;在互联网时代&#xff0c;速度就是效率。企业在生产过程中需要进行数据信息的交换、转移。这就涉及到大文件的传输。不同的行业都有大文件传输的需求。比如影视行业需要每天传输视频素材&#xff0c;一个视频可能…

第十三章 利用PCA简化数据

文章目录 第十三章 利用PCA简化数据13.1降维技术13.2PCA13.2.1移动坐标轴 13.2.2在NumPy中实现PCA13.3利用PCA对半导体制造数据降维 第十三章 利用PCA简化数据 PCA&#xff08;Principal Component Analysis&#xff0c;主成分分析&#xff09;是一种常用的降维技术&#xff0…

Error in v-on handler (Promise/async): “[object Object]“

解决方法&#xff1a;用try 和 catch 语句来处理 catch来接收try异常报错

Linux怎么设置软链接(ln命令)

在Linux中&#xff0c;软链接&#xff08;Symbolic Link&#xff09;&#xff0c;它可以指向另一个文件或目录。类似于Windows中的快捷方式。 主要作用&#xff1a;文件路径简化&#xff1a;通过创建软链接&#xff0c;可以将长而复杂的文件路径简化为一个易于记忆和使用的链接…

【大数据之Flume】四、Flume进阶之复制和多路复用、负载均衡和故障转移、聚合案例

1 复制和多路复用 &#xff08;1&#xff09;需求&#xff1a;使用 Flume-1 监控文件变动&#xff08;可以用Exec Source或Taildir Source&#xff09;&#xff0c;Flume-1 将变动内容传递给 Flume-2&#xff08;用Avro Sink传&#xff09;&#xff0c;&#xff08;用Avro Sou…

ES6基础知识九:你是怎么理解ES6中Module的?使用场景?

一、介绍 模块&#xff0c;&#xff08;Module&#xff09;&#xff0c;是能够单独命名并独立地完成一定功能的程序语句的集合&#xff08;即程序代码和数据结构的集合体&#xff09;。 两个基本的特征&#xff1a;外部特征和内部特征 外部特征是指模块跟外部环境联系的接口…

iMacros WebBrowser Component for .NET

iMacros WebBrowser Component for .NET 在几分钟内实现应用程序自动化 快速轻松地将iMacro集成到您的应用程序中。不需要单独的安装程序。 无缝集成 iMacros与您的.NET应用程序无缝集成&#xff0c;作为Microsoft WebBrowser控件的替代品。它甚至可以用作每个.NET应用程序中的…

C++报错 XX does not name a type;field `XX’ has incomplete type解决方案

C报错 XX does not name a type&#xff1b;field XX’ has incomplete type解决方案 两个C编译错误及解决办法–does not name a type和field XX’ has incomplete type 编译错误一&#xff1a;XX does not name a type 编译错误二&#xff1a;field XX’ has incomplete t…

【云原生】Serverless 技术架构分析

一、什么是Serverless? 1、Serverless技术简介 ​ Serverless&#xff08;无服务器架构&#xff09;指的是由开发者实现的服务端逻辑运行在无状态的计算容器中&#xff0c;它由事件触发&#xff0c; 完全被第三方管理&#xff0c;其业务层面的状态则被开发者使用的数据库和存…

【BASH】回顾与知识点梳理(五)

【BASH】回顾与知识点梳理 五 五. 数据流重导向5.1 什么是数据流重导向standard output 与 standard error output/dev/null 垃圾桶黑洞装置与特殊写法standard input &#xff1a; < 与 << 5.2 命令执行的判断依据&#xff1a; ; , &&, ||cmd ; cmd (不考虑指…

Android 从LibVLC-android到自编译ijkplayer播放H265 RTSP

概述 ijkplayer: Android/iOS video player based on FFmpeg n3.4, with MediaCodec, VideoToolbox support. 官方的描述就这么简单的一句话&#xff0c;但丝毫都不影响它的强大。 从LibVLC 到 ijkplayer 截止到2023.7.20 LibVLC-Android 最大的问题在与OOM&#xff0c;测试了…

多线程(JavaEE初阶系列6)

目录 前言&#xff1a; 1.什么是线程池 2.标准库中的线程池 3.实现线程池 结束语&#xff1a; 前言&#xff1a; 在上一节中小编带着大家了解了一下Java标准库中的定时器的使用方式并给大家实现了一下&#xff0c;那么这节中小编将分享一下多线程中的线程池。给大家讲解一…

威胁分析风险评估(TARA)影响和攻击可行性评估参考

在威胁分析风险评估&#xff08;TARA)过程中&#xff0c;风险等级由对资产安全属性侵害造成后果的影响等级和威胁的可能性两方面综合评估。 备注&#xff1a;以上内容的评估皆是建立在由信息安全问题引起并导致的前提下。 影响等级评估 影响等级说明&#xff0c;影响从安全&a…

k8s-服务发现service和ingress

回到目录 service用于集群内部应用的网络调用&#xff0c;处理东西流量 ingress用于集群外部用户访问内部服务&#xff0c;处理南北流量 一 kube-proxy三种代理模式 kubernetes集群中有三层网络&#xff0c;一类是真实存在的&#xff0c;例如Node Network、Pod Network,提供真…

css position: sticky;实现上下粘性布局,中间区域滚动

sticky主要解决的问题 1、使用absolute和fixed中间区域需要定义高度2、使用absolute和fixed底部需要写padding-bottom 避免列表被遮挡住一部分&#xff08;底部是浮窗的时候&#xff0c;需要动态的现实隐藏&#xff09; <!DOCTYPE html> <html lang"en"&…

从0-1实现简易Raft分布式共识算法

一、Raft前置简介 Raft目前是最著名的分布式共识性算法&#xff0c;被广泛的应用在各种分布式框架、组件中&#xff0c;如Redis、RocketMq、Kafka、Nacos&#xff08;CP&#xff09;等 根据Raft论文&#xff0c;可将Raft拆分为如下4个功能模块&#xff1a; 领导者选举日志同…