内容安全复习 10 - 异常检测

news2024/11/26 15:23:05

文章目录

  • 概述
    • 什么是异常检测
    • 异常检测应用
    • 与二分类分类器的辨析
    • 广义分布外检测(OOD)
  • 异常检测分类
    • Deep Learning for Feature Extraction(用于特征提取的深度学习)
    • Learning Feature Representations of Normality(学习正常的特征表征)
    • End-to-end anomaly score learning(端对端的异常分数学习)
  • 异常检测方法介绍 -- 自编码器
    • 什么是自编码器
    • 基于生成对抗网络(GAN-Based)
    • 基于伪造异常样本
    • 基于知识蒸馏
    • 基于内存查询
    • 基于归一化流

概述

什么是异常检测

给定一组训练数据 { x 1 , x 2 , . . . . . . , x N } \{x^1, x^2,......,x^N\} {x1,x2,......,xN},需要找到一个检测输入 𝑥 与训练数据是否相似的方程。不同的方法使用不同的度量来衡量相似性。
在这里插入图片描述
用一个方程用来检测输入 x 和已有的数据是否相似。相似则正常,否则异常。

异常检测应用

  • 欺诈检测
  • 网络入侵检测
  • 癌症检测

与二分类分类器的辨析

此处需要注意异常检测并不等于二分类分类器。
在异常检测中数据不能被简单的视为正常、异常两个类别。特别是在异常中,实际上是把异常尽可能的按照各自属性分为了具体的类。在一些极端的情况下,甚至无法找到异常的样本。
在这里插入图片描述
正常的数据中,它们都是宝可梦这一分类下的。
但是在异常数据中,亚古兽属于数码宝贝分类、幽幽子属于二次元人物分类、水壶更是属于日常用品分类,这是不能一概而论的。另外要是有某些不可名状的图片,TA们甚至无法被确定分到哪个类别中。
异常检测是这样的,二分类分类器只需要分成正常和异常就好了,而异常检测需要考虑的就很多了,需要分成各个明确的种类。

广义分布外检测(OOD)

红框就圈了这些。
在单类新颖性检测中,正常图像属于一类。具有语义偏移的图像将被视为异常。
在多类新颖性检测中,正常图像属于多个类。具有语义转换的图像将被视为异常。
在这里插入图片描述

异常检测分类

标题后面的汉语是我为了方便理解自个翻译的,不一定准确。

Deep Learning for Feature Extraction(用于特征提取的深度学习)

  • 主要思路
    旨在利用深度学习从高维或者线性不可分的数据中提取低维特征表示,用于后续的异常检测。特征提取和异常评分是完全分离的,相互独立。
    人话:用深度学习从高维的数据提取出低维的特征,再对其异常评分。
  • 优点
    (1)大量的预训练深度模型和异常评分模型可直接使用。现有模型多
    (2)深度特征提取器比线性方法更有效。
  • 缺点:
    (1)特征提取和异常评分是分离的,得到的异常评分可能次优。
    (2)预训练模型只能接受特定的类型。

Learning Feature Representations of Normality(学习正常的特征表征)

  • 主要思路
    这类方法通过优化一般特征学习目标函数来学习数据的表示,该目标函数不是为异常检测而设计的,但学习到的高级特征能够用于异常检测,因为这些高级特征包含了数据的隐藏规律。
    人话:优化特征学习函数。学到的高级特征可以用来异常检测。
  • 优点
    (1)产生正常样本的能力很强,但是产生异常样本的能力很弱,因此适用于异常检测。
    (2)GANs 的现有工作大多可以用于异常检测。
  • 缺点
    (1)由于训练时可能存在难以收敛,模式坍塌等问题,有时训练难以进行。
    (2)如果数据集分布复杂或存在 outliers查的意思是 异常值;离群值,会导致模型生成的数据点偏离主流特征。
    (3)由于模型本身是为了合成数据设计而不是异常检测设计,因此结果可能是次优的。

End-to-end anomaly score learning(端对端的异常分数学习)

  • 主要思路
    旨在以端到端的方式学习标量异常分数。这种方法中的异常评分不依赖于现有的异常度量;它往往有一个直接学习异常分数的神经网络。
    人话:有一个神经网络,在端到端的方式中直接学习异常分数。
  • 优点
    (1)这种模型是端到端式的对抗式优化。
    (2)已有的对抗学习和分类模型有助于发展。
  • 缺点
    (1)很难生成近似于 未知异常样本 的参考样本。
    (2)GAN 的不稳定可能导致生成样本的质量。
    (3)应用局限于半监督的异常检测场景。

异常检测方法介绍 – 自编码器

什么是自编码器

在这里插入图片描述
如图中所示,自编码器是一种利用反向传播算法使得输出值接近输入值的神经网络。它先将输入压缩成潜在空间表征,然后通过这种表征来重构输出。自编码器分为两个部分:编码器和解码器。
(1)编码器将输入压缩成潜在空间表征,记为 h = f ( x ) h=f(x) h=f(x)
(2)解码器重构来自潜在空间表征的输入,记为 r = g ( h ) r=g(h) r=g(h)
综合上述两个部分,完整的自编码器可以由 g ( f ( x ) ) = r g(f(x))=r g(f(x))=r 表示。

在异常检测中,首先利用已有正常数据训练出自编码器。对于测试中的正常数据,可以通过这种自编码器被重建;但对于异常的数据,则会因为重建损失过大而无法被重建。如下面两张图示例。
在这里插入图片描述
在这里插入图片描述

基于生成对抗网络(GAN-Based)

太多公式和计算流程,我按顺序做一个概述性描述。……要是还是不想看就直接看步骤后的总结吧。
(1)在 GAN 的潜在空间中随机采样一个潜在向量 z 1 z_1 z1
(2)生成器 G G G z 1 z_1 z1 生成图像 G ( z 1 ) G(z_1) G(z1)
(3)将 G ( z 1 ) G(z_1) G(z1) 和真实图像 x x x 比较,计算残差损失。
(4)分别对 G ( z 1 ) G(z_1) G(z1) x x x 提取特征表示,计算判别损失。
(5)根据这两个损失和其它参数计算总损失,并更新潜在向量。
总结:将生成的图像与真实图像进行比较,计算残差损失和判别损失,并通过优化潜在向量来最小化这些损失,从而评估图像的异常程度。
在这里插入图片描述

基于伪造异常样本

  • 学习表示阶段
    使用了CutPaste来伪造异常。
  • 异常检测阶段
    异常检测流程包括两个子网络:重构子网络(Reconstructive sub-network)和判别子网络(Discriminative sub-network)。
    首先,重构子网络通过训练学习将伪造异常图片还原成正常图片,隐式检测出异常区域并进行修复。
    然后,重构子网络的输出和输入图像被连接并输入判别子网络中,判别子网络生成异常图。

基于知识蒸馏

教师网络是在图像分类任务上预训练的强大网络;学生网络是与教师网络结构一致,但是未经训练的“小白”网络。

让学生网络在多个特征尺度学习教师网络的正常特征,从而在检测异常样本时两个网络的特征展现出差异。

基于内存查询

在训练阶段,模型会记录典型的正常模式,并更新内存内容以表示正常数据元素。

在测试阶段,模型会根据输入选择一小部分正常内存项进行重构,以便与正常数据进行比较,从而突出异常情况。

在异常检测过程中,利用内存库M中的补丁特征,得到异常分数。

基于归一化流

通过可逆的分布将样本映射到特定分布(比如高斯分布),利用分布的概率公式来计算样本概率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1849026.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

人工智能在影像组学与放射组学中的最新进展|顶刊速递·24-06-22

小罗碎碎念 本期文献速递的主题——人工智能在影像组学中的最新进展。 小罗一直以来的观点,是把大问题分模块拆解——既然我们想做多模态,那么就先了解单模态的研究套路,再去研究不同模态提取的特征如何融合,搞科研的过程也是管理…

R语言数据分析案例32-针对芬兰污染指数的分析与考察

一、 研究背景及意义 近年来,随着我国科技和经济高速发展,人们生活质量也随之显著提高。但是, 环境污染问题也日趋严重,给人们的生活质量和社会生产的各个方面都造成了许多不 利的影响。空气污染作为环境污染主要方面&#xff0c…

汽车销售系统

摘 要 在现代社会,电脑是企业运作和管理必不可少的工具。我们过去用手记下卖出的商品的年代已一去不复返了。在我国,汽车销售行业的竞争日趋激烈的情况下,如何提高企业的管理水平,提高企业的工作效率,提高企业的服务质…

【性能优化】表分区实践最佳案例

背景 随着数字化建设的持续深入,企业的业务规模迎来了高速发展,其数据规模也呈现爆炸式增长,如果继续使用传统解决方案,将所有数据存储在一个表中,对数据的查询和维护效率将是一个巨大的挑战,在这个背景下…

深入解析MVC架构(Model-View-Controller Architecture)

目录 前言1. MVC架构概述1.1 模型(Model)1.1.1 数据管理1.1.2 业务逻辑 1.2 视图(View)1.2.1 数据展示1.2.2 用户界面设计 1.3 控制器(Controller)1.3.1 用户输入处理1.3.2 更新模型和视图 2. MVC架构的优缺…

区块链技术:金融市场监管的新篇章

一、引言 随着金融科技的迅猛发展,区块链技术作为其中的佼佼者,正逐渐改变着金融市场的格局。在金融市场监管领域,区块链技术以其独特的优势,为监管机构提供了新的监管思路和手段。本文将深入探讨区块链技术在金融市场监管中的作用…

了解Spring的BeanPostProcessor

了解Spring的BeanPostProcessor Spring框架提供了一种机制,允许在Spring容器实例化Bean之前和之后进行自定义的修改。这个机制就是BeanPostProcessor接口。BeanPostProcessor是Spring的核心接口之一,用于在Spring容器创建和初始化Bean的过程中进行干预和…

深度揭秘:深度学习框架下的神经网络架构进化

深度学习框架下的神经网络架构经历了从基础到复杂的显著进化,这一进程不仅推动了人工智能领域的突破性进展,还极大地影响了诸多行业应用。本文旨在深入浅出地揭示这一进化历程,探讨关键架构的创新点及其对现实世界的影响。 引言:…

在 KubeSphere 上快速安装和使用 KDP 云原生数据平台

作者简介:金津,智领云高级研发经理,华中科技大学计算机系硕士。加入智领云 8 余年,长期从事云原生、容器化编排领域研发工作,主导了智领云自研的 BDOS 应用云平台、云原生大数据平台 KDP 等产品的开发,并在…

SUSE linux 15的网络管理

1 手工配置网络 wicked提供了一种新的网络配置框架。自SUSE 12起,SUSE使用了新的网络管理工具wicked,这个是区别与其他常见发行版的。常见的发行版目前大多使用的是NetworkManager服务进行网络管理。 1.1 wicked网络配置 传统网络接口管理面临的挑战之…

C语言学习记录20240622

这次需要用 C 语言库 Allegro 写爆破彗星游戏。项目有一些描述如需要绘制飞船、彗星、子弹,需要响应按键实现飞船加速、减速、转向、开火,需要绘制弹道,需要实现彗星旋转、缩放,需要碰撞检测,需要显示计分。 这些用 w…

打破数据分析壁垒:SPSS复习必备(五)

一、分类变量的统计描述与参数估计 1、分类变量的统计描述指标体系 1)频数分布情况描述 各个类别的样本数和所占比例分别称为频数(绝对频数)和百分比(构成比)。 累计频数是指本类别及较低类别出现的次数之和&#…

小熊文件工具箱免费版

小熊文件工具箱是一款基于本地离线操作的一系列工具的合集,最大特点是各种批量任务的执行,包含了智能证件照,自动抠图,直播录制,九宫格切图,拼图,视频格式转换及压缩,zip压缩解压缩&…

学习es6

1、let变量 2、const常量 3、解构赋值 4、模板字符串 5、简化对象写法 6、参数默认值 7、rest参数 8、扩展运算符 9、扩展对象方法 10、扩展数组方法 11、Set 12,Promise 13、Module模块

Android | 性能优化 之 TraceView工具的使用

上代码&#xff01; 先加权限&#xff1a; <uses-permission android:name"android.permission.WRITE_EXTERNAL_STORAGE"/> <uses-permission android:name"android.permission.MOUNT_UNMOUNT_FILESYSTEMS"/> 选择跟踪范围,在开始追踪和结束…

sdlan如何智能组网?

【天联】组网是一款异地组网内网穿透产品&#xff0c;由北京金万维科技有限公司自主研发&#xff0c;旨在解决不同地区电脑与电脑、设备与设备、电脑与设备之间的信息远程通信问题。【天联】的操作简单、跨平台应用、无网络要求以及独创的安全加速方案等特点&#xff0c;使得它…

MyBatis系列六: 映射关系多对一

动态SQL语句-更复杂的查询业务需求 官方文档基本介绍映射方式配置Mapper.xml的方式-应用实例注解的方式实现-应用实例课后练习 官方文档 文档地址: https://mybatis.org/mybatis-3/zh_CN/sqlmap-xml.html 基本介绍 ●基本介绍 1.项目中多对1的关系是一个基本的映射关系, 也可…

镜像操作_容器操作_镜像拉取_镜像开机启动_镜像删除等常用操作---分布式云原生部署架构搭建008

docker的常用命令大全啊 然后再来看容器的常用命令,快速过一遍 找镜像在这里 hub.docker.com 这里 去找到对应的 镜像 直接docker pull 就可以了 然后注意这里有个tags,就是标签,镜像的标签 其实就是各个版本

CTFHUB-SSRF-POST请求

通过file协议访问flag.php文件内容 ?urlfile:///var/www/html/flag.php 右键查看页面源代码 需要从内部携带key发送post数据包即可获得flag ?urlhttp://127.0.0.1/flag.php 得到了key 构造POST请求数据包&#xff0c;进行url编码&#xff08;新建一个txt文件&#xff0c;…

vue3自动导入---组件库elements-ui,vuetify以及scss样式的自动导入

自动导入 我们在使用第三方组件库和css样式文件时&#xff0c;都需要进行引入&#xff0c;可以在单个组件内单独引用&#xff0c;也可以在全局引入或一次引入所有组件&#xff1b;但是&#xff0c;一般情况下我们都不会全部引入&#xff0c;这会是打包的结果变大&#xff0c;而…