策略分析中缺失值的处理方法

策略分析中缺失值的处理方法

news2025/7/17 17:43:35

在日常的策略分析中，经常会碰到分析的变量出现缺失值的情况，如果对这些缺失值视而不见，则会对策略分析的结果造成一定的影响。那么我们如何处理缺失值呢？关注“金科应用研院”，回复“CSDN”领取“风控资料合集”

首先，我们需要了解缺失值产生的原因。一般来讲，产生缺失值的原因有很多，比如说：

某个变量不适用于所有样本
由于信息披漏、隐私保护政策导致缺失
数据表连接时的操作带来大量缺失值
由于业务发展变化存留下的无意义的字段数据，等同于缺失值

在使用某些分析技术进行策略分析时，有的分析可以处理缺失值，比如说决策树，所以缺失值影响比较小。但是有些分析需要我们人工处理缺失值。下面介绍一些常用的缺失值处理方法。

1、替代法

替代法是指用一个已知的经验值代替缺失值。连续性的变量我们可以用变量的平均值或中位数来填充缺失值；离散型的变量可以用众数来填充缺失值；

也可以根据样本其他的已知信息利用回归技术逐个计算出缺失值处的值，但是这种方法在现实应用中的效果还有待商榷。

2、删除法

删除法是最简单的做法，可以选择直接删除包含缺失值的样本，当然这种做法的前提是需要样本量足够大，而且缺失值是随机的且少量的；

另外也可以选择删除缺失值过多的变量，不纳入到分析的样本中，这种做法本质上是认为所删除的变量从业务层面上来讲没有解释意义，或与目标变量的相关性较弱。

3、保留法

这种方法其实就是认为缺失值本身就是有业务意义的，当然这种方法的使用前提是缺失值和目标变量是有相关关系的。

在现实工作中，可以先使用一些数理统计的方法，比如说卡方检验来检验缺失值较多的变量与目标变量的相关关系。如果该变量与目标变量存在一定的相关性，就可以采用保留法，作为某个特殊类别的样本组处理。

如果该变量与目标变量的相关性较弱或者无关，可根据样本量大小选择不同的缺失值处理方法。样本量较大的可选择删除法；样本量小的可采用替代法来处理。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/412.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

本地数据库IndexedDB - 学员管理系统之登录（一）

本地数据库IndexedDB - 学员管理系统之登录（一）

IndexedDB是浏览器提供的本地数据库，它可以被网页脚本创建和操作。IndexedDB允许存储大量数据，提供查找接口，还能建立索引。这些都是LocalStorage或Cookie不具备的。就数据库类型而言，IndexedDB不属于关系型数据库（不支…

阅读更多...

插入排序图解

插入排序图解

七大排序之插入排序文章目录七大排序之插入排序前言一、直接插入排序1.1 算法图解1.2 算法稳定性1.3 插入排序和选择排序相比到底优在哪？二、折半插入排序总结前言博主个人社区：开发与算法学习社区博主个人主页：Killing Vibe的博客欢迎大…

阅读更多...

springboot：实现文件上传下载实时进度条功能【附带源码】

springboot：实现文件上传下载实时进度条功能【附带源码】

0. 引言记得刚入行的时候，做了一个文件上传的功能，因为上传时间较久，为了用户友好性，想要添加一个实时进度条，显示进度。奈何当时技术有限，查了许久也没用找到解决方案，最后不了了之。近来偶…

阅读更多...

全网最全面的pytest测试框架进阶-conftest文件重写采集和运行测试用例的hook函数

全网最全面的pytest测试框架进阶-conftest文件重写采集和运行测试用例的hook函数

【文章末尾有.......】使用pytest不仅仅局限于进行单元测试，作为底层模块可扩展性强，有必要理解其运行机制，便于进行二次开发扩展，通过文档的学习很容易理解。构建一个简单的测试脚本 import pytest import requestsdef add(…

阅读更多...

Hive数据倾斜常见场景及解决方案（超全！！！）

Hive数据倾斜常见场景及解决方案（超全！！！）

Hive数据倾斜常见问题和解决方案文章目录前言、一、Explain二、数据倾斜（常见优化）前言 Hive数据倾斜是面试中常问的问题，这里我们需要很熟练地能举出常见的数据倾斜的例子并且给出解决方案。一、Explain 我们可以通过sql语句前面加expa…

阅读更多...

公众号网课查题搭建方法

公众号网课查题搭建方法

公众号网课查题搭建方法本平台优点： 多题库查题、独立后台、响应速度快、全网平台可查、功能最全！ 1.想要给自己的公众号获得查题接口，只需要两步！ 2.题库： 查题校园题库：查题校园题库后台（…

阅读更多...

QLC 闪存给主控带来了很大的难题？

QLC 闪存给主控带来了很大的难题？

前言世界各大主流闪存厂商，如美光、海力士、铠侠和长江存储积极致力于QLC的研发，并相继推出了QLC SSD 产品。随着技术的不断进步，人们普遍担心的QLC擦写寿命少正逐渐被改善。QLC SSD 成本是最大的优势，不指望说替代 TLC SSD&…

阅读更多...

408 | 【2011年】计算机统考真题自用回顾知识点整理

408 | 【2011年】计算机统考真题自用回顾知识点整理

选择题 T3：循环队列不同指针指向，队列判空/判满条件 1. rear:指向队尾元素 front:指向队头元素前一个位置 （1）牺牲一个存储空间 （2）判空条件：front rear （3&#xff0…

阅读更多...

【RHCSA】管理Linux的联网

【RHCSA】管理Linux的联网

目录 rhel8与旧版本的区别 NetworkManager的特点配置网络 (1)使用P命令配置临时生效的网络连接 (2)修改配置文件，前提是需要有network服务[不推荐] (3)nmcli(命令行工具) 网络测试命令 Ⅰ、使用ping命令测试网络的连通性 Ⅱ、使用tracepath命令跟踪并显示网…

阅读更多...

2023最新SSM计算机毕业设计选题大全（附源码+LW）之java危险品运输车辆信息管理系统b2z1o

2023最新SSM计算机毕业设计选题大全（附源码+LW）之java危险品运输车辆信息管理系统b2z1o

大学毕业设计，一般都是自己或者几个同学一起弄，lunwen都是去，百度，图书馆找很多资料参考，（就是把里面都了，自己再按照各个意思重新表达），但是前提，提纲要想好…

阅读更多...

【附源码】计算机毕业设计SSM微课程服务系统

【附源码】计算机毕业设计SSM微课程服务系统

项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis Maven Vue 等等组成，B/S模式 M…

阅读更多...

神经网络芯片的单片机,什么是神经网络芯片

神经网络芯片的单片机,什么是神经网络芯片

1、神经网络做图像分类一定要用到gpu吗？ GPU最大的价值一直是“accelerating”(加速)，GPU不是取代CPU，而是利用GPU的并行计算架构，来将并行计算的负载放到GPU上来处理从而极大的提升处理速度。GPU本质上在异构计算架构上属于协处…

阅读更多...

Hello Word你真的理解了么？今天教我的表弟，有些感悟

Hello Word你真的理解了么？今天教我的表弟，有些感悟

🍬博主介绍 👨‍🎓 博主主页：喵的主页 ✨主攻领域：【大数据】【java】【python】【面试分析】 Hello world1. 编写程序2. 打开命令行3. 运行 .class 文件4. 排查错误1. 编写程序是不是都忘了我们初学时是打开记事本的…

阅读更多...

9-1 Kubernetes二进制部署的Prometheus实现服务发现

9-1 Kubernetes二进制部署的Prometheus实现服务发现

文章目录前言创建用户复制Token配置文件全局配置Master节点发现Node节点发现Namespace Pod发现自定义Pod发现前言在上一章节介绍了 8-5 在Prometheus实现Kubernetes-apiserver及Coredns服务发现基于K8s集群内部安装的Prometheus，添加服务发现时更加方便。Prometh…

阅读更多...

二叉树遍历原理 | 深度优先-广度优先 | 栈-队列

二叉树遍历原理 | 深度优先-广度优先 | 栈-队列

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ！ 14天阅读挑战赛文章目录二叉树遍历原理队列和栈区别深度优先遍历(DFS)前序遍历(根-左-右)中序遍历(左-根-右)后序遍历(左-右-根)广度优先遍历(BFS)逐层遍历(上-下 | …

阅读更多...

软件研发人效提升之道，法，术，器，势

软件研发人效提升之道，法，术，器，势

在华为的寒气传递之前，笔者已经在思考和实战如何提高研发人效。目的目标很明确: 提高软件研发人效，所谓的软件人效，简单粗暴的定义就是以最低单位人均成本，快速，高质量，高频率，安全地交付软件产…

阅读更多...

C++笔记之bitset使用

C++笔记之bitset使用

C++笔记之bitset使用文章目录 C++笔记之bitset使用0.进制介绍1.cppreference2.常规使用3.用法总结3.1.bitset是什么3.2.使用方法3.3.相关使用函数3.4.转换函数0.进制介绍 1.cppreference

阅读更多...

C语言高级教程-C语言数组（五）：二维（多维）数组初始化和基于数组的综合实例-＞帽子选购问题

C语言高级教程-C语言数组（五）：二维（多维）数组初始化和基于数组的综合实例-＞帽子选购问题

C语言高级教程-C语言数组（五）：二维（多维）数组初始化和基于数组的综合实例->帽子选购问题一、本文的编译环境二、二维数组的初始化三、三维数组的初始化四、使用for循环求三维数组元素值的和4.1、for循环求数组元素值…

阅读更多...

行业周期分析的主要内容,怎么分析行业生命周期

行业周期分析的主要内容,怎么分析行业生命周期

如何分析经济周期？ 很多人认为经济周期分析很难，很复杂。但是作为一个投资者，必须了解一定的经济周期分析原理。所以今天康少就用一张图来简单讲解下经济周期的分析。一、经济周期判断1、经济趋向繁荣：普通股收益将大幅提高&am…

阅读更多...

第07篇:巧用Spring类型转换, ConverterFormatter知识点学习。

第07篇:巧用Spring类型转换, ConverterFormatter知识点学习。

公众号: 西魏陶渊明 CSDN: https://springlearn.blog.csdn.net 天下代码一大抄, 抄来抄去有提高, 看你会抄不会抄！ 文章目录一、前言1.1 类型转换1.2 格式化输出二、Converter 类型转换2.1 Converter2.1.1 接口定义2.1.2 接口功能2.2 ConverterFactory2.2.1 接口定义…

阅读更多...

推荐文章

最新文章