Pandas | 特征列大量数据异常需要填充数据时注意事项

news2026/3/23 12:27:16

问题描述

一组数据如下：
在这里插入图片描述

df.isnull().sum()

城市          0
名称          0
星级       1529
评分          0
价格          1
销量          1
省/市/区       0
坐标          0
简介         41
是否免费        0
具体地址        3
dtype: int64

df['星级']

0       NaN
1        4A
2        5A
3        4A
4        5A
       ... 
2438    NaN
2439     4A
2440    NaN
2441    NaN
2442    NaN
Name: 星级, Length: 2443, dtype: object

使用finall()

# 这种填充方式是一次性的
df['星级'].fillna(value=np.random.choice(['1A', '2A', '3A', '4A', '5A']), inplace=True)

一次性 根据概率随机选取某一值填充导致最后比例不均衡

apply⭐
使用该函数是遇到一个异常值根据规则随机选取并填充

# 发现存在异常值 同样处理 
df['星级']=df['星级'].apply(lambda x: x if x in ['1A','2A','3A','4A','5A'] else random.choice(['1A','2A','3A','4A','5A']))
df['星级'].value_counts()

星级
4A    851
5A    576
3A    393
2A    324
1A    299
Name: count, dtype: int64

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2237501.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Science Robotics 综述揭示演化研究新范式，从机器人复活远古生物！

在地球46亿年的漫长历史长河中，生命的演化过程充满着未解之谜。如何从零散的化石证据中还原古生物的真实面貌？如何理解关键演化节点的具体过程？10月23日，Science Robotics发表重磅综述，首次系统性提出"古生物启发…

[编译报错]ImportError: No module named _sqlite3解决办法

1. 问题描述： 在使用python进行代码编译时，提示下面报错： "/home/bspuser/BaseTools/Source/Python/Workspace/WorkspaceDatabase.py", line 18, in <module>import sqlite3File "/usr/local/lib/python2.7/sqlite3/_…

EasyExcel的AbstractColumnWidthStyleStrategy注入CellStyle不生效

设置背景色 CellStyle style workbook.createCellStyle();style.setFillForegroundColor(IndexedColors.RED.getIndex()); // 是设置前景色不是背景色style.setFillPattern(FillPatternType.SOLID_FOREGROUND)EasyExcel.writerTable(0).head(Head1.class).registerWriteHandl…

iphone怎么删除重复的照片的新策略

Phone用户常常面临存储空间不足的问题，其中一个主要原因是相册中的重复照片。这些重复项不仅占用了大量的存储空间，还会影响设备的整体性能。本文将向您展示iphone怎么删除重复的照片的方法，包括一些利用工具来自动化这个过程的创新方法。识…

AI4SCIENSE（鄂维南院士：再谈AI for Science）

鄂维南院士：再谈AI for Science_哔哩哔哩_bilibili 以往处理高维问题量子力学：单变量乘积统计学：旋转 AI4S 处理数据蛋白质折叠？ 不是纯粹的数据驱动物理学等学科基本原理例：分子动力学数据模型流程图这…

learn C++ NO.31——类型转换

C语言中的类型转换在C语言中，当赋值符号两边的类型不匹配的时候，或者是形参类型和实参类型不匹配时，返回值类型与接受返回值类型不匹配时，都会需要类型转换。C语言的类型转换有两种：显示类型转换和隐式类型转换。显…

基于Spring Boot的养老保险管理系统的设计与实现，LW+源码+讲解

摘要如今社会上各行各业，都喜欢用自己行业的专属软件工作，互联网发展到这个时候，人们已经发现离不开了互联网。新技术的产生，往往能解决一些老技术的弊端问题。因为传统养老保险管理系统信息管理难度大，容错率低&a…

w029基于springboot的网上购物商城系统研发

🙊作者简介：拥有多年开发工作经验，分享技术代码帮助学生学习，独立完成自己的项目或者毕业设计。代码可以查看文章末尾⬇️联系方式获取，记得注明来意哦~🌹赠送计算机毕业设计600个选题excel文件&#xff0…

Unet++改进8：添加SpatialGroupEnhance||空间群智能增强:改进卷积网络中的语义特征学习

本文内容：添加SpatialGroupEnhance 论文简介卷积神经网络(Convolutional Neural Networks, cnn)通过收集分层的、不同部分的语义子特征来生成复杂对象的特征表示。这些子特征通常以分组的形式分布在每一层的特征向量中[43,32]，代表各种语义实体。然而，这些子特征的激活往往…

十八：Spring Boot 依赖（3）-- spring-boot-starter-data-jpa 依赖详解

目录 1. 理解 JPA（Java Persistence API） 1.1 什么是 JPA？ 1.2 JPA 与 Hibernate 的关系 1.3 JPA 的基本注解：Entity, Table, Id, GeneratedValue 1.4 JPA 与数据库表的映射 2. Spring Data JPA 概述 2.1 什么是 Spring Dat…

MQTT协议解析 : 物联网领域的最佳选择

1. MQTT协议概述 1.1 MQTT协议是什么 MQTT : Message Queuing Telemetry Transport 模式 : 发布 / 订阅主题优点 : 代码量小、低带宽、实时可靠应用 : 物联网、小型设备、移动应用MQTT 常用端口 : 1883 MQTT是一个网络协议，和HTTP类似，因为轻量简单&…

Pytorch实现transformer语言模型

转载自：| 03_language_model/02_Transformer语言模型.ipynb | 从头训练Transformer语言模型 |Open In Colab | Transformer语言模型本节训练一个 sequence-to-sequence 模型，使用pytorch的 nn.Transformer <https://pytorch.org/docs/master/nn.ht…

ElasticSearch向量检索技术方案介绍

1、背景在人工智能快速发展的今天，推荐技术、以文搜图、以文搜视频、以图搜图等技术已经得到了广泛的应用，在百度、小红书、抖音、快手等app上随便输入一段文本，搜索结果已不像早些年那么单一：只有一些文字信息，现在的…

算法（第一周）

一周周五，总结一下本周的算法学习，从本周开始重新学习许久未见的算法，当然不同于大一时使用的 C 语言以及做过的简单题，现在是每天一题 C 和 JavaScript（还在学，目前只写了一题） 题单是代码随想…

华为云镜像仓库基本操作

1. 登陆华为云账户,在搜索框输入"镜像容器",如下图所示: 单击输入名称后单击确定创建成功 2. 回到这里单击这里获得登陆指令复制到你的云服务器粘贴,回车后提示"Login Succeeded"表示登陆成功. 3. 还是在"总览"这里,单击这里跟着复制操作…

【1个月速成Java】基于Android平台开发个人记账app学习日记——第10天，登录状态保持与退出登录

系列专栏链接如下，方便跟进： https://blog.csdn.net/weixin_62588253/category_12821860.html?fromshareblogcolumn&sharetypeblogcolumn&sharerId12821860&sharereferPC&sharesourceweixin_62588253&sharefromfrom_linkhttps://b…

MySQL系列之如何在Linux只安装客户端

导览前言Q：如何安装一个Linux环境下的MySQL客户端一、准备文件1. 确认Server版本2. 选择Client安装文件二、下载并安装1. 下载1.1 寻找文件1.2 文件说明 2. 安装2.1 上传至Linux服务器2.2 执行安装三、连接验证1. 确认远程授权2. 建立远程连接结语精彩回放前言…

arcgis pro 学习笔记

二维三维集合在一起，与arcgis不同一、首次使用，几个基本设置 1.选项——常规里面设置自动保存时间 2.新建工程文件，会自动加载地图，可以在选项里面设置为无，以提高启动效率。 3.设置缓存位置，可勾选每次…

【论文复现】MSA+抑郁症模型总结（三）

📝个人主页🌹：Eternity._ 🌹🌹期待您的关注 🌹🌹 ❀MSA抑郁症模型热门研究领域：情感计算的横向发展1. 概述2. 论文地址3. 研究背景4. 主要贡献5. 模型结构和代码6. 数据集介绍7. 性…

‌STAR法则

一：STAR法则 STAR法则是一种简单而实用的表现技巧，常被用于求职过程中的个人经历描述，富有条理性，可以帮助你在职场中脱颖而出。“STAR”分别对应的是situation-task-action-result，通过情境、目标、行动和结果四个方面…

Pandas | 特征列大量数据异常需要填充数据时注意事项

问题描述

相关文章