【大数据处理与可视化】四、数据预处理

news2024/9/29 11:24:23

【大数据处理与可视化】四、数据预处理

  • 实验目的
  • 实验内容
  • 实验步骤
    • 一、案例——预处理部分地区信息
      • 1、导包
      • 2、读取文件
      • 3、检查并删除重复数据
        • 北京
        • 天津(无重复数据)
      • 4、检查缺失值
        • 北京(无缺失值)
        • 天津(向前填充)
      • 5、检查异常
        • 北京(无异常)
        • 天津异常值处理
  • 实验小结


实验目的

  1. 能够熟练运用数据清洗的常见操作检查和处理各类有问题的数据;
  2. 能够熟练运用数据合并的常用方法对数据进行合并;
  3. 能够掌握数据重塑的常见操作重塑pandas对象的结构;
  4. 能够掌握数据转换的常见操作,实现离散化和哑变量处理;

实验内容

       预处理部分地区信息:给定北京和天津地区的统计信息,这些数据中都或多或少的存在一些问题,如重复的数据、缺失的数据。请使用Pandas对爬取的数据进行预处理操作,具体包括:检查重复数据,一旦发现有重复的数据,就需要将其进行删除。检查缺失值,为了保持数据的完整性,通常会使用某个数据填充;检查异常,一旦发现数据中存在异常,通常先要对原始数据进一步确认,如果是错误的数值,则直接使用正确的数值进行替换。


实验步骤

一、案例——预处理部分地区信息

1、导包

代码:

import pandas as pd
import numpy as np

2、读取文件

代码:

data_bj=pd.read_csv("D://Beijing.csv",encoding='gbk')
data_tj=pd.read_csv("D://Tianjin.csv",encoding='gbk')
print(data_bj)
print(data_tj)

截图:
在这里插入图片描述


3、检查并删除重复数据

北京

代码:

repead=data_bj.duplicated()
print(repead)

截图:

在这里插入图片描述

天津(无重复数据)

代码:

repead=data_tj.duplicated()
print(repead)

截图:

在这里插入图片描述


4、检查缺失值

北京(无缺失值)

代码:pd.isnull(data_bj)
截图:

在这里插入图片描述

天津(向前填充)

代码:

pd.isnull(data_tj)
data_tj=data_tj.fillna(method='ffill')
data_tj

截图:

在这里插入图片描述


5、检查异常

北京(无异常)

代码:

#定义函数
def three_sig(ser1):
  mean_value=ser1.mean()
  std_value=ser1.std()
  rule=(mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()<ser1)
  index=np.arange(ser1.shape[0])[rule]
  outrange=ser1.iloc[index]
  return outrange
#北京(无异常)
print(three_sig(data_bj['行政面积(K㎡)']))
print(three_sig(data_bj['户籍人口(万人)']))
print(three_sig(data_bj['男性']))
print(three_sig(data_bj['女性']))
print(three_sig(data_bj['GDP(亿元)']))
print(three_sig(data_bj['常住人口(万人)']))
#天津
print(three_sig(data_tj['行政面积(K㎡)']))
print(three_sig(data_tj['户籍人口(万人)']))
print(three_sig(data_tj['男性']))
print(three_sig(data_tj['女性']))
print(three_sig(data_tj['GDP(亿元)']))
print(three_sig(data_tj['常住人口(万人)']))

data_tj.boxplot(column=['行政面积(K㎡)','户籍人口(万人)','男性','女性','GDP(亿元)','常住人口(万人)'])

截图:

在这里插入图片描述


天津异常值处理

代码:

#天津异常值处理
data_tj=data_tj.replace(to_replace=6654.0,value=665.4)
data_tj=data_tj.replace(to_replace=299.42,value=29.942)
data_tj

截图:

在这里插入图片描述


实验小结

       通过本次实验,我能熟练运用数据清洗的常见操作检查和处理各类有问题的数据,其中包括重复值的查询和处理,缺失值的查询和处理,基于three_sig和基于箱型图的异常值的查询处理。在实验过程中遇到了很多硬件或者是软件上的问题,请教老师,询问同学,上网查资料,都是解决这些问题的途径。最终将遇到的问题一一解决最终完成实验。
注意事项:
1、有疑问前,知识学习前,先用搜索。
2、熟读写基础知识,学得会不如学得牢。
3、选择交流平台,如QQ群,网站论坛等。
4、尽我能力帮助他人,在帮助他人的同时你会深刻巩固知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/486125.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

10分钟学会搭建sovits第一篇

So-vits-svc 基于端到端架构的VITS和soft-vc&#xff0c;用户只需准备几十分钟到几个小时不等的语音或歌声数据&#xff0c;就能制作&#xff08;训练&#xff09;属于自己的 AI 声库 &#xff08;前提是你的显卡足够给力&#xff09;&#xff0c;将一段语音或歌声转换为你想要…

简易时钟-QT学习

1 .h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QPaintEvent> //绘制事件 #include <QPainter> //画家类 #include <QPaintDevice> #include <cmath> // #include <QPainterPath> #include <QTime> //时间类…

基于蜣螂算法的无人机航迹规划-附代码

基于蜣螂算法的无人机航迹规划 文章目录 基于蜣螂算法的无人机航迹规划1.蜣螂搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要&#xff1a;本文主要介绍利用蜣螂算法来优化无人机航迹规划。 1.蜣螂搜索算法 …

【LeetCode】646. 最长数对链

646. 最长数对链&#xff08;中等&#xff09; 思路 这道题和 300. 最长递增子序列 类似&#xff0c;我们可以定义 dp 数组&#xff0c;其中 dp[i] 表示以 i 结尾的子序列的性质。在处理好每个位置后&#xff0c;统计一遍各个位置的结果即可得到题目要求的结果。 但是题目中强…

ElasticSearch(二)简介

1. 简介 Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。 它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性&#xff0c;能使数据在生产环境变得更有价值。 Elasticsearch 的实现原理主要分为以下几个步骤&#xf…

Servlet执行原理和API详解

一、HttpServlet 我们写 Servlet 代码的时候, 首先第⼀步就是先创建类, 继承⾃ HttpServlet, 并重写其中的某些方法. 1.1核心方法 1.2处理GET或POST请求 1.3数据的两种提交方式 数据提交有两种方式&#xff1a; form 表单提交ajax 提交 1.3.1form 表单提交 form表单提交的…

瑞萨e2studio(24)----电容触摸配置(1)

瑞萨e2studio.20--电容触摸配置1 概述硬件准备新建工程工程模板保存工程路径芯片配置工程模板选择时钟配置添加TOUCH驱动配置CapTouch开启调优界面启动 CapTouch 调优通过电容触摸点亮LED 概述 这篇文档将创建一个使用 e2 studio 集成 QE 的电容式触摸应用示例&#xff0c;通…

C语言函数大全-- s 开头的函数(3)

C语言函数大全 本篇介绍C语言函数大全-- s 开头的函数&#xff08;3&#xff09; 1. sleep 1.1 函数说明 函数声明函数功能unsigned int sleep(unsigned int seconds);它是 C 语言标准库中的函数&#xff0c;用于使当前进程挂起一定的时间。在挂起期间&#xff0c;操作系统…

移动宽带安装说明一(刘欣)

2023年&#xff0c;五一假期给老家和父母家安装了2次宽带&#xff0c;记录一下吧。 一、移动光改覆盖率已经很高了 从当初的铁通“FTTB”覆盖小区,网线入户的带宽只能达到100M&#xff0c;提升到现在大面积的光改完成&#xff0c;普遍是光猫&#xff08;光纤MODEL&#xff09…

网络协议与攻击模拟-04-实施ARP攻击与欺骗

实施 ARP 欺骗和攻击 一、环境 1、 kali Linux 安装一个 arpspoof 2、win10 被攻击主机 二、 kaili 配置 kali Linux 系统是基于 debian Linux 系统&#xff0c;采用 deb 包管理方式&#xff0c;可以使用 apt 的方式进行直接从源安装 1、配置源 # 官方源 # deb http:/…

FastAPI如何区分多环境:开发/测试/预发布/生产环境

1 缘起 开始用FastAPI开发项目&#xff0c; 区分环境是部署的第一步&#xff0c;因此&#xff0c;需要区分dev/test/pre/prod等环境&#xff0c; 而FastAPI刚好提供了读取环境配置文件的参数&#xff0c;可以在启动服务时指定环境配置文件的路径&#xff0c; 参数为env_file&a…

【前端技术】Vue3 01:初识 Vue.js

Vue 可以说是非常流行了&#xff0c;至少在国内是这样&#xff0c;他是个轻量级的 JavaScript 框架&#xff0c;非常适合构建大型和中小型的 Web 应用程序&#xff0c;如果想和前端打交道&#xff0c;应该绕不过这个框架吧。 目录 1 Vue.js 介绍 2 IDE 选择 2.1 vscode 2.…

libfacedetection 人脸检测库的基本使用

目录 1、源码下载 2、编译 3、构建工程 4、个人总结 运行总结&#xff1a; 与CascadeClassifier级联分类器 人脸检测 对比: 1、源码下载 直接从github上克隆项目仓库。 git clone https://github.com/ShiqiYu/libfacedetection.git2、编译 这个项目使用了cmake脚本&#…

【LeetCode】413. 等差数列划分

413. 等差数列划分&#xff08;中等&#xff09; 思路 由于题目求的是等差数列 &#xff0c;很自然想到子数组一定满足 nums[i] - nums[i-1] nums[i-1] -nums[i-2]; 。然而我们对于 dp 数组的定义通常是以 i 结尾&#xff0c;满足某些条件的子数组数量&#xff0c;而等差数组可…

【LeetCode】300. 最长递增子序列

300. 最长递增子序列&#xff08;中等&#xff09; 方法一&#xff1a;动态规划 思路 通常来说&#xff0c;子序列不要求连续&#xff0c;而子数组或子字符串必须连续&#xff1b;对于子序列问题&#xff0c;第一种动态规划方法是&#xff0c;定义 dp 数组&#xff0c;其中 dp[…

PHP语言基础

&#x1f331;博客主页&#xff1a;大寄一场. &#x1f618;博客制作不易欢迎各位&#x1f44d;点赞⭐收藏➕关注 目录 前言 一、变量和数据类型 二、运算符和表达式 三、条件语句 四、循环语句 前言 PHP是一种非常流行的开源服务器端脚本语言&#xff0c;广泛用于Web开发…

Python sys模块

sys:使用或维护解释器 版本信息 Python版本 >>> sys.version 3.10.3 (tags/v3.10.3:a342a49, Mar 16 2022, 13:07:40) [MSC v.1929 64 bit (AMD64)]系统版本 >>> sys.platform win32 >>> 解释器版本 >>> sys.hexversion 50988016 >&g…

TypeScript 基本概念

TypeScript 是什么&#xff1f; 目标&#xff1a;能够说出什么是 TypeScript TS 官方文档 TS 中文参考 - 不再维护 TypeScript 简称&#xff1a;TS&#xff0c;是 JavaScript 的超集&#xff0c;JS 有的 TS 都有 TypeScript Type JavaScript&#xff08;在 JS 基础之上…

Linux下文件的增删查改

1.什么是文件 文件是计算机文件属于文件的一种&#xff0c;与普通文件载体不同&#xff0c;计算机文件是以计算机硬盘为载体存储在计算机上的信息集合。文件文件内容文件属性。 2.文件的创建 文件的创建分为两种指令&#xff1a;touch和mkdir touch是用来创建普通文件的&am…

(C语言版)力扣(LeetCode)数组相关面试题OJ题解析

数组相关面试题 26. 删除有序数组中的重复项题目说明示例一示例二提示解析 27.移除元素题目说明示例1示例2提示解析解法一解法二 88. 合并两个有序数组题目示例一示例二示例三提示解析 结语 26. 删除有序数组中的重复项 题目 给你一个 升序排列 的数组 nums &#xff0c;请你…