数据分析 - python 数据处理

news2025/1/10 23:56:29

数据处理

  1. 去除重复数据
# 删除重复值 保留重复行 第一行的数据
data.drop_duplicates(inplace=True, keep='first')
  1. 数据格式转化

日期格式化

data['order_date'] = pd.to_datetime(data['order_dt'], format='%Y%m%d')

data['销售时间'] = pd.to_datetime(data['销售时间']) # 交货时间  销售时间
data['月份'] = data['销售时间'].map(lambda x: x.month)

# dir = {'1': '一季度', '2': '一季度', '3': '一季度', '4': '二季度', '5': '二季度', '6': '二季度', '7': '三季度', '8': '三季度', '9': '三季度', '10': '四季度', '11': '四季度', '12': '四季度'}
# data['季度'] = data['月份'].map(lambda x: str(x)).map(lambda x: dir[x])
# data.groupby(by='季度')['货品'].count().plot.bar()

# 将 order_date 转成 精度是 月份的数据列
data_text['order_date_month'] = data_text['order_date'].values.astype('datetime64[M]')

去除前后空格

# 去除前后空格
data['货品交货状况'] = data['货品交货状况'].str.strip()
  1. 删除空值行
# 第一部分
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
plt.rcParams['font.sans-serif'] = 'SimHei' ## 设置中文显示
%matplotlib inline 
route = 'meal_order_detail.xlsx'
data1 = pd.read_excel(route, sheet_name='meal_order_detail1')
data2 = pd.read_excel(route, sheet_name='meal_order_detail2')
data3= pd.read_excel(route, sheet_name='meal_order_detail3')
data = pd.concat([data1, data2,data3],axis=0)
data.head(5)

# 第二部分  清除 Na 的值 删除空值行
data.dropna(axis=1, inplace=True)

  1. 删除指定列,或者空值列
# 删除订单这一列数据
data.drop(columns=['订单行'], inplace=True, axis=1)

# 删除空值列 axis=0
data.dropna(axis=0, inplace=True, how='any | all')
  1. 异常数据处理
取出 索引值 1 2 3 , 列名 'A' 'B'
data.loc[[1,2,3] , ['A','B']]

异常值处理原则  数值分布在(μ-3σ,μ+3σ)中的概率为0.9973
最小值
平均数 - 3*标准差
最大值
平均数 + 3*标准差

# 第一部分
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
plt.rcParams['font.sans-serif'] = 'SimHei' ## 设置中文显示
%matplotlib inline 
route = 'meal_order_detail.xlsx'
data1 = pd.read_excel(route, sheet_name='meal_order_detail1')
data2 = pd.read_excel(route, sheet_name='meal_order_detail2')
data3= pd.read_excel(route, sheet_name='meal_order_detail3')
data = pd.concat([data1, data2,data3],axis=0)


def three_sigma(ser):
    """
    自实现3sigma 原则
    :param ser: 数据
    :return: 处理完成的数据
    """
    bool_id = ((ser.mean() - 3 * ser.std()) <= ser)  &   (ser <= (ser.mean() + 3 * ser.std()))
    # bool_id 数组索引
    # ser[bool_id]
    return ser.index[bool_id]
# 调用3sigma原则,进行异常值过滤
index_name_list = three_sigma(data['amounts'])
deatil = data.loc[index_name_list,:]
  1. 空值填充
# 相邻前面的值或者后面的值填充
data.fillna(method='ffill',axis=0).fillna(method='bfill', axis=0)

# 使用空值对应列的均值进行空值填充
for col in data,columns:
	if data[col].isnull().sum() > 0:
	ax = data[col].mean()
	data[col].fillna(value=ax, inplace=True)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1412128.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Apache Shiro 安全框架

前言 Apache Shiro 是一个强大且容易使用的Java安全矿建&#xff0c;执行身份验证&#xff0c;授权&#xff0c;密码和会话管理。使用Shiro的易于理解的API您可以快速轻松的获得任何应用程序直到大的项目。 一丶什么是Shiro 1.Shiro是什么 Apache Shiro是一个强大且易于使用…

RabbitMQ简单模式和工作模式

RabbitMQ 是一个消息队列中间件&#xff0c;用于在分布式系统中进行消息传递。在 RabbitMQ 中&#xff0c;有几种工作模式&#xff0c;其中简单模式和工作模式是其中两种基本的模式之一。 简单模式&#xff08;Simple Mode&#xff09;&#xff1a; 在简单模式中&#xff0c;有…

找不到d3dx9_43.dll怎么办?有什么方法能解决这个问题

d3dx9_43.dll 是一个与 Microsoft DirectX 9.0c 版本相关的动态链接库&#xff08;DLL&#xff09;文件。DirectX 是由微软开发的一个应用程序接口&#xff08;API&#xff09;&#xff0c;用于处理多媒体相关任务&#xff0c;尤其是在游戏和高性能图形应用中。具体到 d3dx9_43…

我的隐私计算学习——联邦学习(5)

笔记内容来自多本书籍、学术资料、白皮书及ChatGPT等工具&#xff0c;经由自己阅读后整理而成。 &#xff08;七&#xff09;联邦迁移学习 ​ 相关研究表明&#xff0c;联邦迁移学习不需要主服务器作为各参与方间的协调者&#xff0c;旨在让模型具备举一反三能力&#xff0c;在…

C++ 11 多线程库初步学习

在C11标准中&#xff0c;可以简单通过使用thread库&#xff0c;来管理多线程。 thread库可以看做对不同平台多线程API的一层包装&#xff1b;因此使用新标准提供的线程库编写的程序是跨平台的。 使用时需要#include <thread>头文件&#xff1b; #include <iostream&g…

【SpringCloud Nacos】 微服务治理介绍及Nacos引入初体验

文章目录 前言服务治理介绍什么是服务治理1、服务发现2、服务配置3、服务健康检测 常见的注册中心ZookeeperEurekaConsulNacos Nacos 简介Nacos 实战入门搭建nacos环境1、安装nacos2、配置nacos3、访问nacos 将商品微服务注册到 nacos1、在 pom. xml 中添加 nacos 的依赖2、在主…

Pycharm2023.3.2使用conda创建工程

1 conda环境 举个例子&#xff0c;创建一个环境&#xff0c;名叫Pytorch&#xff0c;使用的python版本是3.7 &#xff08;1&#xff09;创建环境 conda create -n Pytorch python3.7&#xff08;2&#xff09;激活环境 conda activate Pytorch&#xff08;3&#xff09;查看…

小型商用机器人,如何做到小而强?

兼顾体型和性能。 体型和性能的矛盾 一直以来&#xff0c;商用清洁机器人的应用场景主要集中在大型商场、超市、写字楼等&#xff0c;为什么1000平米以下的小型商超等中小场景却很少涉足&#xff1f;原因可以说有很多&#xff0c;但核心为两方面&#xff0c;一方面&#xff0…

windows?linux?如何使用JMeter

windows?linux?如何使用JMeter 安装JMeter的步骤以GUI模式启动JMeter如何在非GUI模式下运行JMeter在linux中使用JMeter 安装JMeter的步骤 JMeter 是一个纯 Java应用程序&#xff0c;应该在任何具有兼容Java实现的系统上正确运行。 安装 JMeter 的步骤 步骤1&#xff09;安…

网络安全防御保护实验(一)

目录 一、规划ip地址 二、配ip地址 三、交换机和防火墙的配置 四、进行测试 实验要求&#xff1a;防火墙向下使用子接口连接生产区和办公区&#xff0c;所有分区设备可以ping通网关。 一、规划ip地址 二、配ip地址 三、交换机和防火墙的配置 四、进行测试

IP被封怎么办?访问网站时IP被阻止?解决IP禁令全方法

相信很多人遇到过IP禁令&#xff1a;比如你在访问社交媒体、搜索引擎或电子商务网站时会被限制访问&#xff0c;又或者你的的账号莫名被封&#xff0c;这些由于网络上的种种限制我们经常会遭遇IP被封的情况&#xff0c;导致无法使用继续进行网络行动。在本文中&#xff0c;我们…

Android开发修炼之路——(一)Android App开发基础-1

本文介绍基于Android系统的App开发常识&#xff0c;包括以下几个方面&#xff1a;App开发与其他软件开发有什么不一样&#xff0c;App工程是怎样的组织结构又是怎样配置的&#xff0c;App开发的前后端分离设计是如何运作实现的&#xff0c;App的活动页面是如何创建又是如何跳转…

scoped属性和深度选择器

在Vue单文件组件&#xff08;SFC&#xff09;中&#xff0c;为了防止样式全局污染&#xff0c;可以给 所有的scoped的css编译出来都会变成.class[哈希值]的形式 我们只能修改带data-v-0dca3a9a作用域的样式&#xff0c;像是 如果修改el-table的宽度 .el-table {width: 60…

惠友小课堂】拇外翻常见的几个误区,来看看你中了几个?

拇外翻作为常见的足部畸形&#xff0c;在日常生活中困扰着许多人。歪脚趾不仅外观不好看&#xff0c;还会出现疼痛、影响行走运动。但大多数人对于拇外翻的认识都不足常常落入认知误区&#xff0c;快来看看你中了几个&#xff1f; 误区一 Q 我都没穿过高跟鞋&#xff0c;怎么也…

科大讯飞 再次引爆Ai

去年「科大讯飞版ChatGPT」星火大模型刚上线的时候&#xff0c;小编给大家推荐过一波&#xff0c;演示了其强大的功能&#xff0c;不少小伙伴都立马申请体验了一把&#xff0c;有小伙伴还私信我说功能非常强大&#xff0c;工作效率提高不少&#xff0c;支持国产大模型之类赞扬。…

Azure AI - 沉浸式阅读器,阅读障碍用户福音

目录 一、什么是沉浸式阅读器将内容划分开来提高可读性显示常用字词的图片突出显示语音的各个部分朗读内容实时翻译内容将单词拆分为音节 二、沉浸式阅读器如何工作&#xff1f;环境准备创建 Web 应用项目设置身份验证配置身份验证值安装标识客户端 NuGet 包更新控制器以获取令…

Dify学习笔记-工具(七)

1、工具 工具定义 工具可以扩展 LLM 的能力&#xff0c;比如联网搜索、科学计算或绘制图片&#xff0c;赋予并增强了 LLM 连接外部世界的能力。Dify 提供了两种工具类型&#xff1a;第一方工具和自定义工具。 你可以直接使用 Dify 生态提供的第一方内置工具&#xff0c;或者轻…

基于Java的高校运动会管理系统的设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言 详细视频演示 具体实现截图 技术栈 后端框架SpringBoot 前端框架Vue 持久层框架MyBaitsPlus 系统测试 系统测试目的 系统功能测试 系统测试结论 代码参考 数据库参考 源码获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、…

倍增算法笔记

主要应用场景 RMQ&#xff1a;区间最值问题 LCA&#xff1a;最近公共祖先问题 RMQ问题——区间最值 如果用数组f[N]存储,用数组a[i][j]表示从第i个数起连续 2^j 个数中的最大值,[i,i 2^j - 1],显然a[i][0] f[i],则很容易得到状态转移方程: a[i][j] max(a[i][j - 1], a[i …

免 费 小程序商城搭建之鸿鹄云商 SAAS云产品概述

【SAAS云平台】打造全行业全渠道全场景的SaaS产品&#xff0c;为店铺经营场景提供一体化解决方案&#xff1b;门店经营区域化、网店经营一体化&#xff0c;本地化、全方位、一站式服务&#xff0c;为多门店提供统一运营解决方案&#xff1b;提供丰富多样的营销玩法覆盖所有经营…