Anaconda数据分析清洗常用函数

Anaconda数据分析清洗常用函数

news2026/2/12 13:46:48

在数据分析的过程中，数据的清洗和处理是非常重要的一步。利用 Anaconda 中的常用库（如 pandas、numpy）可以高效地完成数据的加载、清洗、处理等操作。以下是 Anaconda 中常用的数据结构和函数，按功能进行整理，以便大家在数据分析与清洗操作中快速参考。

1. 基本数据结构

包	数据结构	描述
`pandas`	`Series`	一维数据结构，类似于一列数据，带索引。
`pandas`	`DataFrame`	二维数据结构，类似于表格，带行列标签。
`numpy`	`ndarray`	多维数组，适合数值计算和矩阵操作。

2. 数据导入与导出

功能	函数	描述
读取 CSV 文件	`pd.read_csv(filepath)`	从 CSV 文件读取数据。
写入 CSV 文件	`df.to_csv(filepath)`	将 `DataFrame` 写入 CSV 文件。
读取 Excel 文件	`pd.read_excel(filepath)`	从 Excel 文件读取数据。
写入 Excel 文件	`df.to_excel(filepath)`	将 `DataFrame` 写入 Excel 文件。
读取 SQL 数据库	`pd.read_sql(query, connection)`	从 SQL 数据库查询并读取数据。

3. 数据清洗

功能	函数	描述
处理缺失值	`df.isnull()`	检查缺失值，返回布尔值 `DataFrame`。
填充缺失值	`df.fillna(value)`	用指定值填充缺失数据。
删除缺失值	`df.dropna()`	删除包含缺失值的行或列。
删除重复值	`df.drop_duplicates()`	删除 `DataFrame` 中的重复行。
替换值	`df.replace(to_replace, value)`	替换数据中的特定值。
更改数据类型	`df.astype(dtype)`	转换 `DataFrame` 的数据类型。
重命名列	`df.rename(columns={'old': 'new'})`	重命名 `DataFrame` 的列。
数据标准化	`(df - df.mean()) / df.std()`	数据标准化处理，使均值为 0，方差为 1。
数据归一化	`(df - df.min()) / (df.max() - df.min())`	数据归一化到 0-1 之间。

4. 数据选择与过滤

功能	函数	描述
选择列	`df['column']` 或 `df[['col1', 'col2']]`	选择 `DataFrame` 的一列或多列。
条件筛选	`df[df['column'] > value]`	筛选满足条件的行。
切片选择	`df.iloc[row, col]`	通过位置选择数据。
按标签选择	`df.loc[row_label, col_label]`	通过行列标签选择数据。
过滤唯一值	`df['column'].unique()`	获取列中所有的唯一值。
值计数	`df['column'].value_counts()`	统计列中每个值的出现次数。

5. 数据转换

功能	函数	描述
数据排序	`df.sort_values(by='column')`	根据指定列排序。
重置索引	`df.reset_index(drop=True)`	重置索引，并删除旧索引。
数据分组	`df.groupby('column')`	按列分组数据。
数据聚合	`df.agg(['mean', 'sum'])`	对分组数据执行聚合操作。
转换为透视表	`pd.pivot_table(df, index='col1')`	将 `DataFrame` 转换为透视表。
批量应用函数	`df.apply(func)`	对 `DataFrame` 的行或列批量应用函数。
数据合并	`pd.concat([df1, df2])`	合并多个 `DataFrame`。
数据连接	`pd.merge(df1, df2, on='column')`	连接两个 `DataFrame`，类似 SQL JOIN。

6. 数据可视化（pandas 与 matplotlib）

功能	函数	描述
折线图	`df.plot.line()`	绘制折线图，适合显示时间序列数据。
柱状图	`df.plot.bar()`	绘制柱状图，用于类别数据的比较。
直方图	`df.plot.hist()`	绘制直方图，用于显示数据分布。
散点图	`df.plot.scatter(x='col1', y='col2')`	绘制散点图，适合分析两列之间的关系。
箱线图	`df.plot.box()`	绘制箱线图，用于显示数据分布和异常值。

7. 统计与分析

功能	函数	描述
基本统计	`df.describe()`	返回 `DataFrame` 的基础统计信息。
计算均值	`df.mean()`	计算数据的均值。
计算中位数	`df.median()`	计算数据的中位数。
计算标准差	`df.std()`	计算数据的标准差。
计算最大值	`df.max()`	计算数据的最大值。
计算最小值	`df.min()`	计算数据的最小值。
计算分位数	`df.quantile(q=0.75)`	计算数据的特定分位数。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2240785.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

基于Spider异步爬虫框架+JS动态参数逆向+隧道代理+自定义中间件的猎聘招聘数据爬取

基于Spider异步爬虫框架+JS动态参数逆向+隧道代理+自定义中间件的猎聘招聘数据爬取

在本篇博客中，我们将介绍如何使用 Scrapy 框架结合 JS 逆向技术、代理服务器和自定义中间件，来爬取猎聘网站的招聘数据。猎聘是一个国内知名的招聘平台，提供了大量的企业招聘信息和职位信息。本项目的目标是抓取指定城市的招聘信息&#xff0…

阅读更多...

计算机网络（2）计算机网络的类别

计算机网络（2）计算机网络的类别

计算机网络的类别繁多，根据不同的分类原则，可以得到各种不同类型的计算机网络。一、按覆盖范围分类局域网（LAN）： 定义：局域网是一种在小区域内使用的，由多台计算机组成的网络。覆盖范围&#…

阅读更多...

超好用shell脚本NuShell mac安装

超好用shell脚本NuShell mac安装

利用管道控制任意系统 Nu 可以在 Linux、macOS 和 Windows 上运行。一次学习，处处可用。一切皆数据 Nu 管道使用结构化数据，你可以用同样的方式安全地选择，过滤和排序。停止解析字符串，开始解决问题。强大的插件系统具备强…

阅读更多...

【C#设计模式(9)——组合模式(Component Pattern)】

【C#设计模式(9)——组合模式(Component Pattern)】

前言组合模型是将对象组合成树形结构以表示“整体-部分”的层次结构，使客户终端代码更加简洁和灵活。代码 //目录抽象类 public abstract class Directory {protected string _name;public Directory(string name){_name name;}public abstract void Show(); } …

阅读更多...

Ubuntu下Xshell连接腾讯云服务器

Ubuntu下Xshell连接腾讯云服务器

1.在腾讯云上买好服务器后，找到控制台，找到自己的服务器重置密码，默认用户名时ubuntu 2.在Xshell连接服务器然后出现一个秘钥接受，直接接受就好了，然后就出现下面然后就可以了查看当前登录的用户 whoami 查看当前服…

阅读更多...

初识算法 · 位运算(3)

初识算法 · 位运算(3)

目录前言： 两整数之和题目解析算法原理算法编写只出现一次的数字II 题目解析算法原理算法编写前言： 本文的主题是位运算，通过两道题目讲解，一道是只出现一次的数字II，一道是两整数之和。链接分别…

阅读更多...

微信小程序——01开发前的准备和开发工具

微信小程序——01开发前的准备和开发工具

文章目录一、开发前的准备1注册小程序账号2安装开发者工具二、开发者工具的使用1创建项目2 工具的使用3目录结构4各个页面之间的关系5 权限管理6提交审核和发布一、开发前的准备开发前需要进行以下准备： 1 注册小程序账号2激活邮箱3 信息登记4 登录小程序管理后…

阅读更多...

使用热冻结数据层生命周期优化在 Elastic Cloud 中存储日志的成本

使用热冻结数据层生命周期优化在 Elastic Cloud 中存储日志的成本

作者：来自 Elastic Jonathan Simon 收集数据对于可观察性和安全性至关重要，而确保数据能够快速搜索且获得低延迟结果对于有效管理和保护应用程序和基础设施至关重要。但是，存储所有这些数据会产生持续的存储成本，这为节省成本创造…

阅读更多...

记录配置ubuntu18.04下运行ORBSLAM3的ros接口的过程及执行单目imu模式遇到的问题（详细说明防止忘记）

记录配置ubuntu18.04下运行ORBSLAM3的ros接口的过程及执行单目imu模式遇到的问题（详细说明防止忘记）

今天的工作需要自己录制的数据集来验证昨天的标定结果用ORBSLAM3单目imu模式运行，mentor给的是一个rosbag格式的数据包，配置过程出了几个问题记录一下，沿配置流程写。一.orbslam3编译安装 1.首先是安装各种依赖这里不再赘述&#xff0…

阅读更多...

vue2项目启用tailwindcss - 开启class=“w-[190px] mr-[20px]“ - 修复tailwindcss无效的问题

效果图步骤停止编译"npm run dev"安装依赖 npm install -D tailwindcssnpm:tailwindcss/postcss7-compat postcss^7 autoprefixer^9 创建文件/src/assets/tailwindcss.css，写入内容： tailwind base; tailwind components; tailwind utiliti…

阅读更多...

实施工程师简历「精选篇」

实施工程师简历「精选篇」

【#实施工程师简历#】一份出色的实施工程师简历，是获得优质工作机会的重要跳板。那么，如何打造一份令人眼前一亮的实施工程师简历呢？以下是幻主简历网整理的实施工程师简历「精选篇」，欢迎大家阅读收藏！ 实施工程师简历…

阅读更多...

Linux篇（权限管理命令）

Linux篇（权限管理命令）

目录一、权限概述 1. 什么是权限 2. 为什么要设置权限 3. Linux中的权限类别 4. Linux中文件所有者 4.1. 所有者分类 4.2. 所有者的表示方法属主权限属组权限其他权限 root用户（超级管理员） 二、普通权限管理 1. ls查看文件权限 2. 文件…

阅读更多...

惊爆！72.1K star 的 Netdata：实时监控与可视化的超炫神器！

惊爆！72.1K star 的 Netdata：实时监控与可视化的超炫神器！

在当今复杂的 IT 环境中，实时监控与可视化对于保障系统的稳定运行和性能优化至关重要。无论是服务器、应用程序，还是网络设备，及时获取性能数据能够帮助我们快速定位问题、优化资源配置。 Netdata，作为一个开源的实时监控工具&a…

阅读更多...

姓名改成商标名称，李子柒已成身份证名字！

姓名改成商标名称，李子柒已成身份证名字！

近日李子柒紫气东来，以中国非物质文化遗产“漆器”生动地展现了中国漆器的独特美学和工艺之美，这条视频在微博已超过1.3亿观看，在国外视频平台订阅超二千万粉丝成海外中文创作第一人。李子柒原名李佳佳，在网上看到她已经正式将身…

阅读更多...

论云游戏的性能与性价比，ToDesk、青椒云、顺网云游戏等具体实操看这篇就够了

论云游戏的性能与性价比，ToDesk、青椒云、顺网云游戏等具体实操看这篇就够了

文章目录一、前言二、云电脑产品基础介绍2.1 ToDesk云电脑2.1.1 ToDesk云电脑硬件参数2.1.2 ToDesk云电脑鲁大师跑分2.1.3 ToDesk云电脑收费方式2.1.4 ToDesk云电脑特色功能 2.2 青椒云2.2.1 青椒云游戏娱乐硬件配置2.2.2 青椒云云电脑鲁大师跑分2.2.3 青椒云收费方式2.2.4 青…

阅读更多...

服务器数据恢复——Ext4文件系统使用fsck后mount不上的数据恢复案例

服务器数据恢复——Ext4文件系统使用fsck后mount不上的数据恢复案例

关于Ext4文件系统的几个概念： 块组：Ext4文件系统的全部空间被划分为若干个块组，每个块组结构基本上相同。块组描述符表：每个块组都对应一个块组描述符，这些块组描述符统一放在文件系统的前部，称为块组描述…

阅读更多...

ubuntu 下mosquitto TLS配置

ubuntu 下mosquitto TLS配置

1、/etc/mosquitto/mosquitto.conf文件配置 persistence true persistence_location /var/lib/mosquitto/ log_dest file /var/log/mosquitto/mosquitto.log include_dir /etc/mosquitto/conf.d listener 1883 listener 8883 0.0.0.0 password_file /etc/mosquitto/pwfile cert…

阅读更多...

隧道论文阅读2-采用无人融合扫描数据的基于深度学习的垂直型隧道三维数字损伤图

隧道论文阅读2-采用无人融合扫描数据的基于深度学习的垂直型隧道三维数字损伤图

目前存在的问题： 需要开发新的无人测量系统测量垂直隧道图像数据量巨大，基于深度学习完成损伤评估跟踪获取图像位置的困难，对大型基础设施感兴趣区域(roi)的2d和3d地图建立进行了研究，对整个目标结构的损伤定位仍然具有挑战性。为…

阅读更多...

【C++动态规划最长公共子序列】1035. 不相交的线|1805

【C++动态规划最长公共子序列】1035. 不相交的线|1805

本文涉及知识点 C动态规划 LeetCode1035. 不相交的线在两条独立的水平线上按给定的顺序写下 nums1 和 nums2 中的整数。现在，可以绘制一些连接两个数字 nums1[i] 和 nums2[j] 的直线，这些直线需要同时满足： nums1[i] nums2[j] 且绘制的…

阅读更多...

SELINUX和防火墙

SELINUX和防火墙

SELINUX 简介： SELinux通过对进程和文件的访问进行精细的控制和限制，可以在系统级别上实现强制访问控制，即使是root用户也无法绕过这种控制。它基于策略规则来确定哪些进程可以访问哪些文件，从而有效地减少了系统遭受恶意攻击的…

阅读更多...

推荐文章

最新文章