3.Python数据分析—数据分析入门知识图谱索引(知识体系中篇)

news2024/11/24 21:02:11

3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇

  • 一·个人简介
  • 二·数据获取和处理
    • 2.1 数据来源:
    • 2.2 数据清洗:
      • 2.2.1 缺失值处理:
      • 2.2.2 异常值处理:
    • 2.3 数据转换:
      • 2.3.1 数据类型转换:
      • 2.3.2 数据编码:
    • 2.4 数据合并与重塑:
      • 2.4.1 数据合并:
      • 2.4.2 数据拼接:
      • 2.4.3 数据重塑:
  • 三·数据探索与分析
    • 3.1 描述性统计分析
    • 3.2 数据可视化原则和技巧
    • 3.3 探索性数据分析(EDA)
    • 3.4 相关性分析和假设检验
      • 3.4.1 相关性分析
      • 3.4.1 假设检验

一·个人简介

🏘️🏘️个人主页:以山河作礼。
🎖️🎖️:Python领域新星创作者,CSDN实力新星认证,CSDN内容合伙人,阿里云社区专家博主,新星计划导师,在职数据分析师。
🎉🎉免费学习专栏

1. 《Python基础入门》——0基础入门
2.《Python网络爬虫》——从入门到精通
3.《Web全栈开发》——涵盖了前端、后端和数据库等多个领域
4.《【30天】Python从入门到精通详解版》——30天入门到精通(持续更新中)
🎉🎉《机器学习算法专栏目前阶段免费(持续更新中)!!!
🪐🪐欢迎免费订阅!欢迎大家一起学习,一起成长!!
💕💕悲索之人烈焰加身,堕落者不可饶恕。永恒燃烧的羽翼,带我脱离凡间的沉沦。

二·数据获取和处理

2.1 数据来源:

数据获取和处理是数据分析和机器学习项目的关键步骤。在这个阶段,首先确定数据的来源,然后采用适当的方法来收集和整理数据,以便于后续的分析和建模工作。
在这里插入图片描述

以下是几种常见的数据来源及其处理方法

  1. 文件:数据经常存储在各种文件中,如CSV、Excel、JSON或XML等格式。处理这些文件通常包括读取文件内容,解析数据结构,以及清洗数据(如处理缺失值、异常值、重复记录等)。
  2. 数据库:数据可能存储在关系型数据库(如MySQL、PostgreSQL、Oracle)或非关系型数据库(如MongoDB、Cassandra)中。从数据库中获取数据通常涉及到编写SQL查询或使用特定的数据库API来提取所需的数据集。
  3. API:许多现代服务提供了API(应用程序编程接口),允许开发者通过HTTP请求获取数据。这可能包括RESTful
    API、GraphQL API或其他类型的Web服务。使用API时,需要了解API的认证机制、请求参数、响应格式以及速率限制等。
  4. 网络爬虫:对于网页上的数据,可以使用网络爬虫(Web
    Scraping)技术来抓取数据。这通常涉及到发送HTTP请求到网页,解析HTML或JSON响应,然后提取所需的信息。
  5. 实时数据流:某些应用需要处理实时数据流,如来自传感器、日志文件或消息队列的数据。处理实时数据流通常涉及到使用特定的流处理框架和技术。
  6. 外部服务:有时数据来源于第三方服务,如天气信息、金融市场数据等。这些服务可能提供专门的接口或数据集供用户使用。

2.2 数据清洗:

在实际操作中,选择哪种方法取决于数据的性质、异常值和缺失值的数量以及分析的目标。通常,数据处理前需要进行彻底的探索性数据分析(EDA),以了解数据的特点和问题的本质。可以通过箱线图分析来检测异常值。在处理过程中,应当谨慎考虑每种方法的适用性和可能带来的影响,以确保数据的完整性和分析结果的可靠性。

在这里插入图片描述

以下是针对缺失值和异常值的一些处理方法

2.2.1 缺失值处理:

  • 删除:直接将含有缺失值的记录从数据集中移除。这种方法简单直接,但可能会导致信息的丢失,尤其是在缺失值较多的情况下。
  • 填充:使用特定的值来填补缺失的数据。常用的填充方法包括使用均值、加权均值、中位数(对于数值型数据),或使用众数(对于分类型数据)。
  • 不处理:在某些情况下,选择不对缺失值进行处理,这可能会影响后续分析的结果。
  • 插值法填充:对于时间序列数据或其他有序数据,可以使用插值法来估计缺失值,如线性插值或多项式插值等。
  • 模型预测填充:利用其他变量构建模型来预测缺失值,这种方法可以更好地保留数据间的关系。

2.2.2 异常值处理:

  • 删除:直接将含有异常值的记录删除,这可能会同时移除潜在的有效信息。
  • 视为缺失值:将异常值视为缺失值,然后按照缺失值处理的方法进行处理。
  • 平均值修正:使用前后两个观测值的平均值来修正异常值,适用于时间序列等有序数据。
  • 不处理:直接在具有异常值的数据集上进行数据分析,但这可能会影响分析结果的准确性。

2.3 数据转换:

数据转换通常包括将数据从一种类型更改为另一种类型,以及将数据重新编码以适应特定的分析或存储需求。

在这里插入图片描述

2.3.1 数据类型转换:

  • 数据类型转换是将数据值从一个类型转换为另一个类型的过程。这种转换可能是为了确保数据的兼容性
  • 当从低精度类型(如int)向高精度类型(如double)转换时,通常不会出现问题。但是,从高精度转向低精度时可能会出现数据丢失的情况
  • 在编程中,类型转换可以通过强制类型转换操作实现,例如在C语言中使用(type)value的形式进行转换。

2.3.2 数据编码:

  • 数据编码是数据预处理的一个重要方面,它涉及到将定性数据(如文本)转换为定量数据(如数字),以便进行数学计算或统计分析。
  • 常见的数据编码技术包括独热编码(One-Hot Encoding),标签编码(Label Encoding),以及二进制编码等。
  • 数据编码的目的是为了让机器学习算法能够更好地理解和处理数据,尤其是对于分类变量的处理。

2.4 数据合并与重塑:

数据合并与重塑是数据处理中的常见任务,涉及到结合和改变数据的结构以便于分析。

2.4.1 数据合并:

  • 数据合并通常指的是将两个或多个数据集按照一定的键(如ID或时间)结合起来。这在pandas中可以通过merge()函数实现,类似于数据库中的JOIN操作。
  • concat()方法用于将多个DataFrame或Series沿着一条轴(行或列)连接起来,类似于数据库中的UNION操作。
  • combine_first()方法用于在两个DataFrame对象上调用,将第二个对象的值填充到第一个对象的缺失值中。

2.4.2 数据拼接:

  • 数据拼接通常指的是在现有的数据结构上添加新的数据,这可以通过pandas的append()方法实现。

2.4.3 数据重塑:

  • 数据重塑涉及到改变数据的格式或结构,以便更好地适应分析需求。pandas提供了多种重塑数据的方法,如pivot()stack()unstack()等。
  • 层次化索引也是重塑数据的一个强大工具,它允许我们在多个层次上对数据进行分组和操作。

三·数据探索与分析

3.1 描述性统计分析

描述性统计分析是利用统计学的方法对数据进行总结和描述的过程,它涉及到数据的收集、整理、汇总和展示。

  1. 数据的集中趋势分析:这通常包括计算平均值中位数众数等统计量,用以描述数据的典型值或中心位置。
  2. 数据的离散程度分析:通过计算标准差方差极差等来评估数据的波动大小或分散程度。
  3. 数据的分布分析:分析和描述数据的整体分布情况,可能会用到频率分布表直方图等工具。
  4. 数据的频数分析:统计每个类别的观测次数,以了解不同类别的频度。
  5. 基本的统计图形:使用条形图饼图箱线图等图形工具来直观展示数据特征。
  6. 交叉分析法:通过交叉表格来分析两个或多个变量之间的关系。
  7. 对比分析法:比较不同组别或时间点的数据,以发现差异或趋势。
  8. 平均分析法:通过计算平均数来分析数据的总体水平。

3.2 数据可视化原则和技巧

数据可视化的原则和技巧主要在于清晰、有效地传达信息,同时也需考虑美观性和读者的体验

  1. 明确可视化目标:在开始之前,需要明确数据可视化的目的,是为了揭示模式、趋势还是说服观众采取某种行动。这将影响所选择的图表类型和方法。
  2. 选择合适的图表类型:根据目标和数据特性选择最合适的图表类型,如折线图适合展示趋势,柱状图便于比较不同类别等。
  3. 数据处理与清洗:在进行可视化前确保数据的准确性和一致性,处理异常值、缺失值和去除冗余数据,以增强可信度。
  4. 客观性原则:避免个人偏好影响数据展示,确保客观性和准确性。选择图表类型和配色应基于数据特征而非个人喜好。
  5. 考虑时间序列和空间分布:对于有时间或空间特征的数据,要选择合适的方法来展示周期性、趋势性或区域差异。
  6. 标签与注释:合理使用标题、轴标签、图例等元素,辅以解释性文本,帮助快速理解图表含义。
  7. 色彩与对比度:恰当运用色彩和对比度可以突出重点,使视觉元素区分明显,但需注意色彩不宜过多以免造成混乱。
  8. 字体选择:使用简单易读的字体,排版应当服务于清晰度和可读性而非视觉效果。
  9. 条形图基线从零开始:这保证了比较的准确性,防止误导读者。
  10. 与业务需求相结合:将数据可视化与实际业务场景紧密结合,确保其对决策支持有实质性的帮助。

3.3 探索性数据分析(EDA)

探索性数据分析(EDA)是一种用于理解数据集特征的初步分析方法,它有助于揭示数据中的模式、异常值和结构

在这里插入图片描述

  1. 数据概述:初步了解数据集的内容,包括数据的维度、类型和基本统计描述(如均值、中位数、标准差等)。
  2. 数据清洗:处理缺失值、异常值和重复记录,确保数据质量。
  3. 数据可视化:通过图表和图形(如散点图、直方图、箱线图等)直观地展示数据分布和变量间的关系。
  4. 特征工程:基于对数据的理解,选择或构建对预测结果有贡献的特征。
  5. 假设检验:对数据进行统计检验,以验证某些假设或理论。
  6. 建立模型:使用经过探索性分析准备的数据来建立预测或分类模型。

3.4 相关性分析和假设检验

相关性分析和假设检验是统计学中用于探究数据之间关系和测试理论假设的重要方法。

3.4.1 相关性分析

  • 相关性分析旨在探讨两个或多个变量之间的相关程度,例如,研究降水量与温度之间的关系。在进行分析之前,通常通过散点图初步了解变量间的关系情况。如果变量之间存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。
  • 相关性的强度和方向通常通过计算相关系数(如Pearson相关系数)来量化,该系数的值介于-1到+1之间,其中+1表示完全正相关,0表示无相关,-1表示完全负相关。

3.4.1 假设检验

  • 假设检验是一种统计方法,用于检验关于总体参数的假设是否成立。它包括原假设(H0)和备择假设(H1)。原假设通常是研究者想要拒绝的假设,而备择假设是研究者想要接受的假设。
  • 进行假设检验时,会计算一个p值,该值表示在原假设为真的情况下,观察到的样本数据(或更极端的数据)出现的概率。如果p值小于预先设定的显著性水平(通常是0.05或0.01),则拒绝原假设,认为数据提供了足够的证据支持备择假设。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1545891.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决“ModuleNotFoundError: No module named ‘transformers’”错误的全面指南

一、问题背景与原因 在Python编程中,ModuleNotFoundError是一个常见的错误,表明解释器无法在指定的路径或Python环境中找到所需的模块。特别是当我们尝试导入像transformers这样的第三方库时,如果库没有被正确安装,就会遇到这样的…

【机器学习】无监督学习算法之:K均值聚类

K均值聚类 1、引言2、K均值聚类2.1 定义2.2 原理2.3 实现方式2.4 算法公式2.4.1 距离计算公式2.4.1 中心点计算公式 2.5 代码示例 3、总结 1、引言 小屌丝:鱼哥, K均值聚类 我不懂,能不能给我讲一讲? 小鱼:行&#xf…

python关于字符串基础学习

字符串 python字符串是不可改变的 Python不支持单字符类型,单字符也是作为一个字符串使用的。 字符串编码 python3直接支持Unicode,可以表示世界上任何书面语言的字符 python3的字符默认就是16位Unicode编码,ASCII是Unicode的子集 使用内置函数 ord()…

艺术统计图表绘制方法(六叶形图)

艺术统计图表绘制方法(六叶形图) 在网络科技发展进步的当下,原来一些传统的统计图表都有了进一步的创新。以前企业的PPT都依赖微软的各应用软件来制作图表,现时企业的PPT展示的图表应用不再满足于Excle,Word等的图表绘…

人工智能聊天机器人与大型语言模型 (LLM):哪个适合您的业务?

简介:欢迎来到未来 您可能听说过人工智能聊天机器人和大型语言模型 (LLM),对吧? 这些技术奇迹正在重塑企业的沟通和运营方式。 但是,这是一个价值百万美元的问题:哪一个适合您的业务? 让我们深入了解一下&…

shopee全托管服务是什么?Shopee全托管服务有什么特点及优势

2023年各大电商平台都大力推广自家的全托管业务,Shopee也在2023年7月份正式发布全托管业务,2024年,Shopee重点发力全托管业务,对入驻卖家将投入更大的扶持资源。但还有很多小伙伴并不了解什么是shopee全托管服务,所以今…

【数据结构与算法】java有向带权图最短路径算法-Dijkstra算法(通俗易懂)

目录 一、什么是Dijkstra算法二、算法基本步骤三、java代码四、拓展(无向图的Dijkstra算法) 一、什么是Dijkstra算法 Dijkstra算法的核心思想是通过逐步逼近的方式,找出从起点到图中其他所有节点的最短路径。算法的基本步骤如下:…

Simple negative sampling for link prediction inknowledge graphs

摘要 知识图嵌入方法学习知识图中实体和关系的低维向量表示,便于知识图中的链接预测任务。在学习嵌入过程中,采样负三元组是很重要的,因为KGs只观察到正三元组。据我们所知,均匀随机、基于生成对抗网络(GAN)和nscach、结构感知负…

PTA由斜杠划分区域

在由 1 x 1 方格组成的 N x N 网格 grid 中&#xff0c;每个 1 x 1 方块由 /、\ 或空格构成。这些字符会将方块划分为一些共边的区域。 返回区域的数目。 输入格式: 第一行输入一个正整数N&#xff08;N<30&#xff09; 随后N行&#xff0c;每行输入一个长度为N的字符串…

基于单片机的太阳能充电系统设计

摘要:本文所设计的太阳能充电系统主要由以下几个模块组成:STC89C52 主控模块、TP4056 充电电路、电压AD 采集模块、LCD1602 液晶显示模块和太阳能充电电池等组成。此太阳能充电器制作简单,性价比高,性能稳定。 关键词:LCD1602;太阳能充电系统;ADC0832 太阳能充电系统的充…

DARTS-: ROBUSTLY STEPPING OUT OF PERFORMANCE COLLAPSE WITHOUT INDICATORS

DARTS-&#xff1a;增加辅助跳跃连接&#xff0c;鲁棒走出搜索性能崩溃 论文链接&#xff1a;https://arxiv.org/abs/2009.01027 项目链接&#xff1a;GitHub - Meituan-AutoML/DARTS-: Code for “DARTS-: Robustly Stepping out of Performance Collapse Without Indicators…

分页多线程处理大批量数据

1.业务场景 因为需要从一个返利明细表中获取大量的数据&#xff0c;生成返利报告&#xff0c;耗时相对较久&#xff0c;作为后台任务执行。但是后台任务如果不用多线程处理&#xff0c;也会要很长时间才能处理完。 另外考虑到数据量大&#xff0c;不能一次查询所有数据在内存…

华为数通方向HCIP-DataCom H12-821题库(多选题:201-220)

第201题 以下关于BGP中Orginator ID属性的描述,正确的是哪些项? A、Originator ID属于公认任意属性 B、当其他BGP Speaker接收到这条路由的时候,将比较收到的0nginator ID和本地的Router ID,如果两个ID相同BGP Speaker会忽略掉这条路由,不做处理 C、当一条路由第一次被RR…

【目标检测】NMS算法的理论讲解

将NMS就必须先讲IOU&#xff0c; IOU就是交并比&#xff0c;两个检测框的交集除以两个检测框的并集就是IOU 为什么要做NMS操作&#xff0c;因为要去除同一个物体的多的冗余检测框 那么NMS算法是如何做的呢&#xff1f; 以上是算法的流程图 下面讲解算法的流程 首先输入是预…

爬虫Day3

用到的网页--豆瓣电影Top250 需要爬取信息&#xff1a; 数据保存在网页源代码中&#xff0c;是服务加载方式。先拿到网页源代码--request。再通过re提取想要的信息---re。 新知识&#xff1a;用csv存数据&#xff0c;可以用excel表格展示数据 import csv result obj.findite…

串口通信标准RS232 RS485 RS422的区别

RS-232、RS-422、RS-485是关于串口通讯的一个机械和电气接口标准&#xff08;顶多是网络协议中的物理层&#xff09;&#xff0c;不是通讯协议&#xff0c;它们之间的几个不同点如下&#xff1a; 一、硬件管脚接口定义不同 二、工作方式不同 RS232&#xff1a; 3线全双工 RS…

element UI季度选择器的实现

效果展示 用elementUI的select实现季度选择器 代码实现 generateQuarterOption放在methods中&#xff0c;需要近几年的只需要修改第一个循环的次数即可&#xff0c;mounted生命周期函数中调用generateQuarterOption() generateQuarterOption() {//近3年所有季度let now ne…

深入解析以太坊Dencun升级:提升网络性能与安全的关键举措

近年来&#xff0c;以太坊网络一直在不断演进和发展&#xff0c;为了应对日益增长的用户需求和挑战&#xff0c;以太坊社区不断提出并实施各种升级和改进措施。其中&#xff0c;Dencun升级作为最新的一项重大改革&#xff0c;旨在提升以太坊网络的性能和安全性&#xff0c;为其…

护眼台灯有必要买贵的吗?看看业内人士推荐的这五款!

随着学习压力的增大和担心孩子的近视&#xff0c;很多家长朋友们除了培养孩子正确的用眼习惯之外&#xff0c;也开始关注或准备添置学习用的护眼台灯&#xff0c;以缓解学习工作时的用眼疲劳&#xff0c;而相关的护眼灯也成为了市场的热门产品。而市面上护眼灯品牌众多&#xf…

CUDA从入门到放弃(四):CUDA 编程模式 CUDA Programming Model

CUDA从入门到放弃&#xff08;四&#xff09;&#xff1a;CUDA 编程模式 CUDA Programming Model 1 Kernels CUDA C 扩展了 C&#xff0c;允许定义名为内核的函数&#xff0c;这些函数可以被不同的 CUDA 线程并行执行多次&#xff0c;而不是像普通 C 函数那样只执行一次。内核…