数据分析(1)

news2024/11/15 21:33:24

数据分析基础(1)

为了让刚开始学习的朋友对数据分析有一个清晰的整体认识,因此笔者在此对数分进行一个较为详细的介绍有助于大家更好的在宏观层面进行理解,避免在后续学习中产生迷茫。

数据分析的概念

定义:数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。
应用层面:随着信息技术的高速发展,企业生产、收集、存储和处理数据的能力大大提高,同时数据量也与日俱增。把这些繁杂的数据通过数据分析方法进行提炼,以此研究出数据的发展规律和预测趋势走向,进而帮助企业管理层做出决策。就业面非常广泛,具有门槛低,机遇多的优点。

2、数据分析的流程

数据分析是一种解决问题的过程和方法,主要的步骤有需求分析、数据获取、数据预处理、分析建模、模型评价与优化、部署

(1)需求分析

数据分析中的需求分析是数据分析环节中的第一步,也是非常重要的一步,决定了后续的分析方法和方向。主要内容是根据业务、生产和财务等部门的需要,结合现有的数据情况,提出数据分析需求的整体分析方向、分析内容,最终和需求方达成一致。

(2)数据获取

数据获取是数据分析工作的基础,是指根据需求分析的结果提取、收集数据。数据获取主要有两种方式:网络爬虫获取和本地获取。网络爬虫获取指的是通过Python编写爬虫程序合法获取互联网中的各种文字、语音、图片和视频等信息(后续笔者也会更新爬虫系列博客);本地获取指的是通过计算机工具获取存储在本地数据库中的生产、营销和财务等系统的历史数据和实时数据。

(3)数据预处理

数据预处理是指对数据进行数据合并、数据清洗、数据标准化和数据变换,并直接用于分析建模的这一过程的总称。其中,数据合并可以将多张互相关联的表格合并为一张;数据清洗可以去掉重复、缺失、异常、不一致的数据;数据标准化可以去除特征间的量纲差异;数据交换则可以通过离散化、哑变量处理等技术满足后期分析与建模的数据要求。在数据分析过程中,数据预处理的各个过程互相交叉,并没有固定的先后顺序。

(4)分析建模

分析建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型和算法,发现数据中的有价值信息,并得出结论的过程。

(5)模型评价与优化

模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。模型的优化则是指模型性能在经过模型评价后已经达到了要求,但在实际生产环境应用过程中,发现模型的性能并不理想,继而对模型进行重构与优化的过程。

(6)部署

部署是指将数据分析结果与结论应用至实际生产系统的过程。根据需求的不同,部署阶段可以是一份包含了现状具体整改措施的数据分析报告,也可以是将模型部署在整个生产系统的解决方案。在多数项目中,数据分析员提供的是一份数据分析报告或者一套解决方案,实际执行与部署的是需求方。
在这里插入图片描述


数据分析的实现

想要掌握数据分析,首先得从NumPy和pandas开始,这是python实现数据分析最常用的两个库。

NumPy

NumPy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API,有包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数,基本统计运算和随机模拟等。

N维数组

定义:是一个多维数组,描述了相同类型数据的集合。最常用的两个属性分别是数据类型和维度。

数据类型:数组中存储的元素类型,可以是整型(int)、浮点型(float)、布尔型(bool)等。需要注意的是,NumPy数组中的所有元素类型必须是一致的。这与python的元组列表都不同,需要特别注意一下。
维度:[…]表示一维数组,[[…]]表示二维数组,以此类推,[[[…]]]表示三维数组,三维数组中的每个元素都是一个二维数组。
numpy是第三方库需要先下载:
终端输入

pip install numpy

如果下载很慢就换源,笔者推荐清华源

array函数:

array()的参数为任意序列性对象,也就是列表、元组、数组等数据结构都可以作为参数传入,函数会返回数组。

import numpy as np

arrone = np.array([[0.2,0.9],[0.5,0.1],[0.1,0.7]])
arrtwo = np.array([[10,5],[20,5],[1,3]])
print(arrone+2)
print(arrone+arrtwo)

运行结果:
[[2.2 2.9]
[2.5 2.1]
[2.1 2.7]]
[[10.2 5.9]
[20.5 5.1]
[ 1.1 3.7]]
1.数组打印出来后,数组之间的元素是用空格分隔
2.当数组和数字进行计算的时候,Numpy会将该数字的计算过程应用到数组的所用元素上面。
3.当形状相同的数组进行计算时,运算也是在相应的元素上进行。

pandas

pandas第三方库,需要安装,终端输入

pip install pandas
Series(序列)

定义:Series,中文叫做序列,pandas模块的一种数据类型,是一个一维的、带索引(index)的数组对象。(可以类比一下字典或列表,只是注意索引和值的对应方式不同)

注意:Series的值可以是多重数据类型:字符串、整型、浮点型、布尔型。

一个Series在print输出时,值的数据类型会在底部,用dtype表示出来。

在这里插入图片描述

一个Series里所有的值,数据类型都是一样的。

访问

1.位置索引访问。这种访问方式和列表相同,是基于元素自身的下标来进行访问。

2.索引标签访问。这种访问方式和字典相同,把index中的索引标签当做字典的key,而把Series序列的值当做字典的value。

import pandas as pd

info = pd.Series([80855,77388,68024,47251,40471],index=['GD','JS','SD','ZJ','HN'])

print(info.dtype) #输出了info中的数据类型
print(info.values) #输出了info中的值values
print(info.index) #输出了变量info的索引index

运行结果:
在这里插入图片描述

1.dtype

访问Series对象的dtype属性,可以返回Series对象的数据类型

2.values

访问Series对象的values属性,会以数组的形式返回Series对象的值values

3.index

访问Series对象的index属性,可以返回这个Series的索引index


小孩眺望远方,成人思念故乡。我们从挣扎着松绑到思念的投降,大抵这就是成长。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1612508.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis(单/多)线程

一、 Redis 单线程 与 多线程 怎么说? (1)重要的版本迭代 redis4 之前仅支持 单线程, redis 4之后慢慢 支持多线程, 直到redis6/7后才稳定 (2)redis 的 工作线程 是 单线程的 &#xff08…

AtCoder Beginner Contest 350

前面两道阅读理解直接跳过。 C - Sort 大意 给定一个的排列,你可以执行最多次以下操作,让序列变得有序: 选择两个元素,交换它们的位置。 输出任意可行的操作次数及其对应的操作步骤。 思路 从,考虑把交换到第位…

机器学习中的过拟合问题及应对策略:深入剖析与实战指南

在机器学习的领域中,过拟合是一个普遍而又棘手的问题。过拟合指的是模型在训练数据上表现优秀,但在未知或测试数据上表现不佳的现象。这通常是因为模型过于复杂,以至于“记住”了训练数据的噪声和细节,而非学习其内在规律和结构。…

互连芯片浪潮席卷AI服务器:突破瓶颈,再创辉煌

改变AI服务器:互连芯片技术创新和突破 AI服务器崛起,引领未来创新根据TrendForce数据,AI服务器出货量达130,000台,占服务器总出货量的1%。主要制造商推出生成式AI产品,推动订单激增。ChatGPT等应用的需求持续增长&…

windows ubuntu 子系统:肿瘤全外篇,2. fq 数据质控,比对。

目录 1.质控 2.比对并排序 3.标记PCR重复,使用picard 4.samtools建立索引 首先我们先下载一组全外显子测序数据。nabi sra库,随机找了一个。 来自受试者“16177_CCPM_1300019”(SRR28391647, SRR28398576)的样本“16177_CCPM_1300019_BB5”的基因组DNA配对端文库…

VisionPro 脚本教程专栏:深入理解与实践

文章目录 VisionPro 脚本教程专栏:深入理解与实践。目录1. 脚本简介1.1 VisionPro 项目组成1.2 脚本的作用 2. 脚本类与方法2.1 ToolGroup 脚本类2.2 ToolBlock 脚本类2.3 Job 脚本类 3. 脚本使用案例3.1 Job脚本:自动调节曝光时间3.2 ToolBlock脚本&…

C++:面向对象三大特性之一:继承

继承 1.继承理解2.继承方式引起访问变化表格表格理解 3.赋值转换1.普通对象赋值2.继承对象赋值:赋值转换注意 4.继承的作用域5.派生类默认成员函数1.构造函数2.析构函数3.拷贝构造4.赋值重载 6.继承与友元7.继承与静态成员 1.继承理解 继承机制是面向对象程序设计使…

驶向成功:如何选择适合国际拓展的完美CRM

一、出海企业应该怎么选择CRM? 出海企业在选择CRM系统时,需要考虑行业特性以及在对外业务过程中可能遇到的问题。接触了一些出海企业客户,总结了以下出海企业在选择CRM时的诉求。 1、合法合规风险 出海企业的业务遍布不同国家地区&#xff…

【考研数学】基础跟武忠祥,同步刷《660》的正确方法

听我的,现在立刻马上停下来 你这不是在做题,你这是在看题,效果最差的那种,做完过两天就忘的一干二净了 我不敢说我特别会学习考研数学,但是我考研的时候,最后数学一的成绩是120,不算特别好&am…

搞定这些python自动化测试面试题与答案汇总,offer拿到手软!

1、什么项目适合做自动化测试? 关键字:不变的、重复的、规范的 1)任务测试明确,需求不会频繁变动 2)项目周期要足够长 3)自动化测试脚本可重复使用,比如:比较频繁的回归测试 4&…

01-大语言模型发展

AI大模型的相关的一些基础知识,一些背景和基础知识。 多模型强应用AI 2.0时代应用开发者的机会。 0 大纲 AI产业的拆解和常见名词应用级开发者,在目前这样一个大背景下的一个职业上面的一些机会实战部分的,做这个agent,即所谓智…

基于pytest自动化测试框架分享

一、pytest运行方式与基本规范 1.简单介绍 pytest是一个非常成熟的全功能的Python测试框架,主要有以下几个特点: 简单灵活,容易上手支持参数化能够支持简单的单元测试和复杂的功能测试,还可以用来做Web UI自动化测试&#xff0…

第 7 章 导航实现(自学二刷笔记)

重要参考: 课程链接:https://www.bilibili.com/video/BV1Ci4y1L7ZZ 讲义链接:Introduction Autolabor-ROS机器人入门课程《ROS理论与实践》零基础教程 准备工作 请先安装相关的ROS功能包: 安装 gmapping 包(用于构建地图): sudo apt inst…

详细UI色彩搭配方案分享

UI 配色是设计一个成功的用户界面的关键之一。UI 配色需要考虑品牌标志、用户感受、应用程序的使用场景,这样可以帮助你创建一个有吸引力、易于使用的应用程序。本文将分享 UI 配色的相关知识,帮助设计师快速构建 UI 配色方案,以满足企业的需…

webgl canvas系列——animation中基本旋转、平移、缩放(模拟冒泡排序过程)

文章目录 ⭐前言⭐canvas绘制图片💖状态保存和恢复💖移动、旋转、缩放、变形💖移动绘制一个渐变的box💖旋转💖缩放 ⭐模拟冒泡排序过程⭐结束 ⭐前言 大家好,我是yma16,本文分享webgl canvas系…

EMD分解

ref:【EMD经验模态分解-哔哩哔哩】 https://b23.tv/LfepZjU 流程: IMF 固有模态函数 imf1 迭代直到是一个imf 8次迭代后,满足是一个imf residual的得到:原始信号-均值(上下包络线的均值) imf2 为什么时序…

【公司UI自动化学习】

公司课程链接:https://l.jd.com/student/project/project.du?project_id697509403 公司的课程,是给一个学习方向。 一、 PC自动化 1)什么项目适合 2)PC自动化介入时间点 3)自动化率: 频繁改动的&…

【Harmony3.1/4.0】笔记二

概述 列表是一种复杂的容器,当列表项达到一定数量,内容超过屏幕大小时,可以自动提供滚动功能。它适合用于呈现同类数据类型或数据类型集,例如图片和文本。在列表中显示数据集合是许多应用程序中的常见要求(如通讯录、…

深度学习500问——Chapter08:目标检测(2)

文章目录 8.2.4 R-FCN 8.2.5 FPN 8.2.6 Mask R-CNN 8.2.4 R-FCN R-FCN 有哪些创新点 R-FCN仍然属于two-stage目标检测算法:RPN R-FCN Fully convolutional位置敏感得分图(position-sentive score maps) our region-based detector is ful…

java-Spring-入门学习-第二天(单例模式和多例模式)

目录 Bean作用域 单例模式(默认可以不写) Spring下的 AutoWired 依赖注入 JaveEE下的 Resource 依赖注入 多例模式 Bean作用域 ​在Spring框架中,Bean是按照作用域来创建的,常见的作用域有两种:Singleton 和 Prototype。Singleton (单例…