数据分析概述

news2025/1/11 11:16:13

数据分析概述

  • 数据的性质
    • 数据的概念
      • 数据与信息的区别和联系
    • 数据的类型
      • 按照度量尺度分
      • 按时间状况分
  • 什么是数据分析
    • 数据分析的重要性
    • 数据分析的内容
    • 数据分析作用
  • 数据分析的基本流程
    • 典型的数据分析的流程
  • 数据分析方法
    • 对比分析法
    • 分组分析法
      • 定量数据分布分析——具体事例
    • 结构分析法
    • 平均分析法
    • 矩阵关联分析法
    • 高级数据分析法
  • 数据分析的常用工具
  • 数据分析的开发环境

数据的性质

数据的概念

数据:就是描述事物的符号,是对客观事物的性质、 状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。
在计算机系统中:各种文字、字母、数字符号的组合,图形、图像、视频、音频等统称为数据,数据经过加工后就成为了信息。
在现实世界中:天气预报、居民身份证号码、快递单号和火车时刻表中都包含了大量的数据。

数据与信息的区别和联系

  • 数据是信息的表现形式和载体,信息则是数据的内涵
  • 数据与信息不可分离,信息依赖数据来表达,数据则生动具体表达信息
  • 数据是符号的,物理的;信息是用来决策、预测等对数据有意义的表示;

数据的类型

按照度量尺度分

定性数据(也称为计数数据,quantitative data)
a.度量事物进行分类的结果,数据表现为类别
b.用文字来表述。如性别、区域、产品分类等等
定量数据(也称为计量数据, data)
a.度量事物的精确测度,结果表现为具体的数值
b.用数字来表述。如身高、体重、家庭收入、成绩等
在这里插入图片描述

按时间状况分

动态数据(也称为时间序列数据,time series data)
a.是按照一定的时间间隔对某一变量在不同时间的取值进行观测得到一组数据
b.反映在不同时间收集到的数据描述现象随时间变化的情况
例如,收集2001-2015年各季度我国各地区国内生产总值(GDP,单位:万亿元)的数据,这些数据变形成时间序列数据。
在这里插入图片描述

什么是数据分析

数据分析的重要性

在这里插入图片描述
在这里插入图片描述

数据分析的内容

  • 数据分析是指根据分析目的,利用数学、统计学、计算机科学等相结合的科学统计分析方法,对业务系
    统、互联网上的结构化、半结构化和非结构化的数据进行分析,提取有价值的信息,并形成结论进行展 示的过程。
  • 数据分析的本质,是通过总结数据的规律,解决业务问题,以帮助在实际工作中的管理者做出判断和决 策。
  • 主要包括以下三个内容:
    • 现状分析:分析已经发生了什么
    • 原因分析:分析为什么会出现这种情况
    • 预测分析:分析未来可能发生什么

数据分析作用

(1)通过数据分析,可及时纠正不当的生产和营销措施。
(2)通过数据分析,可以对计划进度做到实时跟踪。
(3)通过数据分析,可以及时了解成本管制情况,掌握员工思想动态。
(4)完善的数据管理和分析,可以对生产流程进行科学管理,最大限度地降低生产管理风险。

数据分析的基本流程

典型的数据分析的流程

在这里插入图片描述
业务理解:数据分析中的业务理解,也是明确需求,是数据分析环节的第一步和最重要的步骤之一,决定 了后续的分析的方向、方法。

数据获取:数据是数据分析工作的基础,是指根据需求分析的结果提取,收集数据。

数据处理:也叫数据预处理是指对数据进行规约、清洗、加工,使得整体数据变为干净整齐,可以直接用 于分析这一过程的总称。
数据分析:分析是指通过选择合适的分析方法和工具对数据进行分析建模,发现数据中的有价值信息,并得出结论的过程。
验证结果:数据分析的结果是数据主观结果的体现,需要通过真实场景或评测指标进行验证。
结果展示:以图表方式清晰、直观地呈现数据分析结果,便于理解

数据应用:也叫部署,是指将通过了正式应用数据分析结果与结论应用至实际生产系统的过程。

数据分析方法

对比分析法

对比分析法也称为比较分析法,是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模有大小、水平和高低、速度的快慢,以及各种关系是否协调。
对比分析可以选择不同的维度进行分析,常用的有以下维度。
(1)时间维度
(2)空间维度
(3)计划目标标准维度
(4)经验与理论标准维度

分组分析法

分组分析法是根据数据分析对象的特征,按照一定的指标,把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。分组的目的是为了便于对比,因此分组法要和对比法结合运用。分组分析法的关键在于确定组数与组距。
组距分组步骤:
1.确定组数,根据数据的本身特点来确定,组数不能太多也不能太少
2.确定各组的组距。 组距=(最大值-最小值)/组数
3.根据组距的大小,对数据进行分组整理,划归至相应组内。

定量数据分布分析——具体事例

下表是描述菜品捞起生鱼片在2014年第二个季度的销售数据,绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。
在这里插入图片描述
第一步:求极差
极差 = 最大值 - 最小值 = 3960-45=3915
第二步:分组
这里根据业务数据的含义,可取组距为500。
组数 = 极差/组距 = 3915/500=7.83=8
第三步:决定分点,如下表:
在这里插入图片描述
第四步:绘制频率分布直方图
根据分组区间得到如下表的频率分布表,见下表。其中,第1列把数据所在的范围分成的若干组段,第1个组段要包括最小值,最后一个组段要包括最大值,习惯上将各组段设为左闭右开的半开区间,如第一个分组为[0,500)。第2列组中值是各组段的代表值,由本组段的上、下限相加除以2得到。第3列和第4列分别为频数和频率。第5列是累计频率,是否需要该列,视情况而定。
在这里插入图片描述
第五步:绘制频率分布直方图
若以2014年第二季度捞起生鱼片每天的销售额为横轴,以各组段的频率密度(频率与组距之比)为纵轴,表3‑3的数据可绘制成频率分布直方图,见图:
在这里插入图片描述

结构分析法

结构分析法是指分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。一般某部分的比例越大,说明其重要程度越高,对总体的影响越大。
结构相对指标(比例)的计算公式:
结构相对指标(比例)=(总体某部分的数值/总体总量)×100%
市场占有率=(某种商品销售量/该种商品市场销售总量)×100%

平均分析法

平均分析法就是运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。平均指标可用于同一现象的不同地区、不同部门或单位间的对比,还可用于同一现象在不同时间的对比。
算术平均数的计算公式:
算术平均数=总体各单位数值的总和/总体单位个数
特点:
算术平均数是非常重要的基础性指标。平均数是综合指标,它的特点是将总体内各单位的数量差异抽象化,它只能代表总体的一般水平,掩盖了在平均数后各单位的差异。

矩阵关联分析法

根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也成为矩阵关联分析方法。
在这里插入图片描述
(1)第一象限(高度关注区):属于重要性高、满意度也高的象限。
(2)第二象限(优先改进区):属于重要性高、但满意度低的象限。
(3)第三象限(无关紧要区):属于重要性低、满意度也低的象限。
(4)第四象限(维持优势区):属于重要性低、满意度高的象限。

高级数据分析法

  • 聚类分析
  • 相关分析
  • 回归分析

数据分析的常用工具

目前主流的数据分析语言有R, Python, MATLAB三种程序语言。
在这里插入图片描述
Python 数据分析主要包含以下 5 个方面优势
语法简单精练。对于初学者来说,比起其他编程语言, Python更容易上手。

有很强大的库。可以只使用Python这一种语言去构建以数据为中心的应用程序。

功能强大。 Python是一个混合体,丰富的工具集使它介于传统的脚本语言和系统语言之间。 Python不仅具 备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具。
➢ 不仅适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具,会给企业带来非常显著的组织效益,并降低企业的运营成本。
Python是一门胶水语言。 Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。

数据分析的开发环境

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/602266.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

上海亚商投顾:沪指高开高走 地产股迎来久违反弹

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大指数今日高开高走,沪指午后涨近1%,深成指、创业板指涨超1.2%,上证50盘中大…

惠更斯定理和格林定理

惠更斯原理和格林定理 惠更斯原理显示了表面上的波场如何决定表面 S S S外的波场。惠更斯在17世纪启发性地表达了这一概念。但这个想法的数学表达是由于19世纪的乔治格林。这一概念可以在数学上表达为标量波和矢量波。矢量波情形的推导与标量波情形是同态的。但是标量波情况下…

少儿编程python-一级

少儿编程python 文章目录 前言CSP-J与CSP-S少儿编程证书含金量排名(国家承认的少儿编程证书)非专业级软件能力认证(CSP-J/S)青少年编程能力等级测试(CPA)蓝桥杯青少年信息技术等级考试全国青少年软件编程等…

造船厂事故/风险(背景+官方统计数据)

造船厂事故/风险(背景官方统计数据) 船厂工地常见事故船厂事故:发人深省的伤害统计船厂工地常见的风险有哪些? 造船业是周期性的、资本密集型的行业。更严格的环境法规于2020年初生效,引发了对抑制船舶废气硫排放技术的需求。与此同时&#…

数据标记工具

检测分割标定 labelstudio https://labelstud.io/sudo apt install libpq-dev python3-devconda activate paddle_envpip install label-studiolabel-studio startlabel-studio --data-dir /data/data_label_studio<View><Image name"image" value"$im…

【shiro】shiro整合JWT——2.如何整合

前言 shiro整合JWT系列&#xff0c;主要记录核心思路–如何在shiroredis整合JWTToken。 上一篇中&#xff0c;我们知道了需要创建JwtToken、JwtUtil、JwtFilter。 该篇主要讲如何在shiro框架中&#xff0c;配置Jwt。 ps&#xff1a;本文主要以记录核心思路为主。 1、ShiroCon…

如何零基础自学黑客?

我经常会看到这一类的问题&#xff1a; 学习XXX知识没效果&#xff1b;学习XXX技能没方向&#xff1b;学习XXX没办法入门&#xff1b; 给大家一个忠告&#xff0c;如果你完全没有基础的话&#xff0c;前期最好不要盲目去找资料学习&#xff0c;因为大部分人把资料收集好之后&…

Android中的WorkManager

Android中的WorkManager 在后台运行任务会消耗设备有限的资源&#xff0c;如RAM和电池。这可能会导致用户体验不佳。例如&#xff0c;后台任务可能会降低设备的电池寿命或用户在观看视频、玩游戏、使用相机等时可能会遇到设备性能不佳的情况。 为了提高电池性能&#xff0c;An…

关于人力资源管理职能,你需要知道的事

每个成功的企业都有一个称职的人力资源部门。它是任何企业的重要组成部分&#xff0c;是员工和管理层之间的纽带。人力资源涵盖影响组织人员的所有任务&#xff0c;从基本的人力资源活动到战略决策。 对于任何希望可持续发展的企业来说&#xff0c;人力资源管理职能的重要性不…

0802数量积向量积混合积-向量代数与空间解析几何

文章目录 1 两向量的数量积1.1 引例1.2 定义1.3 推论1.4 运算规律1.4 数量积的坐标表示 2 两向量的向量积2.1 定义2.2 重要结论2.3 几何意义&#xff08;向量积模&#xff09;2.4 向量积的运算规律2.5 向量积的坐标表示 3 向量的混合积3.1 混合积的定义3.2 混合积的坐标表示3.3…

初识报表引擎-FineReport

简介 提到报表引擎大家可能都会说帆软。目前商用的比较突出的两个报表引擎&#xff1a;分别是帆软FineReport、RDP报表引擎&#xff0c;其中帆软功能突出且非常完整但是价格较高&#xff0c;RDP功能相对完整但是不够强大貌似还有些BUG&#xff0c;不过价格很低。就目前的情况来…

《模板的进阶》

本文主要介绍C模板知识&#xff0c;包括模板的参数类型&#xff0c;模板的特化&#xff0c;模板的分离编译 文章目录 思维导图一、非类型模板参数二、模板的特化2.1模板特化的概念2.2函数模板特化2.3类模板的特化2.3.1全特化2.3.2偏特化 2.4非类型模板参数也是可以特化的 三、模…

Android 调用系统隐藏的类和方法

1.Android系统隐藏的类和方法 阅读Android源码时&#xff0c;会发现很多被UnsupportedAppUsage注解的方法&#xff0c;这些方法不能被外部应用访问。 比如Android中的PackageParser类&#xff0c;这个类是在android.content.pm包下面&#xff1a; 可以看到这个类是隐藏的&…

有哪些自动化构建工具推荐? - 易智编译EaseEditing

以下是几个常用的自动化构建工具推荐&#xff1a; Jenkins&#xff1a; Jenkins 是一个开源的自动化构建工具&#xff0c;广泛用于持续集成和持续交付。 它支持各种编程语言和版本控制系统&#xff0c;并提供了丰富的插件生态系统&#xff0c;可实现灵活的构建流程和自动化部…

【Spring】— 动态SQL :<choose>、<when>和<otherwise>元素

<choose>、<when>和<otherwise>元素 在使用<if>元素时&#xff0c;只要test属性中的表达式为true&#xff0c;就会执行元素中的条件语句&#xff0c;但是在实际应用中&#xff0c;有时只需要从多个选项中选择一个执行。例如&#xff0c;若用户姓名不为…

九、Docker网络

Docker网络 一、docker网络介绍 Docker网络在Docker的基础知识中算比较重要的了&#xff0c;需要多多实验理解。 Docker服务安装启动后默认在host上创建了三个网络&#xff1a; [rootk8s-m1 ~]# ip a 1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UN…

毛毛莫名的大一生活总结

毛毛莫名的大一生活总结 1. 关于高考我的看法1.1 初中1.2 高中 2. 大一开学前的暑假3. 大一开学3.1 军训3.2 学生会 学校社团 运动团体3.2.1 学生会3.2.1.1 院学生会3.2.1.2校学生会 3.2.2 社团3.2.3 运动团体 4. 大学生活 1. 关于高考我的看法 1.1 初中 初一初二对学习不用太…

一种简单的Android骨架屏实现方案----0侵入0成本

对骨架屏的理解 什么是骨架屏 所谓骨架屏&#xff0c;就是在页面进行耗时加载时&#xff0c;先展示的等待 UI, 以告知用户程序目前正在运行&#xff0c;稍等即可。 等待的UI大部分是 loading 转圈的弹窗&#xff0c;有的是自己风格的小动画。其实大同小异。而骨架屏无非也是一…

本地部署github上的stable diffuion,轻松玩转ai绘画(新手小白也能懂)

你也想自己生成上面这样好看的图片吗&#xff1f;废话不多说&#xff0c;跟着博主&#xff0c;按步骤来&#xff0c;做完你也就可以了&#xff0c;而且无任何限制&#xff0c;懂得都懂&#xff01;&#x1f60e; 目录 第一步&#xff1a;准备VPN 第二步&#xff1a;安装Pyth…

LabVIEWCompactRIO 开发指南第七章48

LabVIEWCompactRIO 开发指南第七章48 5.如果控制器上已经安装了LabVIEW实时和NI-RIO&#xff0c;请选择自定义软件安装并点击下一步。如果出现警告对话框&#xff0c;请单击“是”。单击NI-工业通信用于EtherCAT的框。将自动检查所需的依赖项。单击下一步继续在控制器上安装软…