认识数据分析

news2025/1/20 10:48:07

文章目录

    • 1. 认识数据分析
      • 1.1 数据自身的三大属性
      • 1.2 建数仓 数据分析的工程技术
      • 1.3 数据分析解决问题的原理
      • 1.4 数据分析的具体流程
      • 1.5 数据的中心化和智能化
      • 1.6 数据分析的四种类型和六个方向

1. 认识数据分析

1.1 数据自身的三大属性

  • 客观:用数字衡量和表现一件客观事物时,能最大程度统一大家的认知

  • 量化:量化的数据,可以利用数学原理进行各种精密的计算,得出更多价值的结果

    如业务推导:门店成交额=下单人数*平均客单价,知道其中两个即可推算第三个

    统计学:平均数、中位数、众数

    微积分:求导–路程-速度-加速度

  • 机器可处理:数据是少数人和机器都能理解和处理的信息,人可以借助机器高效处理数据的各种信息

  • 数据图表:机器给予规则计算和展现数据

  • 数据工程:让机器替代人去7*24小时汇总和处理数据

  • 机器学习:让机器按照人设定的规则去试错尝试、求解最佳参数

1.2 建数仓 数据分析的工程技术

随着数据系统的晚上,如果企业的数据汇总超过了Excel的存储上线

那么企业需要建立自己的大规模数据仓库,处理不断增长的数据资产,数据仓库技术占到数据分析实现所用技术的70%以上

image-20230912112120129

  • 埋点采集

    • 传感器 :传感器通常用于测试物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,使其活起来
  • 系统日志采集方法:

    • 日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和web服务器记录的用户访问行为
    • 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chkwa,Cloudera和Flume,Fackbokk的Scribe.这些工具采用分布式架构,能满足每秒数百M的日志数据采集和传输需求
  • web爬虫

    • 网络爬虫指为搜索引擎下载并存储网页的程序,它是搜索引擎和web缓存的主要的数据采集方式,通过网络爬虫或网站公开API等方式从网站上获取数据信息。
  • 传输存储(数仓)

    • 传输:借助网络

    • 存储:借助数据库技术,研究如何组织和存储数据,高效获取和处理数据是一门大学问

      ​ 其涉及了:速度、准确性、最大规模、以及数据种类

  • 提取回流(数仓/算法)

    • 提取即将数据查询到,并导出为文件
    • 回流即指数据被操作过之后,怎么会到数据库,继续参与到生产和建模
  • 清洗处理(数仓)

    • 清洗:指利用一些第三方库清洗数据,使其符合数据包准
    • 处理:使得数据符合实际的需求
  • 连接导入:

    • 即对接不同的工具和软件,涉及到各种中间件和协议
  • 分析建模(分析/算法)

    • 分析:计算,并绘制一些可视化的图表等
  • 建模

    • 即机器学习与深度学习
  • 部署应用

    • BI监控
    • 算法平台:先知
    • 工程开发

1.3 数据分析解决问题的原理

image-20230913202440176

  • 传统:问题发生----结合现实----逻辑推理----得出结论
  • 数据:问题发生----结合现实----数据映射----量化分析----得出结论

数据分析只是分析的一种,能对碎片化的信息加以抽象和整合,不过度依赖量化,才是真正的分析能力

1.4 数据分析的具体流程

image-20230913202734094

  • 注意分析数据的目的:
    • 业务分析:关注数据与业务的关联性,映射关系和可解释性
    • 建模分析:关注数据的整体特征(特征决定上限,模型调参无限趋近于上限)
    • 分析的种类:
      • 计算型分析:统计学,机器学习
      • 逻辑型分析:归纳/演绎,思维模型

1.5 数据的中心化和智能化

  • 中心化

    • 当数据仓库建立完毕后,企业的数据团队基本上也搭建完毕了,但初级的数仓仍然有诸多问题

    • 跨库查询:数据存储在不同服务器中,无法实现业务级的垮库查询

    • 数据架构:数据中每个系统的开发独立维护,指标定义、数据结构、数据类型等架构标准都
      统一

    • 数据需求:字段需求无法精准有节奏地一一实现,开发说不做就不做了

    • 中心化的数据库将会统一管理企业的所有数据字段,将所有数据汇总到一个技术架构和仓库里

    • 只有一线C端的大型互联网公司才完成了数据中心的建设

      • 京东B轮的时候才进行了数仓的全面重构和中心化

      • 淘宝也是在阿里云出世后才彻底完成

      • 字节很多新增业务部依旧日无法接入数据中心

  • 智能化
    • 在完成数据中心的建设后,企业在数据征途上将挑战一个永无止境目标一一商业智能
    • 商业智能实现的四个阶段

image-20230913205626233

  • 反映现实情况

    image-20230913205906373

  • 监控关键指标

image-20230913205956112

  • 辅助决策制定

image-20230913210032249

  • 实现自动决策

image-20230913210210078

1.6 数据分析的四种类型和六个方向

image-20230913210450566

image-20230913210538301

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1007511.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue2+three.js+blender(实现3d 模型引入并可点击效果)

2023.9.13今天我学习了如何把3d建模里面的模型引入到vue中&#xff0c;并可以实现拖动&#xff0c;点击的效果&#xff1a; 首先安装&#xff1a; npm install three 相关代码如下&#xff1a; <!--3d基础版&#xff0c;实现单个3d图形--> <template><div>&…

【服务器】ASUS ESC4000-E11 安装系统

ASUS ESC4000-E11说明书 没找到 ASUS ESC4000-E11的说明书&#xff0c;下面是ESC4000A-E11的说明书&#xff1a; https://manualzz.com/doc/65032674/asus-esc4000a-e11-servers-and-workstation-user-manual 下载地址&#xff1a; https://www.manualslib.com/manual/231379…

【PTA】PAT(甲级)2022年冬季考试自测

个人学习记录&#xff0c;代码难免不尽人意。 这次考试&#xff0c;e&#xff0c;第一题我看好多人都没理解题意做错了&#xff0c;还有第四题真的是比较意外&#xff0c;之前做的题都是给序列建树&#xff0c;但是这次让判断是否可以生成树&#xff0c;之前从来没有遇到过这类…

leecode 每日一题 2596. 检查骑士巡视方案

2596. 检查骑士巡视方案 骑士在一张 n x n 的棋盘上巡视。在 有效 的巡视方案中&#xff0c;骑士会从棋盘的 左上角 出发&#xff0c;并且访问棋盘上的每个格子 恰好一次 。 给你一个 n x n 的整数矩阵 grid &#xff0c;由范围 [0, n * n - 1] 内的不同整数组成&#xff0c;其…

pyechart练习(一):画图小练习

1、使用Map制作全球人口分布图 import math import osimport matplotlib.pyplot as plt from pyecharts.charts import Map from pyecharts import options as opts# 只有部分国家的人口数据 POPULATION [["China", 1420062022], ["India", 1368737513],…

【C++】拷贝构造函数调用时机 ② ( 对象值作为函数参数 | 对象值作为函数返回值 )

文章目录 一、拷贝构造函数概念二、对象值作为函数参数1、拷贝构造函数调用情况说明2、代码示例 - 对象值作为函数参数 三、对象值作为函数返回值1、拷贝构造函数调用情况说明2、代码示例 - 对象值作为函数返回值 博客总结 : " 拷贝构造函数 " 又称为 " 赋值构…

MySQL之分布式事务

写在前面 当数据库进行了分库分表 之后为了保证数据的一致性。不可变的就需要引入跨数据的事务解决方案&#xff0c;这种解决方案我们叫做分布式事务。本文就一起来看下分布式事务相关的内容。 在8.0 版本上学习。 1&#xff1a;实战 为了能够更好的理解理论知识&#xff0c;…

基于SSM的中小型企业财务管理系统的设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

C++项目实战——基于多设计模式下的同步异步日志系统-②-前置知识补充-不定参函数

文章目录 专栏导读不定参函数C风格不定参函数不定参宏函数 专栏导读 &#x1f338;作者简介&#xff1a;花想云 &#xff0c;在读本科生一枚&#xff0c;C/C领域新星创作者&#xff0c;新星计划导师&#xff0c;阿里云专家博主&#xff0c;CSDN内容合伙人…致力于 C/C、Linux 学…

数据分析三剑客之Matplotlib

0.Matplotlib绘图和可视化 1.简介 我的前面两篇文章介绍了 Nimpy &#xff0c;Pandas 。今天来介绍一下Matplotlib。 简单来说&#xff0c;Matplotlib 是 Python 的一个绘图库。它包含了大量的工具&#xff0c;你可以使用这些工具创建各种图形&#xff0c;包括简单的散点图&…

Java多线程并发面试题

文章目录 Java并发基础并行和并发有什么区别&#xff1f;说说什么是进程和线程&#xff1f;Java线程创建方式&#xff1f;Runnable和Callable接口的区别&#xff1f;为什么调用start()方法时会执行run()方法&#xff0c;不直接调用run()方法&#xff1f;sleep()和wait()的区别&…

预约陪诊就诊小程序源码多城市开发版

陪诊小程序多城市版开发 小程序支持多城市开通&#xff0c;支持创建陪诊团队以及提成奖励设置&#xff0c;可以定义多种服务类型&#xff0c;订单流程简单明了&#xff0c;支持陪诊师手机端订单处理&#xff0c;家政类目可以轻松过审。 小程序市场前景&#xff1a; 人口老龄化…

强大:dynamsoft-barcode-reader-dotnet-9.6.30 Crack

dynamsoft-barcode-reader-dotnet 具有灵活 API 的强大条码扫描器 SDK 无论它是扭曲的、黑暗的、遥远的、模糊的、批量的还是移动的&#xff0c;我们都可以扫描它。速度快 条码扫描速度每分钟500 业界最快的扫描解码&#xff0c;可应用于不同场景&#xff1a; 多个条形码/二维…

【VS2022】调试

F9 创建或取消断点 ctrlF9 禁用断点 F5 开始调试&#xff08;到断点处停下来&#xff09; F10 逐过程&#xff08;不进入函数&#xff09; F11 逐语句 F5、F10、F11都可以直接进入调试 【调试】->【窗口】->【监视】&#xff0c;输入变量就可以观察到变量的值。 …

C语言数组和指针笔试题(二)(一定要看)

目录 字符数组二例题1例题2例题3例题4例题5例题6例题7总结 字符数组三例题1例题2例题3例题4例题5例题6例题7 字符数组二 char arr[] {a,b,c,d,e,f} 1:printf("%d\n", strlen(arr)); 2:printf("%d\n", strlen(arr0)); 3:printf("%d\n", strlen(…

Python小项目之Tkinter应用】随机点名/抽奖工具大优化:新增查看历史记录窗口!语音播报功能!修复预览文件按钮等之前版本的bug!

文章目录 前言一、实现思路二、关键代码查看历史记录按钮语音播报按钮三、完整代码总结前言 老生常谈,先看效果:(订阅专栏可获取完整代码) 初始状态下,我们为除了【设置】外的按钮添加弹窗,提示用户在使用工具之前要先【设置】。在设置界面,我们主要修改了【预览文件】…

每日一题 2596. 检查骑士巡视方案

难度&#xff1a;中等 很简单&#xff0c;从第 0 步开始模拟即可&#xff0c;唯一sb的就是测试用例中如果&#xff08;0&#xff0c;0&#xff09;处不为0的话就直接false&#xff0c;而不是去找0在哪 我的代码&#xff1a; class Solution:def checkValidGrid(self, grid: L…

2000-2021年上市公司全要素生产率数据OP法(含原始数据+计算代码+结果)

2000-2021年上市公司全要素生产率数据OP法&#xff08;含原始数据计算代码结果&#xff09; 1、时间&#xff1a;2000-2021年 2、指标&#xff1a;股票代码、年份、证券代码、固定资产净额、营业总收入、营业收入、营业成本、销售费用、管理费用、财务费用、支付给职工以及为…

防火墙 (五十四)

目录 前言 一、防火墙作用 二、防火墙分类 三、防火墙性能 四、硬件防火墙 五、软件防火墙 5.1 iptables 六、iptables应用 前言 本文就简单的介绍了防火墙的基础内容和一些简单案例的操作。 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、防火墙…

jmeter线程组 bzm - Concurrency Thread Group 阶梯式压测

简介 bzm - Concurrency Thread Group 不是JMeter的官方插件&#xff0c;而是一种由Blazemeter提供的高级线程组插件&#xff0c;它提供了更灵活的并发性能测试设置。它可以在不同的时间内并发执行不同数量的线程&#xff0c;模拟不同的负载场景。 插件下载地址&#xff08;jme…