1. 大数据概念
数据
- 是实时或观察的结果
- 是对客观事务的逻辑归纳
- 是用于表示客观事物的未经加工的原始素材
数据的产生
- 对客观事务的计量和记录尝试的数据
单位 | 换算 |
---|---|
1 byte | 8 bit |
1 k | 1024 byte |
1 mb | 1024 k |
1 g | 1024 m |
1 t | 1024 g |
1 p | 1024 t |
1 e | 1024 p |
1 z | 1024 e |
1 y | 1024 z |
1 b | 1024 y |
1 n | 1024 b |
1 d | 1024 n |
1.1 大数据的特点(5V 特征)
1.2 大数据应用场景
-
电商领域
- 精准广告位
- 个性化推荐
- 大数据杀熟
-
传媒领域
- 精准营销
- 猜你喜欢
- 交互推荐
-
金融领域
- 信用评估
- 风险管控
- 客户细分
- 精细化营销
-
交通领域
- 拥堵预测
- 智能红绿灯
- 导航最优规划
-
电信领域
- 基站选址优化
- 舆情监控
- 客户用户画像
-
安防领域
- 犯罪预防
- 天网监控
-
医疗领域
- 智慧医疗
- 疾病预防
- 病原追踪
1.3 流程
1.3.1 明确分析目的和思路
-
目的是整个分析流程的七点:
为数据的收集、处理及分析提供清晰的指引方向
-
思路是使分析框架体系化:
先分析什么,后分析什么,使各分析点质检具有逻辑联系
保证分析维度的完整性,分析结果的有效性以及正确性
-
数据分析方法论:
营销管理相关理论用户行为理论、PEST分析法、5W2H分析法等
数据分析方法论主要用来知道数据分析师进行一次完整的数据分析,它更多的是指数据分析思路
数据分析法则是指具体的分析方法,例如:对比分析、交叉分析、相关分析、回归分析、聚类分析等
用户行为理论
1.3.2 数据收集
-
数据从无到有的过程
如:传感器收集气象数据、埋点收集用户行为数据
-
数据传输搬运的过程
如:采集数据库数据到数据分析平台
1.3.3 数据处理
-
收集到的数据进行加工整理,形成适合数据分析的样式
主要包括数据清洗、数据转化、数据提取、数据计算
-
保证数据的一致性和可靠性
1.3.4 数据分析
-
用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
需要掌握各种数据分析方法,还要熟悉数据分析软件的曹祖
-
数据挖掘本质是一种高级的数据分析方法
数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律
1.3.5 数据展现
- 数据通过表格和图形的方式来呈现
1.3.6 报告撰写
- 数据分析报告是对整个数据分析过程的一个总结与呈现
- 把数据分析的起因、过程、结果及建议完整的呈现出来,供决策者参考
- 需要有明确的结论,最好有建议或解决方案
1.4 大数据部门组织架构
2. 分布式技术
2.1 为什么需要分布式技术
-
科学技术的发展推动下
应用和系统架构的变迁:单机单一架构迈向多机分布式架构
- 单一架构
-
分布式架构
-
数据大爆炸,海量数据处理场景面临问题
-
如何存储?
多台集齐分布式存储
-
如何计算?
多台集齐分布式计算
-
2.2 分布式系统概述
-
分布式系统是一个硬件或软件组件分布在不同的网络计算机上
-
彼此质检仅仅通过消息传递进行通信和协调的系统
-
一群互相独立计算机集合共同对外提供服务
-
对于系统的用户来说,就像是一台计算机在提供服务一样
2.3 分布式(Distributed)与集群(Cluster)
- 分布式与集群式两种概念
分布式:
- 多台机器
- 每台机器上部署不同组件
集群:
- 多台集齐
- 每台集群部署相同组件
2.4 负载均衡(Load Balance)
- 将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行
- 解决了单个无法处理所有任务,多个一起处理的问题
2.5 故障转移
- 当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它们的工作
- 故障转移系统也称之为
容错系统
,所谓容错指的是可以容忍错误的发生 - 故障转移的核心是设置备份 出现故障时,主备切换
- 主备切换的前提是数据状态保持一致
2.6 伸缩性(Scalability)
-
伸缩性也叫做弹性,可扩展性
-
指系统可以根据需求动态的扩容、缩容
比如双十一业务高峰期间,增加服务器;业务低峰期,减少服务器