一、大数据时代
- 大数据时代
- 三次信息化浪潮:个人计算机80年-互联网95年-物联网、云计算和大数据(2010年)
发展时间较短,大数据人才缺失 - 大数据人才
- 培训出来的:Java-》大数据
优点:对于大数据技术的细节会比较清楚
缺点:缺乏业务,即数据建模能力的缺失(难点:数据模型&数据建模,要求对业务比较了解) - 转型:Java-大数据》
优点:业务强,对业务熟悉,对数据熟悉;熟悉公司或者业务运转大数据的架构、框架。
缺点:一般不会一些很细的技术
- 培训出来的:Java-》大数据
- 大数据技术发展的技术支持:
- 总的来说:存储、计算、网络
- 存储设备的容量不断增加
- CPU处理能力大幅提升
- 网络带宽不断增加
10:2G->3G
10-11:光进铜退
- 大数据时代来临
- 业务数据(数据库)-》用户原创内容(智能手机)-》物联网(感知式系统)
- 谷歌公司03年发布的三篇文章GFS、MapReduce和BigTable成为后来云计算和Hadoop项目的重要基石
- 手机自带的应用:每一个应用后面都有一个大数据方案解决平台->(作用)数据驱动决策
- 三次信息化浪潮:个人计算机80年-互联网95年-物联网、云计算和大数据(2010年)
二、大数据的特性(4V)
- 大量化(数据量大)、快速化(处理速度非常快)、多样化(非结构化数据)、价值化(价值密度低)【5V:Veracity 真实】
- 海量数据规模
- 分布式存储
关系型数据库->结构化数据,但大数据还包括非结构化数据,所以会有分布式文件存储
- 分布式存储
- 大部分是非结构化数据(图像、视频等)
- 处理的速度需要非常快
- 数据流转极快(数据不断变化: 时效性)
批处理:如每隔一段时间处理
流处理:实时处理 - 价值密度低(大数据的数据量大但有价值的信息极少->)
- 数据挖掘
- 数据分析
- how:大数据模型、建模
业界标杆:阿里
- 海量数据规模
三、大数据的影响
-
科学研究
实验->理论(定律...)->计算时代(计算机)->数据驱动(大数据时代完全由数据驱动发现问题) -
颠覆传统思维方式
全样而非抽样(对全部的数据进行分析而不是像以前一样做抽样)
效率而非精确(因为全样,所以不用担心误差被放大,所以更追求时效性)
相关而非因果(不在乎为什么,只在乎实际表达出来的因果) -
大数据决策
促进了信息技术与行业的 深度融合 -
就业
-
人才培养
-
应用
谷歌浏览预测
四、大数据应用
- 《纸牌屋》的拍摄
互联网数据分析得出报告->时下最强的演员+时下最好的导演+时下最火的小说->投资拍摄获利 - 谷歌预测流感
- 大数据关键技术(离线&实时)——以Google技术为例
离线大数据框架- 数据采集
数据源(web、移动端、物联网) - 数据存储和管理
数据仓库
分布式文件系统
- 数据采集
- 数据可视化
- 数据处理和分析(四层数据模型)
数据挖掘:上述步骤的转换- ODS:原始数据
->数据挖掘-> - DWD:经过初步汇总、数据清洗等处理的数据
->使用MapReduce或者Hive(开发存储过程程&自定义函数)-> - DWS:根据业务初级汇总的数据
- ADS:业务数据
- ODS:原始数据
- 数据隐私和安全
- 数据治理
- 监控(文件,批处理任务)
- 数据画像(数据的流动过程)
- 元数据管理
- 数据治理
- 数据处理和分析(四层数据模型)
- 实时大数据框架
数据源-》消息处理队列-》流计算(内存运算)-》业务数据存储 - 两大核心技术
分布式存储
分布式处理- 批处理(不满足时效性)
MapReduce
Spark(比起MP可以高效迭代) - 流计算(实时)
代表产品:S4+Strom+Flume - 图计算(高效处理图)
- 查询分析(交互式查询分析)
- 批处理(不满足时效性)
五、云计算与物联网
- 云计算
通过网络以服务的方式为用户提供非常廉价的IT资源。- 特征(4关键技术)
解决海量数据的 分布式存储 + 分布式计算 问题
虚拟化、多租户
数据中心——承载数据的温床 - 云的种类
公有云:如百度云
私有云:企业内部的云
混合云:half - 云计算层次模型
Infrastructure as a Service——面向网络架构师
Platform as a Service————面向应用开发者
Software as a Service————面向用户
- 特征(4关键技术)
- 物联网IOT
The Internet of Things 互连网把人、物联系在一起- 感知层
传感器、摄像头、读写器... - 网络层
电信网、互联网、电网、专用网... - 处理层
网络管理平台、信息处理平台、服务支撑平台、业务支撑平台... - 应用层
智能交通、智能工业、智能家居... - 关键技术
识别和感知技术(二维码、条形码...)
嵌入式(芯片RFID...) - 应用
智能交通、智能工业、智能农业...
- 感知层
- 大数据、云计算和物联网的关系
* 云计算提供分布式计算能力(存储&管理)
* 大数据解决方案平台(数据挖掘)
* 物联网(产生数据)- 传感器-》嵌入式-》网络通信-》服务端(数据爆炸增长)-》数据库
- 传感器-》嵌入式-》网络通信-》服务端(数据爆炸增长)-》数据库