第1章 大数据概念
大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
大数据主要解决,海量数据的采集、存储和分析计算问题
按顺序给出数据存储单位: bit、ByteKBMB、GB、TB、PB、EB、ZB、YB.BB、NB、DB。
才存100T
1Byte = 8bit 1K =1024Byte 1MB =1024K1G=1024M 1T=1024G1P= 1024T
第2章 大数据特点(4V)
4个特点–4种处理方法
1.Volume(大量)–海量存储
2.Velocity(高速)–快速计算
3.Variety(多样)–海量数据采集
4.Value(低价值密度)–数据清洗(处理脏数据 )
价值密度的高低与数据总量的大小成反比。如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题
专做数据清洗的工程师称为ETL工程师