目录
📚大数据概念
🐇常见数据存储单位
🐇大数据的特点(5V)
🐇大数据 VS 数据库
🌟数据库
🌟大数据
📚大数据业务分析基本步骤
🐇收集数据
🐇整理数据
🐇分析数据
🐇数据可视化
📚大数据概念
- 所有感官可以察觉的事物,能被记下来的,能够被查询到,就是数据(date)
- 数据分析的前提是有数据,数据存储的目的是支撑数据分析
- 大数据主要解决的问题:海量数据的存储和海量数据的计算问题
🐇常见数据存储单位
🐇大数据的特点(5V)
🥕Volume(大):大数据的采集,计算,存储量都非常庞大。
🥕Variety(多):多种类和来源多样化。
🥕Value(值):大数据价值密度相对较低(抓小偷一大堆监控视频可能就一小段有用)
🥕Velocity(快):数据增长速度快,处理速度也快,获取速度的速度也要快。处理数据的效率是企业的生命。
🥕Veracity(信):数据的准确性和可信赖度,即数据的质量。
- 全样而非抽样✔️
- 效率而非精确✔️
- 相关而非因果✔️
🐇大数据 VS 数据库
🌟数据库
类似于一个池塘养鱼,它数据规模小,类型单一,先有模式后有数据(先有池塘后有鱼),处理对象为数据(池塘里的鱼)
🌟大数据
类似于大海捕鱼,它数据规模大,类型繁多,先有数据后有模式(模式随数据增多不断演变),处理对象为“鱼”,并通过某些“鱼”判断其他鱼是否存在。
大数据应用场景:电商精确广告位;用户偏好精准营销等等。大数据监控我🤡
大数据处理面临的挑战:数据安全、数据存储和处理能力限制、数据完整性、隐私保护、数据质量(垃圾数据的泛滥)、广泛的异构性(变化与多样化)、新硬件给大数据处理带来的变革等。
📚大数据业务分析基本步骤
🐇收集数据
数据收集是按确定的数据分析框架,以收集相关数据的过程,它为数据分析提供了素材和依据。一般的数据来源主要有以下几种方式:
- 数据库:每个公司都有自己的业务数据库
- 公开出版物:可用于收集数据的公开出版物
- 互联网,市场调查
🐇整理数据
数据处理是指对收集到的数据进行加工处理,形成适合数据分析的样式。即在一堆数据中找出有价值有意义的数据。主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。
🐇分析数据
数据分析是指用适当的分析方法及工具,对处理的数据进行分析,提取有效信息,形成有效结论的过程。数据挖掘是一种高效的数据分析方法。一般来说,数据挖掘侧重解决四类数据分析问题:分类,聚类,关联和预测。
🐇数据可视化
数据展现的过程,将数据可视化为图表。
流处理是指按照流水线的方式处理数据,它能够快速处理大量的数据。而批处理是指按照批次的方式处理数据,通常在处理时间较长的情况下使用。