概述
数据的概念:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可识别的、抽象的符号。
数据类型:文本、图片、音频、视频
从数据的结构化程度来看可以分为:
- 结构化数据
- 半结构化数据
- 非结构化数据
数据生命周期:创建、发布利用、修改、归档/销毁
数据的使用:1. 数据清洗、2.数据管理、3. 数据分析
OLTP:联机事物处理,高并发且数据量级不大的查询,是主要用于管理事物的系统
OLAP:联机事物分析处理,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果
ETL:抽取、转换、加载,是数据获取的重要手段,需要知道具体格式
ELT:ETL的时间成本和吞吐量限制(堵塞),导致ETL这种数据加工的方式不能满足于现在的企业发展需要
把Transform(转换)和Load(加载)拆开,这样处理数据的部分就专心计算就行了,搬运数据的部分就专心搬运
大数据定义
大数据是大
到无法通过现有手段在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息
V | 描述 |
---|---|
V olume | 规模大,达到难以处理 |
V ariety | 类型多,多到难以处理 |
V elocity | 速度快,快到难以处理 |
V alue | 有价值,价值密度稀疏 |
V eracity | 真实性,数据质量有保障 |
科学研究的四范式
- 实验
- 理论
- 计算
- 数据