🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀软件开发必备知识_十二月的猫的博客-CSDN博客💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光
1. 前言
本系列专栏·数据处理·针对于我们在处理人工智能问题中遇到的有关数据方面的问题。专栏可能涉及数学原理、代码应用、理论讲解等。
2. 大数据
2.1 定义
定义1:大数据是一种数据规模大到在数据的获取管理,存储处理,分析计算都远远超过传统数据库软件工 具处理范围的数据集合
定义2:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科)
2.2 大数据的界限
- 简单查询。数据量为TB至PB级称为大数据
- 复杂查询。数据量为GB至TB级称为大数据
PB是大数据层次的临界点
大数据的定义需要考虑数据查询与分析的复杂程序
2.3 大数据特点(4V)
高时效性:1秒定律
高价值:价值巨大但价值密度低
高数据量:PB称为大数据层次的临界点
高类型数量:关系数据库数据、音频视频数据、结构化数据等
3. 数据科学
1、数据是人工智能的基石
2、数据是基础
3.1 定义
基于传统的数学,统计学的理论和方法,运用计算机技术进行大规模的数据计算,分析,应用的学科。
3.2 数据处理过程
采集,表示与存储,预处理(清洗,集成等),建模分析,可视化,决策
4. 细讲数据处理过程
4.1 数据采集
数据来源于生活,采集必然来源于生活。但是直接从生活中采集的数据通常不能够直接使用,这类数据是row data。需要等待后续的处理。
4.2 数据存储
4.2.1 结构化数据
可以使用关系型数据库表示和存储的数据,拥有固定结构。
结构化数据能够被数据库存储,因为有严格的数据结构和格式的要求 。因此用树结构、通过SQL语句就可以完成存储。
4.2.1.1 关系型数据库
严格数据结构、格式
1、用二维表数据结构(关系)存储,关系满足一定范式
2、用SQL统一格式统一处理数据
3、SQL类型:DDL、DML、DCL、DQL
4.2.2 半结构化数据
弱结构化数据,虽然没有关系型数据库那么严格的结构要求,但是也存在一定的结构。如XML、JSON
4.2.3 非结构化数据
没有固定数据结构,没有统一格式。如文本、图片、视频、音频等