1、数据库的独立性
--模式与内模式的映射 保证数据库物理结构的独立性
--模式与外模式的映射 保证数据库逻辑结构的独立性
2、常见的数据库
Oracle数据库,SQL Server数据库,MySQL数据库,PostgreSQL数据库。
3、数据分类
4、数据处理流水线
数据获取 :从各种渠道获取到待处理的数据,这是首要步骤。
数据清洗:检查、修正不正确的数据、移除无效数据,移除无用数据,为后续的处理做准备
数据转换:将非结构化、不规范的数据,转换成便于分析处理的结构化数据
数据分析:对数据进行分析,得出一些有用的结论或进行决策
数据存储:一般分析结果会存储到数据库或文件中,便于后续的使用
5、用python进行数据分析常用的三个包
(1)numpy:
numpy主要用于处理一维或者多维数组。常用的有创建数组、查看数据类型、查看数组大小、以及索引和切片等操作。
(2)pandas:
pandas基于numpy的库,提供了更高级别的数据分析工具。 常见的比如dataframe,属于一个表格型的数据结构。可以进行数据清洗、转换、聚合等操作。
(3)matplotlib:
主要用于对数据制成图表进行可视化。
6、数据清洗包括什么:
处理缺失值、重复值、异常值。
(1)处理缺失值
① 对缺失值过滤,删除缺失值所在的空行。
② 利用fillna()对缺失值进行填充。
(2)处理重复值
用drop_duplicates()
7、做一个项目要了解哪些东西
项目背景、项目意义、需求、项目组织框架、项目计划、沟通计划。