1 数据生命周期
数据都存在一个生命周期,数据生命周期是指数据从创建、修改、发布利用到归档/销毁的整个过程。
1.1 数据生命周期管理工作包括以下几个方面:
-
分类:对数据进行自动分类,分离出有效的数据,对不同类型数据制定不同的管理策略,并及时清理无用的数据。
-
存储:构建分层的存储系统,满足不同类型的数据对不同生命周期阶段的存储要求,对关键数据进行数据备份保护,对处于生命周期末期的数据进行归档并保存到适合长期保存数据的存储设备中。
-
管理:根据不同的数据管理策略,实施自动分层数据管理,即自动把不同生命周期阶段的数据存放在最合适的存储设备上,提高数据可用性和管理效率。
1.2 数据生命周期管理的作用
-
降低数据安全风险
-
降低数据维护成本
-
提高数据质量
2 数据的使用
2.1 数据清洗
任何数据分析计划的第一步就是数据清洗,也就是把数据变成一个可用的状态。这个过程需要借助于工具去实现数据转换,比如古老的Unix工具AWK、XML解析器和机器学习库等,此外,脚本语言,比如Perl和Python,也可以在这个过程发挥重要的作用。完成数据的解析,就要开始关注数据的质量。对于来源众多、类型多样的数据而言,数据缺失和语义模糊等问题是不可避免的,必须采取措施解决。
2.2 数据管理
数据经过清洗以后,被存放到数据库系统中进行管理和使用。从上个世纪70年代开始,关系型数据库提供SQL语句进行各种查询操作,同时支持事务一致性功能,很好地满足了各种商业应用需求,但随着Web2.0应用的不断发展,非结构化数据开始迅速增加,对于大规模非结构化数据则暴露了很多难以克服的问题,NoSQL数据库的出现,有效满足对非结构化数据进行管理的市场需求,并得到了非常迅速的发展
2.3 数据分析
-
构建统计模型对数据分析也十分重要.统计是数据分析的重要方式,在众多开源的统计分析工具中,R语言和它的综合类库CRAN是最重要
-
为了能够让数据说话,使得分析结果更容易被人理解,还需要对分析结果进行可视化
-
可视化对数据分析来说是一项非常重要的工作,如果需要找出数据到底差在哪里,就需要画图帮助人们进行直观理解,继而找出问题所在
2.4 数据使用的实例
以数据仓库为例,来说明一下数据在企业中使用的方法,这是一个数据仓库的图,在数据仓库应用当中会有很多的数据源,这些数据源都是OLTP系统,这些数据源会通过ETL工具按照一定周期把它抽取、转换加载到数据仓库中,在数据仓库中就会行程大量的历史的累积数据,这些历史累积数据就可以提供给前端进行数据挖掘、报表等应用程序使用,这就是数据仓库的使用方法。
欢迎点赞收藏!!!