《大数据导论》之数据生命周期和数据使用

news2024/11/30 12:47:06

1 数据生命周期

数据都存在一个生命周期,数据生命周期是指数据从创建、修改、发布利用到归档/销毁的整个过程。

1.1 数据生命周期管理工作包括以下几个方面:

  • 分类:对数据进行自动分类,分离出有效的数据,对不同类型数据制定不同的管理策略,并及时清理无用的数据。

  • 存储:构建分层的存储系统,满足不同类型的数据对不同生命周期阶段的存储要求,对关键数据进行数据备份保护,对处于生命周期末期的数据进行归档并保存到适合长期保存数据的存储设备中。

  • 管理:根据不同的数据管理策略,实施自动分层数据管理,即自动把不同生命周期阶段的数据存放在最合适的存储设备上,提高数据可用性和管理效率。

1.2 数据生命周期管理的作用

  • 降低数据安全风险

  • 降低数据维护成本

  • 提高数据质量

2 数据的使用

​2.1 数据清洗

任何数据分析计划的第一步就是数据清洗,也就是把数据变成一个可用的状态。这个过程需要借助于工具去实现数据转换,比如古老的Unix工具AWK、XML解析器和机器学习库等,此外,脚本语言,比如Perl和Python,也可以在这个过程发挥重要的作用。完成数据的解析,就要开始关注数据的质量。对于来源众多、类型多样的数据而言,数据缺失和语义模糊等问题是不可避免的,必须采取措施解决。

2.2 数据管理

数据经过清洗以后,被存放到数据库系统中进行管理和使用。从上个世纪70年代开始,关系型数据库提供SQL语句进行各种查询操作,同时支持事务一致性功能,很好地满足了各种商业应用需求,但随着Web2.0应用的不断发展,非结构化数据开始迅速增加,对于大规模非结构化数据则暴露了很多难以克服的问题,NoSQL数据库的出现,有效满足对非结构化数据进行管理的市场需求,并得到了非常迅速的发展

2.3 数据分析

  • 构建统计模型对数据分析也十分重要.统计是数据分析的重要方式,在众多开源的统计分析工具中,R语言和它的综合类库CRAN是最重要

  • 为了能够让数据说话,使得分析结果更容易被人理解,还需要对分析结果进行可视化

  • 可视化对数据分析来说是一项非常重要的工作,如果需要找出数据到底差在哪里,就需要画图帮助人们进行直观理解,继而找出问题所在

2.4 数据使用的实例

以数据仓库为例,来说明一下数据在企业中使用的方法,这是一个数据仓库的图,在数据仓库应用当中会有很多的数据源,这些数据源都是OLTP系统,这些数据源会通过ETL工具按照一定周期把它抽取、转换加载到数据仓库中,在数据仓库中就会行程大量的历史的累积数据,这些历史累积数据就可以提供给前端进行数据挖掘、报表等应用程序使用,这就是数据仓库的使用方法。

欢迎点赞收藏!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/87513.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【MySQL】数据库基础知识汇总和增删改查操作

【MySQL】数据库基础知识汇总和增删查改操作 文章目录【MySQL】数据库基础知识汇总和增删查改操作1.数据库基础知识:2.对数据库的相关操作:2.1.显示当前所有的数据库, show databases;2.2.创建数据库, create database 数据库名;2.3.选中数据库, use 数据库名;2.4.删除数据库, …

基于腾讯云的艺术展小程序

第一章 项目背景 1.1 项目简介和应用现状 基于腾讯云的艺术展小程序:打造集美术鉴赏、艺术科普、当代优秀艺术品交流多功能融艺术性、知识性、趣味性、便利性于一体的一站式平台,为广大艺术爱好者提供优质服务!小程序前后端完整&#xff0c…

特别活动丨HuggingFace工程师教你HF的正确打开方式

主题: HuggingFace的正确打开方式时间: 2022年12月15日(周四) 20:30-21:30由北京智源人工智能研究院主办的2022大模型创新论坛正如火如荼进行中,论坛包含训练营、峰会、创业大赛、黑客马拉松、闭门研讨会、创新应用榜单…

Python数据标准化

【小白从小学Python、C、Java】 【计算机等级考试500强双证书】 【Python-数据分析】 Python数据标准化 选择题 以下python代码结果错误的一项是? import pandas as pd import numpy as np from sklearn import preprocessing myDatapd.DataFrame({C1:[-1,-3,-5]}) p…

Moonbeam与Hyperlane之间的跨链互连合约

跨链通信除了作为Moonbeam的核心,也是为何另一个跨链协议Hyperlane部署于Moonbeam之上的原因。与先前介绍的跨链协议Axelar和LayerZero类似,Hyperlane允许开发人员编写可以跨区块链通信的智能合约,并让开发人员可以在Moonbeam上构建&#xff…

Linux中可用于监视磁盘使用情况的命令行实用程序

df命令 df是一个Linux命令行实用程序,用于监视Linux磁盘使用情况。df命令显示文件系统磁盘使用情况详细信息的完整摘要。通过-hT选项,它以易于阅读的格式显示有关文件系统、类型、磁盘总大小、已使用容量、剩余容量,使用率以及磁盘安装位置等…

基于DOA联合TDOA时间积累的二维GDOP仿真分析

up目录 一、理论基础 二、核心程序 三、测试结果 一、理论基础 无人机(UAV)因其体积小,灵活性高,成本低等优势得到快速发展并被广泛应用于军事战争,城市管理,民用,地质,抢险救灾等各个领域,与此同时,无人机定位技术也得到了深入研究,其中无线电探测与定位技术备受众多学者关…

liunx常用命令 适用了centos stream9

最近刚好需要重新再学习一下Linux然后开始学习大数据,就重新再温习一下Linux,然后需要把个人所有的编程环境和数据库变成linux版本,虽然一直以来都是用win系统做数据,但是liunx系统的安全和快速最近试了一下确实令我着迷。 liunx常…

[附源码]Nodejs计算机毕业设计基于web的教学资源管理系统Express(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置: Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术: Express框架 Node.js Vue 等等组成,B/S模式 Vscode管理前后端分…

JSP ssh流量充值系统myeclipse开发oracle数据库MVC模式java编程计算机网页设计

一、源码特点 JSP ssh流量充值系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myec…

Spring MVC学习 | 使用域对象共享数据

文章目录一、回顾域对象二、在request域共享数据2.1 使用ServletAPI2.2 使用ModelAndView对象2.3 使用Model对象2.4 使用ModelMap对象2.5 使用Map集合2.6 Model、ModelMap和Map的关系2.7 使用域对象的底层原理三、在session域共享数据四、在application域共享数据学习视频&…

SpringBoot 替换 if 的参数校验

简单使用 Java API规范(JSR303)定义了Bean校验的标准validation-api,但没有提供实现。hibernate validation是对这个规范的实现,并增加了校验注解如Email、Length等。 Spring Validation是对hibernate validation的二次封装,用于支持spring…

Windows 禁用驱动签名方式

Windows 禁用驱动签名方式1. Windows开启测试模式2. 强制禁用2.1 Win7、Win82.2 Win103. 开机选用强制开启禁用签名模式3.1 Win72.3 Win8、Win10及Win113. 参考1. Windows开启测试模式 以管理员模式启动cmd,输入以下命令: 开启系统的测试模式 bcdedit …

来自飞桨社区开发者的礼物,《动手学深度学习》飞桨版上线!

近几年,各行各业已经逐渐开始基于AI技术启动企业智能化转型,AI技术的广泛应用催生了对AI应用人才的需求。如何不断夯实自身的AI技术能力,提升自己的职业竞争力?飞桨社区的开发者给大家带来一份神秘礼物。李沐老师的《动手学深度学…

web前端网页设计期末课程大作业:旅游网页主题网站设计——紫色的旅游开发景点网站静态模板(4页)HTML+CSS+JavaScript

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓,页面排版干净简洁。使用HTMLCSS页面布局设计,web大学生网页设计作业源码,这是一个不错的旅游网页制作,画面精明,排版整洁,内容…

股票l2接口的委托数据有什么作用?

股票l2接口的委托数据有什么作用? 委托队列返回数据:Level 2 行情将真实的每笔成交和成交量以明细数据呈现给用户。 用户可通过查看明细成交数据,判断出委托是属于大单、中单、小单并以此推断出是机构、大户、散户等所为,查明主…

国内外远程办公软件现状

我们说的远程办公通常指狭义上的远程办公,是指通过远程技术,或远程控制软件,对远程电脑进行操作办公,实现非本地办公,如在家办公、异地办公、移动办公等远程办公模式。这种技术的关键在于:穿透内网和远程控制的安全性。…

软件工程期末复习

文章目录一、单选、多选、判断二、简答题1、MVC体系结构2、软件风险的分类3、测试准则(教材P111- 5.2.3)4、结构化分析的方法5、面向对象设计的原则(SOLID)(1)单一职责原则(2)开放/闭…

arduino-ide ESP32 开发

本来想用vscodePlatformIO 一直安装不成功,网不行。先用Arduino(后来用手机开热点,安装成功了,电信的局域网真差) 我的ESP开发版是CP2102驱动芯片,需要先安装驱动 CP210x USB to UART Bridge VCP Driver…

剑指 Offer 62. 圆圈中最后剩下的数字

文章目录题目思考代码和注释总结题目 0,1,,n-1这n个数字排成一个圆圈,从数字0开始,每次从这个圆圈里删除第m个数字(删除后从下一个数字开始计数)。求出这个圆圈里剩下的最后一个数字。 例如,0、1、2、3、4这5个数字组…