读数据湖仓05数据需要的层次

news2024/11/23 20:02:53

1. 业务价值

1.1. 技术和商业在这个世界上是相互交织的

  • 1.1.1. 基础数据在商业和技术应用中是不可或缺的

1.2. 技术的存在是为了推动商业的目标和进步,并由企业出资支持

  • 1.2.1. 当技术推动商业发展时,商业会蓬勃发展,技术也会随之繁荣

  • 1.2.2. 当技术发展偏离这个基本模式时,它就会失去生机甚至消亡

  • 1.2.3. 在任何情况下,商业都将决定技术的最终满意度和价值,商业是推动技术发展的关键

1.3. 赚钱对于企业的长期延续至关重要,它是成功的关键,现金流则是商业活动的生命线

1.4. 从长远来看,所有成功的技术都在某种程度上专注于实现业务目标

  • 1.4.1. 建立和维护基础数据是技术支持业务的最佳方式,可以根据数据基础来做出合理的业务决策

  • 1.4.2. 为基础数据打造坚实的基础设施是一项复杂的任务

  • 1.4.3. 创建基础数据为实现这些目标奠定了基础

  • 1.4.4. 当我们在复杂的技术丛林中挣扎时,很容易忘记最终的目标是实现业务价值

1.5. 技术所有的组成部分必须协同工作

1.6. 协调不同的技术组成部分并非易事

  • 1.6.1. 技术基础由多个技术组成部分组合而成

  • 1.6.2. 每个技术组成部分都与其他部分大不相同

  • 1.6.3. 不同的技术组成部分需要排序才能协同工作

  • 1.6.4. 不同的技术组成部分排序所需的时间框架大不相同

  • 1.6.5. 不同的技术组成部分以不同的速率工作

1.7. 领域

  • 1.7.1. 随着技术逐渐脱离领域,单个组成部分会开始考虑构建自己独特的技术,但也会忽视对业务价值的关注

  • 1.7.2. 技术的组成部分甚至无法与业务流程关联,而是将所有的焦点都集中在技术的复杂性上,并非业务需求上

  • 1.7.3. 随着技术逐渐开始建立自己的领域,支持组织业务的愿景也在逐渐丧失

1.8. 每个技术的组成部分都需要聚焦于构建和辅助业务最核心的基础数据

  • 1.8.1. 只有这样做,才能确保组织的技术能够真正致力于支持组织的业务

2. 数据需要的层次

2.1. 类比马斯洛需要层次论

  • 2.1.1. 需要层次论金字塔底部的两个层次是生存所必需的

2.2. 数据需要层次结构的5个层次,从下向上依次为数据获取,数据传输与存储,数据转换,数据标签、整合与汇聚,数据分析与机器学习

2.3. 具体步骤

  • 2.3.1. 只收集真正需要使用的数据

  • 2.3.2. 数据是可信的,也是可理解的

  • 2.3.3. 需要将数据存储在既方便访问又安全的地方

  • 2.3.4. 把数据转换成员工和应用程序可以使用的格式

  • 2.3.5. 将存储和转换后的数据进行整合,以便从不同系统中获取更全面的数据视图

  • 2.3.6. 将数据与适当的元数据汇聚,应用于报表和业务分析系统

  • 2.3.7. 创建能够进行数据学习的系统,优化业务决策,甚至发明一些创新技术

3. 数据获取

3.1. 数据获取是最底层的数据需要层次,也就是第一个层次

3.2. 我们收集的数据远远超出所需要使用的范围

3.3. 我们更擅长收集大量数据

3.4. 数据的来源有很多,我们可以从数据库接口、传感器、业务系统、设备或物联网系统中获取数据

3.5. 无论数据来自何处,都需要保证数据的完整性、准确性与唯一性,并且不能带有偏见

3.6. 即使是文本数据,也应该从原始来源获取,以避免中间转换导致的信息丢失

  • 3.6.1. 应该保存文本数据对应的元数据,以便未来进行数据溯源

3.7. 数据获取层次的关键在于正确地收集和分类数据

  • 3.7.1. 数据必须是正确且可信的

4. 数据传输与存储

4.1. 数据需要层次结构的第二个层次是数据传输与存储

4.2. 为了确保数据传输的可靠性,源系统必须具备可靠的数据传输机制

4.3. 用于存储结构化数据和非结构化数据的系统也必须是冗余的,以保障数据安全,并提升检索效率

  • 4.3.1. 存储系统还应易于访问

4.4. 批处理或联机事务处理数据传输系统,需要配备验证和回滚程序

4.5. 数据提取、转换和加载过程必须符合业务需求和数据治理准则

4.6. 多年来,关系型数据库和数据仓库一直是结构化数据存储与检索的主要方式

5. 数据转换

5.1. 数据转换是将数据转化为对业务决策有用的形式

5.2. 是数据需要层次结构中最困难的层级之一

5.3. 是第三个层次,它要求同时具备数据知识和业务理解

5.4. 数据转换层次对企业来说是建立竞争优势的关键,它能够将来自多个业务系统的数据整合转换为可用于决策支持系统、专家系统、商业智能系统和业务分析系统的数据资源,同时,它还同数据传输与存储层次密切结合

5.5. 数据转换层次的复杂性在于其需要有效地清洗当前“非常混乱”的数据,并按照企业数据治理委员会指定的格式进行数据转换

  • 5.5.1. 如果基础数据不可信、存储方式不正确,就无法与其他数据进行整合

5.6. 数据转换层次的主要任务包括数据清洗、数据转换、面向报表系统整理数据以及进行数据异常检测

5.7. 数据异常检测的目的是通过数据洞察提前检测并修复潜在问题,避免造成严重的影响,从而节省资金

  • 5.7.1. 如果能够提前检测并修复潜在问题,防止它朝错误的方向发展,就能够避免对业务的影响

6. 数据标签、整合与汇聚

6.1. 数据需要层次结构的第四个层次是数据标签、整合与汇聚,这个层次是业务分析和报告系统的核心

6.2. 通过整合数据以满足应用需求,可以为决策者提供信息和洞察力

6.3. 客观的评价指标体系可用于评估数据整合的效果

6.4. 根据不同维度汇聚数据,形成OLAP立方体,不仅有助于发现数据的分布趋势与关联性,而且有助于发现采集数据异常、数据偏差和序列特征

6.5. 数据标签、整合与汇聚层次的重要之处在于它能够创造数据的价值,因为在这个层次,企业才开始真正地使用数据

6.6. 数据标签、整合与汇聚层次提供了访问数据的入口,其他应用都需要构建在该层次之上

  • 6.6.1. 很多企业在数据标签、整合与汇聚层次中获得了稳健的业务支持能力、成功的实践以及竞争优势

7. 数据分析与机器学习

7.1. 数据需要层次结构中的顶层是数据分析与机器学习

7.2. 该层次使用计算机算法并利用现有数据来解释自身

  • 7.2.1. 一旦它理解了现有数据,就可以预测新数据到来时的趋势

  • 7.2.2. 这是机器学习的基础,这些算法可以对预期结果与实际结果进行试验

  • 7.2.3. 如果我们能够预测即将发生的情况,就可以提前制定适当的行动以应对预期的结果

7.3. 基于数据分析与机器学习层次,企业可以根据数据进行业务决策的优化

7.4. 正确预测并提前制定适当的行动能够使得企业在面对竞争对手时获得真正的数据竞争优势

7.5. 在数据分析不断深入发展的背景下,计算机算法持续进步,拥有模拟人类智能的系统开始出现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2186169.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Megabit兆比特10月比特币激增做好准备-最新加密货币新闻

Kaiko Research最近的分析表明,交易员正在积极为潜在的强劲表现做好准备特币(BTC)比今年十月。目前,BTC的交易价格为60800美元,在测试了60000美元的支撑位后,最近上涨了800美元。Megabit兆比特自成立以来,Megabit凭借用户友好的界…

初识Linux以及Linux的基本命令

千呼万唤始出来,Linux系列的文章从今天起开始不定期更新,闲话少叙,我们直接进入正题 目录 初识Linux 前置知识点 什么是路径? 什么是目录? 什么是文件? Linux的基本命令 Linux中的复制粘贴 创建文件…

数据仓库的建设——从数据到知识的桥梁

数据仓库的建设——从数据到知识的桥梁 前言数据仓库的建设 前言 企业每天都在产生海量的数据,这些数据就像无数散落的珍珠,看似杂乱无章,但每一颗都蕴含着潜在的价值。而数据仓库,就是那根将珍珠串起来的线,它能够把…

【AIGC】2020-NIPS-去噪扩散概率模型

2020-NIPS-Denoising Diffusion Probabilistic Models 去噪扩散概率模型摘要1. 引言2. 背景3. 扩散模型和去噪自动编码器3.1 正向过程和 L T L_{T} LT​3.2 逆过程与 L 1 : T − 1 L_{1:T-1} L1:T−1​3.3 数据缩放、逆过程解码器和 L 0 L_{0} L0​3.4 简化的训练目标 4. 实…

FreeRTOS篇7:队列

一.什么是队列 队列又称消息队列,是一种常用于任务间通信的数据结构,队列可以在任务与任务间、中断和任 务间传递信息。 为什么不使用全局变量? 如果使用全局变量,兔子(任务1)修改了变量 a ,…

基于Arduino的宠物食物分配器

创作本文的初衷是本人的一个养宠物的梦想(因为家里人对宠物过敏,因此养宠物的action一直没有落实),但是梦想总是要有的哈哈哈哈哈。上周正好是和一个很好的朋友见面,聊到了养宠物的事情,她大概是讲到了喂宠…

Redis: Sentinel工作原理和故障迁移流程

Sentinel 哨兵几个核心概念 1 ) 定时任务 Sentinel 它是如何工作的,是如何感知到其他的 Sentinel 节点以及 Master/Slave节点的就是通过它的一系列定时任务来做到的,它内部有三个定时任务 第一个就是每一秒每个 Sentinel 对其他 Sentinel 和 Redis 节点…

浏览器 F12 application 应用程序面板

在大多数现代浏览器中,按下 F12 键会打开开发者工具(Developer Tools),这是一个为开发者设计的强大工具集,用于调试网页和应用。在开发者工具中,“Application”(应用程序)面板提供了…

Hystrix学习

系列文章目录 JavaSE基础知识、数据类型学习万年历项目代码逻辑训练习题代码逻辑训练习题方法、数组学习图书管理系统项目面向对象编程:封装、继承、多态学习封装继承多态习题常用类、包装类、异常处理机制学习集合学习IO流、多线程学习仓库管理系统JavaSE项目员工…

Stable Diffusion绘画 | 来训练属于自己的模型:LoRA模型验收

我们每次训练出来的模型,一般都会生成 20-30 个,至于哪个模型符合要求,较为理想呢? 接下来需要对每个 LoRA模型 进行逐一对比测试。 为了测试模型的泛化性,可选择使用一些较为特殊的提示词,看看各个模型对…

运动耳机哪个牌子的好?5大质量不凡的运动耳机测评力荐!

在快节奏的生活中,无论是晨跑、健身还是户外探险,音乐都成了许多人不可或缺的陪伴。运动耳机,作为一种专为运动场景设计的音频设备,旨在提供高质量音频体验的同时,保证佩戴的舒适度和运动的安全性。 (上图为…

hystrix微服务部署

目录 一.启动nacos和redis 1.查看是否有nacos和redis 二.开始项目 1.hystrix1工程(修改一下工程的注册名字) 2.运行登录nacos网站查看运行效果(默认密码nacos,nacos) 3.开启第二个项目 hystrix2工程 4.关闭第二个项目 hyst…

硬件-示波器测开关电源-炸机经验-隔离变压器

一:常见疑问术语 1.1 示波器被烧了,测试的电源板炸了 1.2 把示波器的电源三脚的地那端拔掉? 1.3 隔离变压器是什么? 1.4 上述操作可以用差探头实现,差分探头是什么? 二:实际案例失误操作 2.1 炸…

MySQL基础篇 - 事务

01 事务的简介 【1】什么是事务:事务是一组操作集合,要么同时操作成功,要么同时操作失败。 【2】对于MySQL数据库来说默认一条SQL语句就是一个事务,且事务是默认自动提交的。 我们可以把多条SQL语句设置成一个事务,使…

pod管理及优化

一、k8s中的资源 1、资源介绍 [rootk8s-master ~]# kubectl --namespace timinglee get po No resources found in timinglee namespace. [rootk8s-master ~]# kubectl run testpod --image timinglee/nginx [rootk8s-master ~]# kubectl get pods -w NAME READY STATU…

AI大师工坊丨国庆节去哪玩?让旅游规划大师助你一臂之力

文章目录 零、写在前面一、旅游规划大师二、如何创造自己的智能体三、写在后面 零、写在前面 听说由百度文心智能体平台主办,万众瞩目的 AI大师工坊招募令 启动啦! 在本期大师工坊中,博主开发了一款超级实用的智能体:旅游规划大…

MySQL 启动失败 (code=exited, status=1/FAILURE) 异常解决方案

目录 前言1. 问题描述2. 查看错误日志文件2.1 确认日志文件路径2.2 查看日志文件内容 3. 定位问题3.1 问题分析 4. 解决问题4.1 注释掉错误配置4.2 重启 MySQL 服务 5. 总结结语 前言 在日常运维和开发过程中,MySQL数据库的稳定运行至关重要。然而,MySQ…

Framebuffer学习

目录 1. Framebuffer概念2. LCD操作原理3. 源码分析3.1 打开设备3.2 获取LCD参数3.3 映射Framebuffer3.4 描点实现 基于韦东山IMX6ULL开发板学习 参考教程: 韦东山老师教程 1. Framebuffer概念 Framebuffer,可以译作“帧缓冲”,有时简称为fb…

“衣依”服装销售平台:Spring Boot技术实践与创新

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常适…

【STM32开发笔记】移植AI框架TensorFlow到STM32单片机【下篇】

【STM32开发笔记】移植AI框架TensorFlow到STM32单片机【下篇】 一、上篇回顾二、项目准备2.1 准备模板项目2.2 支持计时功能2.3 配置UART4引脚2.4 支持printf重定向到UART42.5 支持printf输出浮点数2.6 支持printf不带\r的换行2.7 支持ccache编译缓存 三、TFLM集成3.1 添加tfli…