读数据湖仓02数据抽象

news2024/11/17 13:21:38

1. 不同类型的数据

1.1. 不同类型的数据在存储方面有各自的特性,这些特性极大地影响了数据在数据湖仓中的存储和使用方式

1.2. 结构化数据

  • 1.2.1. 在企业等组织中,只有少量的数据是结构化数据

  • 1.2.2. 结构化数据是基于事务的数据,是组织日常业务的副产品

1.3. 文本数据

  • 1.3.1. 存在于许多地方,如合同、电子邮件、电话交谈、医疗记录等

1.4. 机器生成的模拟/物联网数据

  • 1.4.1. 这类机器包括摄像头、无人机、手表、闹钟、车辆等

  • 1.4.2. 由机器生成的数据无处不在

2. 数据量

2.1. 在组织中,对于不同类型的数据有不同的度量维度

2.2. 最重要的维度是数据量,而存储和管理不同数据量所使用的技术也各不相同

2.3. 与文本数据相比,结构化数据的数据量相对较小

2.4. 由机器生成的数据的数据量要远远超过文本数据的数据量

3. 数据的业务价值

3.1. 仅仅有大量的数据并不意味着所有的数据都具有业务价值

  • 3.1.1. 有些数据的业务价值很高

  • 3.1.2. 有些数据的业务价值则相对较低

3.2. 由机器生成的模拟/物联网数据

  • 3.2.1. 只有一小部分具有巨大的业务价值

  • 3.2.2. 大部分由机器生成的数据都是机械式的记录,它们很少或根本没有业务价值

    • 3.2.2.1. 如果有一天车床由于异常导致无法正常工作,那么我们需要高度关注该车床当天生成的数据

    • 3.2.2.2. 车床在工作过程中生成的有用数据的比例非常低

4. 数据的访问概率

4.1. 数据的访问概率与其蕴藏的业务价值密切相关

  • 4.1.1. 数据被访问的概率集中在有业务价值的数据中

4.2. 数据湖仓中数据的访问概率与数据的业务价值呈正相关

4.3. 将不常被访问的数据与访问概率较高的数据存储在同一个地方是没有意义的,应该将其存储到不同的数据存储器中

4.4. 将不同类型的数据存储在一起不仅会影响存储器的性能、增加成本,而且会降低数据分析工程师处理数据的效率

  • 4.4.1. 将访问概率较高的数据与访问概率较低的数据存储在数据湖仓中的同一位置并不明智

4.5. 在对数据进行分隔存储时,我们需要考虑是否检索存储在大容量存储器中的数据

  • 4.5.1. 需要考虑将数据存储到大容量存储器中后,在未来出现未知需求时,我们能否查找和分析已存入大容量存储器中的数据

  • 4.5.2. 在大容量存储器中找到所需的数据后,就可以很容易地将该数据存储到高性能存储器中

5. 数据降级

5.1. 随着时间的推移,所有类型的数据都会发生数据降级(Data Degradation)

5.2. 数据的访问概率会随着时间的推移而降低

5.3. 存储时间越久的数据,对解决当前问题有帮助的概率就越低

6. 基于大容量存储器的数据归档机制

6.1. 随着时间的推移,数据的访问概率和业务价值都会降低,为了提高数据的存储能力,将大容量存储器作为归档数据的载体是必要的

6.2. 数据被存储在归档存储区,当需要用到相关数据时,可以在归档存储区进行检索

6.3. 如果数据归档处理得当,那么几乎不需要在归档存储区中检索数据

7. 数据抽象

7.1. 数据抽象是数据湖仓的基础,它是许多依赖企业数据的应用程序的基础设施

  • 7.1.1. 正确的数据抽象使数据湖仓中的各方可以方便地访问和使用数据,也能使数据更易于理解

7.2. 数据抽象(Data Abstraction)是一种处理大量复杂数据的非常有用且必要的方法

7.3. 人们在日常生活中经常使用抽象的方法来处理规模庞大且复杂的事物

7.4. 使用抽象的方式引用对象比单独提及每个对象更简便

7.5. 数据类型不同,抽象模式和方法也不同

  • 7.5.1. 结构化数据通过数据模型进行抽象

  • 7.5.2. 文本数据通过本体(Ontology)和分类标准进行抽象

  • 7.5.3. 模拟/物联网数据通过蒸馏算法进行抽象

7.6. 经过初步观察,可以发现,数据模型和本体似乎是一回事

7.7. 这两种抽象类型之间也存在一些重要且明显的区别

  • 7.7.1. 数据模型面向内部,着眼于组织的内部运行

  • 7.7.2. 本体面向外部,用于描述外部世界

  • 7.7.3. 数据模型描述的数据可在必要时进行更改

  • 7.7.4. 本体所抽象的文本则不能更改

  • 7.7.5. 数据模型所使用的数据是有限的

  • 7.7.6. 文本以及文本所依据的外部世界的描述却不是有限的

    • 7.7.6.1. 外部世界可以永远存在

7.8. 数据模型和本体是对数据的抽象,而蒸馏算法则是对处理过程的描述

7.9. 基础数据中还有另一种重要的抽象概念,即数据在组织流程中流动时对数据血缘的抽象

  • 7.9.1. 数据是作为事务的一部分被采集的

  • 7.9.2. 数据一旦被采集,就会与其他同类数据汇集在一起

  • 7.9.3. 数据到达用于分析处理的位置后,分析人员需要全面了解数据经历的整个过程,只有这样他们才能成功进行分析处理

8. 结构化数据模型

8.1. 实体关系图(Entity Relationship Diagram,ERD)

  • 8.1.1. 实体关系图描述了组织的主要主题领域及实体之间的关系

8.2. 数据项集(Data Item Set,DIS)

  • 8.2.1. 数据项集则将实体扩展为其组成部分,包括特定实体的键、属性以及数据项集中实体的从属数据

8.3. 数据库模式(Database Schema)

  • 8.3.1. 数据库模式是数据项集的镜像,它描述了数据的物理属性、索引和唯一键值等特征

  • 8.3.2. 只是在数据项集的基础上增加了一些细节

8.4. 数据模型的不同组成部分是相互关联的,实体关系图中的每个实体都有一个对应的数据项集,并且每个数据项集都有一个对应的数据库模式

8.5. 数据模型通常不包括派生数据(Derived Data)或汇总数据(Summarized Data),仅包含粒度数据(Granular Data)

8.6. 数据模型的元素可用于为数据模型内部的数据提供上下文情境

9. 本体和分类标准

9.1. 本体是一组相关的分类标准

  • 9.1.1. 本体是无限的,创建本体是为了满足特定群体的需求

    • 9.1.1.1. 本体的元素可以无限扩展
  • 9.1.2. 本体中的每个分类标准都是独一无二的

  • 9.1.3. 第一种类型的本体是通用的,适用于任何主题

    • 9.1.3.1. “我喜欢……”

    • 9.1.3.2. “我爱……”​

  • 9.1.4. 第二种类型的本体是针对某一学科的

    • 9.1.4.1. 医生有医学术语

    • 9.1.4.2. 律师有法律术语

    • 9.1.4.3. 建筑工人有建筑术语

  • 9.1.5. 第三种类型的本体是针对某个组织特定术语的本体

    • 9.1.5.1. 某家石油公司会使用一些只在其内部使用的术语

9.2. 分类标准是对相似事物的分类

  • 9.2.1. 每个分类标准中的元素都与其他分类标准中的元素存在着某种关系

  • 9.2.2. 分类标准中的每个元素都与分类标准的一般值有着相同的关系

  • 9.2.3. 分类标准用于对同类对象进行分类

  • 9.2.4. 分类标准是用来描述外部世界的

  • 9.2.5. 分类标准是一种固定的文本抽象,不会随意改变

10. 蒸馏算法

10.1. 从大量模拟/物联网数据中蒸馏有用的数据

10.2. 蒸馏算法的形式多种多样,如何选择取决于模拟/物联网数据自身的业务价值和最终业务价值之间的差异

10.3. 随着时间的推移,蒸馏算法也会随条件的变化而改变

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2173214.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[spring]用MyBatis XML操作数据库 其他查询操作 数据库连接池 mysql企业开发规范 动态sql

文章目录 一. MyBatis XML配置文件1. 配置链接字符串和MyBatis2. 写持久层代码方法定义Interface方法实现xml测试 3. 增删改查增:删改查 二. 开发规范(mysql)三. 其他查询操作1. 多表查询2. #{} 和 ${}(面试题)使用区别 排序功能like查询 三. 数据库连接池四. 动态sql1. < i…

【补充】倒易点阵定义

晶体点阵&#xff1a;晶体内部结构在三维空间周期平移的客观存在的数学抽象&#xff0c;反映晶体实际原子排列。 倒易点阵&#xff1a;通过对晶体的正点阵进行傅里叶变换得到的&#xff0c;其中正点阵中每个阵点的位置矢量方向代表晶面族的法向&#xff0c;位置矢量的长度是晶…

C++ | Leetcode C++题解之第442题数组中重复的数据

题目&#xff1a; 题解&#xff1a; class Solution { public:vector<int> findDuplicates(vector<int>& nums) {int n nums.size();vector<int> ans;for (int i 0; i < n; i) {int x abs(nums[i]);if (nums[x - 1] > 0) {nums[x - 1] -nums[…

我把101篇公众号文章喂给了AI,终于,「小爱」可以为我代言了!

前段时间&#xff0c;搞了个微信 AI 小助理-小爱(AI)&#xff0c;爸妈玩的不亦乐乎。 零风险&#xff01;零费用&#xff01;我把AI接入微信群&#xff0c;爸妈玩嗨了&#xff0c;附教程&#xff08;下&#xff09; 目前小爱(AI)仍在持续迭代中&#xff0c;受到了很多粉丝朋友…

使用transformers中的pipeline调用huggingface中模型过程中可能遇到的问题和修改建议

使用transformers中的pipeline调用huggingface中模型过程 前言管线使用中的问题和解决huggingface的连接问题使用huggingface示例修改源继续使用pipeline No module named keras.engine 前言 HuggingFace有一个巨大的模型库&#xff0c;其中包括很多的比较成熟的经典模型&…

牛犇啊!LSTM+Transformer炸裂创新,精准度高至95.65%!

【LSTMTransformer】作为一种混合深度学习模型&#xff0c;近年来在学术界和工业界都受到了极大的关注。它巧妙地融合了长短期记忆网络&#xff08;LSTM&#xff09;在处理时序数据方面的专长和Transformer在捕捉长距离依赖关系上的优势&#xff0c;从而在文本生成、机器翻译、…

Request 原理

目录 request原理 Request继承体系 ​编辑Request获取请求行数据方法介绍 1、获取请求行数据 2、获取请求头数据 3、获取请求体数据 4、其他功能 1、获取请求参数通用方式&#xff1a; 中文乱码问题&#xff1a; 2.请求转发 3.共享数据 4.获取servletcontext reques…

set和map结构的使用

个人主页&#xff1a;敲上瘾-CSDN博客 个人专栏&#xff1a;游戏、数据结构、c语言基础、c学习、算法 目录 一、序列式容器和关联式容器 二、set和multiset 1.insert 2.erase 3.find 4.count 三、map和mapmulti 1.pair 2.insert 3.find 4.operator[ ] 5.erase 6.lo…

QT-自定义信号和槽对象树图形化开发计算器

1. 自定义信号和槽 核心逻辑&#xff1a; 需要有两个类&#xff0c;一个提供信号&#xff0c;另一个提供槽。 然后在窗口中将 信号和槽 链接起来。 示例目标&#xff1a; 创建一个 Teacher 类&#xff0c;提供信号。 创建一个 Student 类&#xff0c;提供槽。 实现步骤&…

策略路由控制选路

&#x1f423;个人主页 可惜已不在 &#x1f424;这篇在这个专栏 华为_可惜已不在的博客-CSDN博客 &#x1f425;有用的话就留下一个三连吧&#x1f63c; 目录 一、 实验拓扑 二、 实验简述 三、 实验配置 配置路由信息 配置控制选路 四、 实验验证 ​ 一、 实验…

「安装」 Windows下安装CUDA和Pytorch

「安装」 Windows下安装CUDA和Pytorch 文章目录 「安装」 Windows下安装CUDA和PytorchMac、Linux、云端Windows安装CUDA安装miniconda安装PyTorch测试总结 其他 Mac、Linux、云端 Mac、Linux、云端安装Miniconda和Pytorch的方法参考其他资料。 Windows 下面进行Windows下安装…

CSS选择器的全面解析与实战应用

CSS选择器的全面解析与实战应用 一、基本选择器1.1 通配符选择器&#xff08;*&#xff09;2.标签选择器&#xff08;div&#xff09;1.3 类名选择器&#xff08;.class&#xff09;4. id选择器&#xff08;#id&#xff09; 二、 属性选择器&#xff08;attr&#xff09;三、伪…

转行大模型的必要性与未来前景:迎接智能时代的浪潮

随着人工智能&#xff08;AI&#xff09;技术的迅猛发展&#xff0c;特别是大型语言模型&#xff08;LLM, Large Language Models&#xff09;的崛起&#xff0c;各行各业正迎来一场前所未有的技术革命。对于普通程序员而言&#xff0c;转行进入大模型领域不仅是对个人职业发展…

通配符与Powershell

通配符与正则表达式 通配符 通配符是一种特殊的语句&#xff0c;主要有*、?和[]&#xff0c;用来模糊搜索文件。 通配符表达意思举例说明*星号、匹配任何字符*.cpp匹配.cpp文件?问号、匹配任意一个字符*.?d匹配具有特定格式的文件[]中括号、匹配括号中的一个字符.[a-z]d代…

DC00020基于springboot新闻网站系统java web项目MySQL新闻管理系统

1、项目功能演示 DC00020基于springboot新闻网站系统java web项目MySQL 2、项目功能描述 基于springbootvue新闻网站包括用户和系统管理员两个角色。 2.1 用户功能 1、用户登录、用户注册 2、新闻信息&#xff1a;点赞、点踩、收藏、查看 3、用户分享&#xff1a;点赞、点踩…

分库分表还是分布式?如何用 OceanBase的单机分布式一体化从根本上解决问题

随着企业业务规模的不断增长&#xff0c;单机集中式的数据库系统逐渐难以承载企业日益增长的数据存储与处理需求。因此&#xff0c;MySQL 的分库分表方案成为了众多企业应对数据存储量激增及数据处理能力需求扩张的“止痛药”。尽管这一方案短期内有效缓解了企业面临的大规模数…

封装左侧抽屉可拖拽组件【可多个】

一、案例效果 二、案例代码 封装抽屉组件 <template><div class"drag-drawer"><div class"out-box" :style"style"><mtd-tooltip:content"collapse ? 展开面板 : 收起面板"class"tool-tip":placeme…

828华为云征文|部署敏捷项目管理系统工具 ZenTao

828华为云征文&#xff5c;部署敏捷项目管理系统工具 ZenTao 一、Flexus云服务器X实例介绍二、Flexus云服务器X实例配置2.1 重置密码2.2 服务器连接2.3 安全组配置2.4 Docker 环境搭建 三、Flexus云服务器X实例部署 ZenTao3.1 ZenTao 介绍3.2 ZenTao 部署3.3 ZenTao 使用 四、总…

云 安 全 (Cloud Security)

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 本人主要分享计算机核心技…

robomimic基础教程(四)——开源数据集

robomimic开源了大量数据集及仿真环境&#xff0c;数据集标准格式为HDF5 目录 一、基础要求 二、使用步骤 1. 下载数据集 2. 后处理 3. 训练 4. 查看训练结果 三、HDF5数据集结构与可视化 1. 数据集结构 &#xff08;1&#xff09;根级别&#xff08;data 组 group&a…