读数据湖仓07描述性数据

news2024/11/28 10:53:13

1. 描述性数据

1.1. 基础数据中包含不同类型的数据,而不同类型数据的描述性数据也存在显著的差异

1.2. 尽管这些描述性数据存在根本性的差异,但通过描述性数据,我们可以全面了解基础数据中的数据

1.3. 通过分析基础设施中提供的描述性数据可以获得更详细的数据

  • 1.3.1. 分析基础设施是通往详细数据的路线图

  • 1.3.2. 描述性数据会告诉分析人员如何定位所需数据,数据的含义,并指导其组合数据

1.4. 分析人员需要从分析基础设施入手

  • 1.4.1. 描述性数据能为各种分析人员提供帮助,包括数据科学家、业务分析人员、文员,甚至是管理人员

  • 1.4.2. 对任何希望使用基础数据的人来说,描述性数据都是非常有用的

1.5. 数据湖仓的基础数据是非常有价值的

  • 1.5.1. 数据湖仓中最基本的数据是集成到基础数据中的详细数据

  • 1.5.2. 仅有详细数据是不够的,还需要描述性数据,只有将详细数据和描述性数据结合起来,才能使数据湖仓发挥最大的作用

  • 1.5.3. 由于描述性数据描述了基础数据中的详细数据,因此分析人员可以轻松找到所需的详细数据

2. 结构化数据

2.1. 数据模型

  • 2.1.1. 数据模型是对基础数据中结构化数据的抽象表示

  • 2.1.2. 在实体关系图层级上,我们会定义组织的主要实体及其之间的关系

  • 2.1.3. 实体关系图的下一层级是数据项集,用于进一步描述实体

    • 2.1.3.1. 每个实体在实体关系图中都有一个对应的数据项集,其中包括键、属性以及实体之间的关系等

    • 2.1.3.2. 对于每一组数据项集,我们都可以找到其物理定义,包括实际定义、键标识、属性的名称、属性的结构以及索引

  • 2.1.4. 数据模型可以被视为对组织内结构化数据的一种抽象

    • 2.1.4.1. 因为数据可能很快变得非常复杂,抽象可以使得设计师和分析人员更好地访问和分析基础数据中的数据

2.2. 元数据

  • 2.2.1. 在对基础数据中的结构化数据进行基础设施分析时,元数据定义也是很重要的一个部分

  • 2.2.2. 元数据类似于数据模型的物理属性

  • 2.2.3. 元数据确实包含一些数据库管理系统(Database Management System,DBMS)特有的物理特征,这些特征并不包含在数据模型的较低层次中

  • 2.2.4. 在物理层面上,元数据包括数据库管理系统所描述数据的实际定义,例如键、属性和索引等要素

2.3. 结构化数据转换

  • 2.3.1. 名称转换

  • 2.3.2. 编码转换

  • 2.3.3. 度量单位转换

  • 2.3.4.  货币类型转换

  • 2.3.5. 计算转换

  • 2.3.6. 数据选择转换

2.4. 结构化数据源

  • 2.4.1. 在对结构化数据进行基础设施分析时,识别出结构化数据的数据源是其中非常重要的一个步骤

  • 2.4.2. 结构化数据的起始来源是事务数据,我们可以从不同的来源收集与事务相关的数据

  • 2.4.3. 事务数据可以来自不同的数据源

    • 2.4.3.1. 银行柜员活动

    • 2.4.3.2. 自动取款机活动

    • 2.4.3.3. 活期存款交易

    • 2.4.3.4. 航空公司订票

2.5. 数据选择标准

  • 2.5.1. 在对结构化数据进行基础设施分析时,确定数据筛选条件是其中最重要的部分之一

  • 2.5.2. 仅仅识别出需要使用的算法是不够的,还必须明确计算中包括和排除了哪些数据

  • 2.5.3. 使用基础数据进行分析的分析人员需要清楚了解参与计算的数据具体有哪些

2.6. 数据定义语言

  • 2.6.1. 数据定义语言(Data Definition Language,DDL)也是一个非常重要的部分

  • 2.6.2. 数据定义语言用于定义与数据库管理系统相关的数据库结构

  • 2.6.3. 数据定义语言始终包含对定义数据库有用的其他信息

2.7. 数据编码

  • 2.7.1. 编码是指保存在数据库中的有意义的值

2.8. 数据关系

  • 2.8.1. 应用程序支撑的关系

  • 2.8.2. 数据库管理系统支持的关系

  • 2.8.3. 隐含关系

  • 2.8.4. 显式关系

  • 2.8.5. 推理关系

2.9. 在结构化环境中,数据的上下文情境非常明确,主要体现在系统的结构中

  • 2.9.1. 对结构化环境来说,数据的上下文情境明确且显式存在于结构化数据的元数据中

  • 2.9.2. 在结构化环境中,数据的上下文情境由描述性数据本身的元数据提供

3. 文本数据

3.1. 支持文本数据和文本数据分析的描述性数据是一类重要的描述性数据

3.2. 文本环境并没有体现出明确的上下文情境

  • 3.2.1. 人们不会根据上下文情境说话,也不会根据明确的上下文情境写作

  • 3.2.2. 下文情境会隐式地嵌入语言

3.3. 文本数据中也存在上下文情境,但是文本环境中上下文情境的定义方式与结构化环境中的不同

  • 3.3.1. 要理解文本环境中的上下文情境,有必要先消除文本的歧义

  • 3.3.2. 在文本数据分析中,上下文情境与结构化环境中的上下文情境一样重要

3.4. 上下文情境在分析基础设施中扮演着非常重要的角色,可以帮助我们理解数据湖仓中的基础数据

3.5. 本体

  • 3.5.1. 文本数据的描述性数据的主要组成部分是本体

  • 3.5.2. 本体是由两个或多个相关分类标准的集合构成

  • 3.5.3. 一般来说,本体提供对业务或学科的完整描

  • 3.5.4. 通用本体主要包括通常使用的单词和术语,对通用术语而言,通用本体的主题并不重要

  • 3.5.5. 行业本体则包含特定行业的术语,例如,医疗行业有医疗术语,法律行业有法律术语,会计行业有会计术语等

  • 3.5.6. 定制本体包含企业特定的名称

3.6. 分类标准

  • 3.6.1. 文本数据还需要熟悉分类标准

  • 3.6.2. 分类标准仅仅是一个分类词组

  • 3.6.3. 在分类标准中,每个单词都与其他元素具有相同的类别关

  • 3.6.4. 分类标准是本体的一部分

  • 3.6.5. 本体的内容是异构的,而分类标准的内容是同质的

  • 3.6.6. 一个分类标准仅包含与该分类关系相同的分类数据

  • 3.6.7. 与本体不同,分类标准的内容是同质的

  • 3.6.8. 仅仅依靠本体和分类标准进行文本分析是不够的,文本分析还有很多其他要求

3.7. 关联

  • 3.7.1. 文本消歧需要一个元素,那就是寻找隐含在文本中的业务规则

    • 3.7.1.1. 这种形式的业务规则被称为关联

3.8. 上下文情境

  • 3.8.1. 与业务规则相关的是上下文情境的处理过程,而上下文情境则是文本消歧的本体和分类标准解决方案的必要组成部分

  • 3.8.2. 通过将本体和分类标准作为指南,可以消除许多文本的歧义,但是很多其他形式的文本并没有采用本体和分类标准

  • 3.8.3. 法律合同和实验室报告就是典型的非自由格式文本

    • 3.8.3.1. 单词的含义通常需要通过文本数据的上下文情境进行推导

3.9. 文本数据源

  • 3.9.1. 语音对话

    • 3.9.1.1. 语音对话需要进行转录,并且在此过程中往往会损失一定程度的准确性
  • 3.9.2. 电子邮件

    • 3.9.2.1. 电子邮件则依赖对垃圾邮件的过滤能力,以及清理和删除系统开销数据的能力

    • 3.9.2.2. 如果不对垃圾邮件进行过滤,电子邮件流的大小将不断增长,最终难以处理

  • 3.9.3. 印刷资料

    • 3.9.3.1. 印刷资料需要通过光学字符识别进行转录,而其准确性与油墨打印的清晰度、字体以及纸张的稳定性等多种因素有关
  • 3.9.4. 电子文本

  • 3.9.5. 互联网

    • 3.9.5.1. 互联网取决于互联网数据所在的站点,每个互联网站点都是不同的,并且会经常发生变化
  • 3.9.6. 每一种文本数据来源都有自己的特点

4. 模拟/物联网数据

4.1. 尽管大多数机器的监测数据都不重要,但偶尔也会出现引起人们极大兴趣的模拟/物联网数据

4.2. 需要进行数据蒸馏,将乏味的数据与有趣的数据分离开

4.3. 算法

  • 4.3.1. 蒸馏算法是一种特别有趣的算法,这种算法具有智能,可以用于判断模拟/物联网数据是否有用

4.4. 阈值

  • 4.4.1. 除了用于分离模拟/物联网数据的算法以外,将定义的数据阈值作为参数进行进一步分析也很有意义

  • 4.4.2. 算法的阈值决定了将记录写入访问文件的边界

  • 4.4.3. 偶尔会出现超出正常范围的测量值,测量值可能过高或过低

    • 4.4.3.1. 异常的记录将被写入访问概率较高的文件

    • 4.4.3.2. 记录是否被写入则取决于所设置的算法阈值

4.5. 时间排序

  • 4.5.1. 时间排序方法可能会采集到分析人员感兴趣的模拟/物联网数据

  • 4.5.2. 分析人员可以为预期的、感兴趣的活动选择一个时间段,在这个时间段内发生的所有记录都会被采集

  • 4.5.3. 与依靠预先设定阈值不同,分析人员也可以通过使用时间排序方法来监控活动

4.6. 数据源

  • 4.6.1. 某些机器以一种速度收集数据

  • 4.6.2. 其他机器则可能以另一种速度收集数据

  • 4.6.3. 某些机器具有很高的精度

  • 4.6.4. 有些机器的精度则很低

  • 4.6.5. 采用一种测量方法来收集数据

  • 4.6.6. 使用不同的测量方法

5. 数据血缘

5.1. 所有不同类型的数据都包含能够反映数据血缘的数据

5.2. 在组织中,数据从一个数据库流向另一个数据库是很常见的现象

5.3. 对使用数据湖仓基础数据进行工作的分析人员来说,数据血缘是非常有用的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2189530.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于CAN总线的STM32G4 Bootloader设计说明

1 设计目的 根据芜湖铂科新能源自身企业发展需要,开发一款基于ST公司STM32G4系列MCU(具体开发用型号STM32G473和STM32G431微处理器)的CAN总线bootloader,方便应用程序的刷写。CAN设备采用周立功CAN卡(USBCAN-II、CAN-…

Docker安装人大金仓(kingbase)关系型数据库教程

人大金仓数据库(KingbaseES)是由中国人民大学金仓公司研发的一款自主知识产权的关系型数据库管理系统。 官网地址:https://www.kingbase.com.cn/ 本章教程,主要介绍如何用Docker安装启动人大金仓(kingbase)关系型数据库。 一、下载镜像 下载地址:https://www.kingbase.c…

【黑马软件测试三】web功能测试、抓包

阶段三,内容看情况略过 Web功能测试链接测试表单测试搜索测试删除测试cookies/session测试数据库测试抓包工具的使用一个APP的完整测试流程熟悉APP业务流程功能测试APP专项测试兼容性安装、卸载和升级交叉测试(干扰测试)push消息测试用户体验测试 Web功能测试 通过…

Python画笔案例-075 绘制趣味正方形

1、绘制趣味正方形 通过 python 的turtle 库绘制 趣味正方形,如下图: 2、实现代码 绘制趣味正方形,以下为实现代码: """趣味正方形.py画个正方形后,单击它会移动,并且碰到边缘就反弹。这个版本采用画布的move命令让当前线条项目移动实现的。也可以用纯动画…

华夏ERP账号密码泄露漏洞

漏洞描述 华夏ERP账号密码泄露漏洞 漏洞复现 FOFA "jshERP-boot" POC IP/jshERP-boot/user/getAllList;.ico

解决 IntelliJ IDEA 中 JSP 页面无法识别 getParameter() 方法的问题

目录 背景: 过程: getParameter优点&#xff1a; 背景: 在IDEA中&#xff0c;我正在编写一个.jsp文件&#xff0c;想要测试一下数据是否能够从HTTP请求中成功获取到userId参数的数据&#xff0c;下面代码是我用来测试的&#xff0c;但是出现了错误。 <% String userId …

【EXCEL数据处理】000016案例 vlookup函数。

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 【EXCEL数据处理】000016案例 vlookup函数。使用的软件&#xff1a;off…

SpringBoot整合QQ邮箱

SpringBoot可以通过导入依赖的方式集成多种技术&#xff0c;这当然少不了我们常用的邮箱&#xff0c;现在本章演示SpringBoot整合QQ邮箱发送邮件.... 下面按步骤进行&#xff1a; 1.获取QQ邮箱授权码 1.1 登录QQ邮箱 1.2 开启SMTP服务 找到下图中的SMTP服务区域&#xff0c;…

C/C++/EasyX——入门图形编程(4)

【说明】紧接上文(&#xff61;&#xff65;ω&#xff65;&#xff61;)&#xff0c;好了&#xff0c;接下来&#xff0c;就让我们开始学习图像处理和获取鼠标消息的函数吧。&#xff08;各位友友们不要着急&#xff0c;想在短时间内就想做小游戏或者写出各种好看的画面是不简…

【韩顺平Java笔记】第7章:面向对象编程(基础部分)【214-226】

文章目录 214. 递归解决什么问题215. 递归执行机制1216. 递归执行机制2217 递归执行机制3217.1 阶乘218. 递归执行机制4219. 斐波那契数列220. 猴子吃桃221. 222. 223. 224. 老鼠出迷宫1,2,3,4224.1 什么是回溯 225. 汉诺塔226. 八皇后 214. 递归解决什么问题 简单的说: 递归就…

Koa2+mongodb项目实战1(项目搭建)

Koa中文文档 Koa 是一个基于 Node.js 的 Web 应用框架&#xff0c;由 Express 原班人马打造。 Koa 并没有捆绑任何中间件&#xff0c;而是提供了一套优雅的方法&#xff0c;帮助开发者快速地编写服务端应用程序。 项目初始化 创建一个文件夹&#xff1a;ko2-mongodb 打开文件…

Nginx的基础讲解之重写conf文件

一、Nginx 1、什么是nginx&#xff1f; Nginx&#xff08;engine x&#xff09;是一个高性能的HTTP和反向代理web服务器&#xff0c;同时也提供了IMAP/POP3/SMTP服务。 2、用于什么场景 Nginx适用于各种规模的网站和应用程序&#xff0c;特别是需要高并发处理和负载均衡的场…

Python | Leetcode Python题解之第452题用最少数量的箭引爆气球

题目&#xff1a; 题解&#xff1a; class Solution:def findMinArrowShots(self, points: List[List[int]]) -> int:if not points:return 0points.sort(keylambda balloon: balloon[1])pos points[0][1]ans 1for balloon in points:if balloon[0] > pos:pos balloo…

【EO-1(Earth Observing-1)卫星】

EO-1&#xff08;Earth Observing-1&#xff09;卫星是美国国家航空航天局&#xff08;NASA&#xff09;新千年计划&#xff08;New Millennium Program&#xff0c;NMP&#xff09;地球探测部分中的第一颗对地观测卫星。以下是对EO-1卫星的详细介绍&#xff1a; 一、发射与服…

国外电商系统开发-运维系统单个添加被管理服务器

提前设置好您的远程主机的信息&#xff0c;这样才能自动执行任务。否则&#xff0c;自动执行根本无从谈起。登录方式有SSH密码登录、SSH-Key登录两种方式。 最后点击保存。 上面的刷新图标表示在请求该服务器的状态。如果该服务器状态正常&#xff0c;则会显示如下图标&#xf…

业务封装与映射 -- 编码方式(QPSK、DQPSK、QAM)

信号在光通信系统中传输&#xff0c;需要在信号的发送端对原始电信号进行调制&#xff0c;接收端进行解调&#xff0c;恢复成原始的二进制电信号。光通信系统有三种基本的调制方式&#xff1a;ASK&#xff08;调幅&#xff09;/FSK&#xff08;调频&#xff09;/PSK&#xff08…

【AIGC】VoiceControl for ChatGPT指南:轻松开启ChatGPT语音对话模式

博客主页&#xff1a; [小ᶻZ࿆] 本文专栏: AIGC | ChatGPT 文章目录 &#x1f4af;前言&#x1f4af;安装VoiceControl for ChatGPT插件&#x1f4af;如何使用VoiceControl for ChatGPT进行语音输入VoiceControl for ChatGPT快捷键注意点 &#x1f4af;VoiceControl for C…

看门狗电路设计

看门狗电路设计 看门狗是什么应用架构图TPV6823芯片功能硬件时序图为什么要一般是要保持200个毫秒左右的这种低电平的时间看门狗电路实际应用与条件 看门狗是什么 硬件看门狗芯片&#xff0c;Watch DogTimer&#xff0c;可用于受到电气噪音、电源故障、静电放电等影响(造成软件…

【AI学习笔记】基于Unity+DeepSeek开发的一些BUG记录解决方案

【AI学习笔记】基于UnityDeepSeek开发的一些BUG记录&解决方案 背景前摇&#xff1a;&#xff08;省流可不看&#xff09; Unity是大学学的&#xff0c;AI是研究生学的&#xff0c;DeepSeek是第一份实习偷师的&#xff0c;三合一的梦是最近开始做的&#xff0c;BUG是今天遇…

VRRP协议个人理解+报文示例+典型配置-RFC2338/RFC3768/RFC5798/RFC9568

个人认为&#xff0c;理解报文就理解了协议。通过报文中的字段可以理解协议在交互过程中相关传递的信息&#xff0c;更加便于理解协议。 因此本文将在VRRP协议报文的基础上进行介绍。 VRRP协议发展 关于VRRPv2基本原理&#xff0c;可重点参考2004年发布的RFC3768-Virtual Ro…