读数据湖仓06数据集成

news2024/11/26 4:31:30

1. 数据湖仓中的数据集成

1.1. 数据湖仓的总体目标是为每一个人提供支持,包括从普通职员到CEO

1.2. 有了作为基础设施的基础数据,企业等组织才能实现真正的数据驱动

1.3. 提供组织所需的数据,最关键的一环在于提供集成的数据基础

  • 1.3.1. 只将数据扔进数据湖仓就指望它能满足人们的需求是不现实的

  • 1.3.2. 如果将数据丢进数据湖仓而不对其进行集成,将会浪费时间、金钱和机会

1.4. 数据集成是构建组织决策基础的必要条件

2. 自动集成

2.1. 对于应用程序生成的结构化数据,可以运用ETL

2.2. 对于文本数据,可以运用文本ETL

2.3. 对于模拟/物联网数据,则可以运用数据蒸馏算法

2.4. 这些技术都能以成熟和自动化的方式支持集成需求

2.5. 数据集成的最终结果是数据本身的转换

  • 2.5.1. 基础数据包含转换过的数据

2.6. 转换数据的有趣之处在于不同类型数据的转换过程完全不同

2.7. ETL、文本ETL和数据蒸馏算法的处理过程之间几乎没有共同点

3. ETL

3.1. ETL是对应用程序生成的结构化数据进行转换的过程

3.2. 只有集成基于应用程序与基于交易的数据,才能够真正理解企业所开展的业务

3.3. 命名约定

3.4. 编码习惯

3.5. 物理特性差异

3.6. 属性度量

3.7. 属性度量

3.8. 属性存在标准

3.9. 粒度差异

3.10. 定义差异

3.11. 数据选择标准

3.12. 归纳和推导差异

4. 文本ETL

4.1. 结构化数据主要来自交易

4.2. 文本数据则主要来自语音对话和报告

  • 4.2.1. 可能来自印刷资料,例如报纸、文档和广告册

  • 4.2.2. 可能来自互联网、电子邮件和其他电子形式的数据

4.3. 两者的数据来源存在显著差异

4.4. 文本数据是以自由格式呈现的

4.5. 事务数据每次出现时都清晰明了

4.6. 描述文本数据所涵盖的本体

4.7. 本体内的分类标准

4.8. 分类标准和业务规则的联系

4.9. 基于词与词之间的相近程度识别语义

4.10. 多义词辨识

4.11. 对选定数据去标识化的能力

4.12. 识别常用措辞的能力

4.13. 多语言环境下运转的能力

4.14. 识别文本中情感的能力

5. 数据蒸馏算法

5.1. 模拟/物联网数据集成的本质是删除基础数据中访问概率较低的数据

5.2. 无法存储生成的所有模拟/物联网数据,尤其是访问概率较低的数据

5.3. 为了从访问概率低的非相关数据中分离出访问概率高的相关数据,需要首先使用数据蒸馏算法对原始模拟/物联网数据进行蒸馏处理,然后把访问概率较高的数据置于基础数据中

5.4. 蒸馏算法

5.5. 算法随时间推移发生的变化

5.6. 阈值选择

5.7. 阈值随时间推移发生的变化

5.8. 记录度量的时间

5.9. 度量的时间随时间推移发生的变化

6. 分析

6.1. 构建数据湖仓的基础数据的主要目的是支持分析处理

  • 6.1.1. 基础数据主要用于支持分析处理,但有时也会应用在运营中

6.2. 结构化数据分析

  • 6.2.1. 我们需要确保所分析的是完整的结构化数据,这样组织才能够在整个组织范围内进行分析处理

  • 6.2.2. 将未集成的应用程序生成的数据存入基础数据中是错误的

6.3. 文本数据分析

  • 6.3.1. 使用基础数据进行分析处理还有一种方式,那就是进行文本数据分析

  • 6.3.2. 直接将原始文本数据存储在基础数据中都不是一个明智的策略

  • 6.3.3. 如果基础数据中有了分析文本数据所需的基础,就可以开展各类分析工作

  • 6.3.4. 文本数据分析的一个典型应用场景是了解客户的情绪状况

  • 6.3.5. 文本数据分析还可用于相关性分析

    • 6.3.5.1. 在相关性分析中,分析的对象是多个同时生成的变量

6.4. 模拟/物联网数据分析

  • 6.4.1. 模拟/物联网数据分析能够展示数据的整体情况或者单条/多条记录的分析结果

6.5. 结构化数据和文本数据的结合

  • 6.5.1. 将结构化数据和文本数据结合起来进行分析

  • 6.5.2. 当结构化数据与文本数据合并时,一张完整且精确的客户画像便呈现了出来

  • 6.5.3. 通过对客户的洞察能够使厂商改进产品和服务,获得增加新客的机会

  • 6.5.4. 进行客户360度全景分析、客户趋势分析和店铺满意度分析等

  • 6.5.5. 难点在于结构化数据的操作是基于键、属性和索引进行的,而我们通常说话或写作的方式并不符合这种结构

  • 6.5.6. 当无法在结构化数据和文本数据之间建立连接时,要想同时分析这两种数据将非常困难,甚至是不可能的

6.6. 连接3个环境

  • 6.6.1. 在3个环境之间建立连接也是有可能的

  • 6.6.2. 不同环境之间的连接通常都属于弱连接,这种弱连接会限制很多重要的分析处理工作的开展

6.7. 3种方式分析和处理基础数据

  • 6.7.1. 通过仪表盘

    • 6.7.1.1. 仪表盘适用于展示静态数据和明确定义的数据,也适用于那些数据结构以及与其他数据的关系不经常变化的场景

    • 6.7.1.2. 对于那些动态变化的数据与数据关系经常变化的场景,则不宜通过仪表盘来展现

    • 6.7.1.3. 仪表盘适合用于展示汇总数据,不适合呈现个体数据

    • 6.7.1.4. 最吸引人的地方在于能够将数据可视化

      6.7.1.4.1. 通常,高层管理者都对酷炫的可视化效果青睐有加

  • 6.7.2. 通过知识图谱

    • 6.7.2.1. 知识图谱适用于展示动态数据,其中数据元素之间的关系也会不断变化,它能够帮助关联不同类型的数据

    • 6.7.2.2. 知识图谱还适用于展示详细数据,但并不适用于汇总数据

  • 6.7.3. 通过电子表格

    • 6.7.3.1. 巨大价值在于即时性和极强的灵活性

    • 6.7.3.2. 任何用户都可以打开电子表格工具,处理各种类型的数据,并直接录入数据

    • 6.7.3.3. 无法保证数据的完整性,也无法判断其中的某个数据是否准确可信

    • 6.7.3.4. 由于任何人都可以在电子表格中输入任何值,因此难免让大家怀疑其中的数据的可信度

6.8. 只要基于可靠的基础数据,数据分析的结果便是可信的

7. 软数据

7.1. 数据湖仓中基础数据的本质应该是可信的

  • 7.1.1. 如果基础数据不可信,就不应该把这些数据存入数据湖仓中

  • 7.1.2. 当人们访问基础数据时,必须相信检索到的数据是准确和完整的

7.2. 当我们提到结构化数据、文本数据和模拟/物联网数据时,通常不会对数据的真实性产生疑问

  • 7.2.1. 这种数据被称为“硬”数据

7.3. 软数据是指来自电子表格、互联网或政府的数据

7.4. 软数据的问题在于其准确性和真实性

7.5. 软数据与基础数据中的“硬”数据存在差异

7.6. 软数据是否应该存入基础数据呢?

  • 7.6.1. 取决于软数据的可信度,同时我们还要考虑是否可以将软数据与已经确定和审查过的数据结合起来

  • 7.6.2. 必须确保软数据的有效性,如果软数据不符合有效性要求,则不应将其存入基础数据

7.7. 从所有软数据来源的角度来看,在将数据存入基础数据之前,需要对数据进行确认,以了解数据的可信度

8. 电子表格数据

8.1. 软数据的第一个数据来源是电子表格

8.2. 在基础数据中存入电子表格数据会受到许多严格的限制

8.3. 最大的问题是数据来源的不确定性

  • 8.3.1. 我们无法确定电子表格中的数据是否真实可靠

  • 8.3.2. 由于任何人都可以在电子表格中填写任何内容,因此,我们必须先考虑电子表格数据的可信度

  • 8.3.3. 如果电子表格中的数据不可信,就不应该将其存入基础数据中

8.4. 电子表格中的数据没有可用或可靠的元数据

8.5. 只能从电子表格中获取文本数据,但即便如此,也必须确保文本数据能够体现上下文情境

9. 互联网数据

9.1. 软数据的第二个丰富的数据来源是互联网

9.2. 只要数据经过认证和验证,我们就可以将互联网数据存入基础数据中

9.3. 有些网站不希望人们从他们的网站获取数据

9.4. 从互联网上获取数据导致的隐私问题并不常见

  • 9.4.1. 由于在互联网上发布的数据大多属于公共领域,因此通常不涉及隐私问题

9.5. 在大部分情况下,在互联网上获取的数据基本都是一次性的,虽然数据有可能会不断更新,但是总体而言这种概率是比较低的

10. 政府数据

10.1. 软数据的第三个可能的数据来源是政府

10.2. 政府会发布大量可能有用的数据

  • 10.2.1. 利率

  • 10.2.2. 人口数量

  • 10.2.3. 通货膨胀率

  • 10.2.4. 就业率

10.3. 可以把政府公布的数据存入基础数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2187619.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

信息安全工程师(32)认证技术方法

前言 认证技术方法是用于验证用户、设备或系统身份的各种技术手段和方法,旨在确保只有经过验证的实体才能访问系统资源,从而保护数据和系统的安全。 一、常见认证技术方法 密码认证 描述:用户通过输入预先设置的密码进行身份验证。优点&#…

The 14th Jilin Provincial Collegiate Programming Contest

题目 #include <bits/stdc.h> using namespace std; #define int long long #define pb push_back #define fi first #define se second #define lson p << 1 #define rson p << 1 | 1 #define ll long long #define pii pair<int, int> #define ld lo…

C语言 | Leetcode C语言题解之第455题分发饼干

题目&#xff1a; 题解&#xff1a; int cmp(int* a, int* b) {return *a - *b; }int findContentChildren(int* g, int gSize, int* s, int sSize) {qsort(g, gSize, sizeof(int), cmp);qsort(s, sSize, sizeof(int), cmp);int m gSize, n sSize;int count 0;for (int i …

D26【python 接口自动化学习】- python 基础之判断与循环

day26 语句嵌套 学习日期&#xff1a;20241003 学习目标&#xff1a;判断与循环&#xfe63;-36 语句嵌套&#xff1a;如何处理多重嵌套的问题&#xff1f; 学习笔记&#xff1a; 语句嵌套的用途 在条件语句中使用另外一个条件语句 在循环中使用条件语句 多重循环 总结 1…

Authentication Lab | JWT None Algorithm

关注这个靶场的其他相关笔记&#xff1a;Authentication Lab —— 靶场笔记合集-CSDN博客 0x01&#xff1a;JWT None Algorithm 前情提要 本关的考点是 JWT&#xff08;Json Web Token&#xff09;漏洞&#xff0c;JWT 是一个用于跨域认证的技术。如果你不了解 JWT&#xff0c…

<<迷雾>> 第6章 加法机的诞生(3)--三比特加法电路 示例电路

用全加器组成一个三比特加法电路 info::操作说明 鼠标单击开关切换开合状态 primary::在线交互操作链接 https://cc.xiaogd.net/?startCircuitLinkhttps://book.xiaogd.net/cyjsjdmw-examples/assets/circuit/cyjsjdmw-ch03-02-3-bit-adder.txt 原图 加法机的简单图示 info::操…

Python案例--数字组合

在编程和数据处理中&#xff0c;我们经常需要从给定的元素中生成所有可能的组合。本文将通过一个简单的Python程序&#xff0c;展示如何生成由四个给定数字&#xff08;0-9&#xff09;组成的所有可能的无重复三位数组合。这可以应用于多种场景&#xff0c;如密码生成、数据校验…

【MySQL实战45讲6】全局锁和表锁

文章目录 全局锁表级锁 全局锁 顾名思义&#xff0c;全局锁就是对整个数据库实例加锁。MySQL提供了一个对全局读锁的方法&#xff0c;命令是Flush tables with read lock (FTWRL) 当需要让整个库处于只读状态的时候&#xff0c;可以使用这个命令&#xff0c;之后其他线程的以下…

计算机毕业设计python+spark知识图谱课程推荐系统 课程预测系统 课程大数据 课程数据分析 课程大屏 mooc慕课推荐系统 大数据毕业设计

《PythonSpark知识图谱课程推荐系统》开题报告 一、研究背景与意义 随着互联网技术的快速发展&#xff0c;在线教育平台已成为人们获取知识、提升技能的重要途径。然而&#xff0c;面对海量的课程资源&#xff0c;用户往往难以快速找到符合自己兴趣和需求的课程。传统的课程推…

Web安全 - 安全防御工具和体系构建

文章目录 安全标准和框架1. 国内安全标准&#xff1a;等级保护制度&#xff08;等保&#xff09;2. 国际安全标准&#xff1a;ISO27000系列3. NIST安全框架&#xff1a;IDPRR方法4. COBIT与ITIL框架 防火墙防火墙的基本作用防火墙的三种主要类型防火墙的防护能力防火墙的盲区 W…

【C++前缀和】3026. 最大好子数组和|1816

本文涉及的基础知识点 C算法&#xff1a;前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 LeetCode3026. 最大好子数组和 给你一个长度为 n 的数组 nums 和一个 正 整数 k 。 如果 nums 的一个 子数组 中&#xff0c;第一个元素和最后一个元素 差的绝对值恰…

8643 简单选择排序

### 思路 简单选择排序是一种原地排序算法&#xff0c;通过在未排序部分中选择最小&#xff08;或最大&#xff09;元素并将其放置在已排序部分的末尾来进行排序。每次选择后输出当前排序结果。 ### 伪代码 1. 读取输入的待排序关键字个数n。 2. 读取n个待排序关键字并存储在数…

探索聚丙烯酸水凝胶,从制备到特性,再到3D打印实践

大家好&#xff01;今天我们来了解一种基于聚丙烯酸的自修复水凝胶——《Preparation and Characterization of Poly(Acrylic Acid)-Based Self-Healing Hydrogel for 3D Shape Fabrication via Extrusion-Based 3D Printing》发表于《Materials》。在材料科学领域&#xff0c;…

Visual Studio 字体与主题推荐

个人推荐&#xff0c;仅供参考&#xff1a; 主题&#xff1a;One Monokai VS Theme 链接&#xff1a;One Monokai VS Theme - Visual Studio Marketplacehttps://marketplace.visualstudio.com/items?itemNameazemoh.onemonokai 效果&#xff1a; 字体&#xff1a;JetBrain…

RTSP作为客户端 推流 拉流的过程分析

之前写过一个 rtsp server 作为服务端的简单demo 这次分析下 rtsp作为客户端 推流和拉流时候的过 A.作为客户端拉流 TCP方式 1.Client发送OPTIONS方法 Server回应告诉支持的方法 2.Client发送DESCRIPE方法 这里是从海康摄像机拉流并且设置了用户名密码 Server回复未认证 3.客…

【ubuntu】Ubuntu20.04安装中文百度输入法

1.download 百度Linux输入法-支持全拼、双拼、五笔 2.unzip unzip Ubuntu_Deepin-fcitx-baidupinyin-64.zip 3.setting 3.1 setting fcitx sudo apt install aptitude sudo aptitude install fcitx-bin fcitx-table fcitx-config-gtk fcitx-frontend-all sudo aptitude in…

QT学习笔记2.2(安装部署_编译器)

QT学习笔记2.2&#xff08;安装部署_编译器) 编译器的版本&#xff0c;32位64位的 目前只用32位vs编译过&#xff0c;其他的还没有搞过。 一直没有搞清楚qt qtcreator 生成软件&#xff0c;32位和64位之间的关系 目前只使用32位qt生成打包了32位的项目。 编译器的安装 …

yolov8/9/11模型在中医舌苔分类中的应用【代码+数据集+python环境+GUI系统】

yolov8、9、11模型在中医舌苔分类中的应用【代码数据集python环境GUI系统】 背景意义 目前随着人们生活水平的不断提高&#xff0c;对于中医主张的理念越来越认可&#xff0c;对中医的需求也越来越多。 传统中医的舌诊主要依赖于医生的肉眼观察&#xff0c;仅仅通过这种人工诊…

【EXCEL数据处理】000014 案例 EXCEL分类汇总、定位和创建组。附多个操作案例。

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 【EXCEL数据处理】000014 案例 EXCEL分类汇总、定位和创建组。附多个操…

算法【Java】—— 递归

递归思路 首先我们要分析主问题&#xff0c;如果主问题可以拆分成一个又一个小问题的时候&#xff0c;并且这些小问题的解决方案也是一样的话&#xff0c;我们可以使用递归来解决。 递归函数头的设计是根据子问题的解决需要而设计的 函数体部分则是由如何解决子问题组成 最…