DAMA数据管理知识体系(第8章 数据集成和互操作)

news2024/10/8 23:57:52
  • 课本内容
    • 8.1 引言
      • 概要
        • 数据集成和互操作(DII)描述了数据在不同数据存储、应用程序 和组织这三者内部和之间进行移动和整合的相关过程
        • 数据集成和互操作是新兴大数据管理领域的核心
      • 业务驱动因素
        • 数据集成和互操作的主要目的是为了对数据移动进行有效的管理
        • 维护管理成本
      • 语境图
        • 图8-1 语境关系图:数据集成和互操作
      • 目标和原则
        • 目标
          • 1)及时以数据消费者(人和系统)所需的格式提供数据。
          • 2)将数据物理地或虚拟地合并到数据中心。
          • 3)通过开发共享模型和接口来降低管理解决方案的成本和复杂度。
          • 4)识别有意义的事件(机会和威胁),自动触发警报并采取相应行动。
          • 5)支持商务智能、数据分析、主数据管理以及运营效率的提升。
        • 原则
          • 1)采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现。
          • 2)平衡本地数据需求与企业数据需求,包括支撑与维护。
          • 3)确保数据集成和互操作设计和活动的可靠性。业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性。
      • 基本概念
        • 抽取、转换和加载
          • 抽取
          • 转换
            • 转换例子
              • 格式变化
                • 技术上的格式转换,如从EBCDIC到ASCII的格式转换。
              • 结构变化
                • 数据结构的变化,如从非规范化到规范化的记录。
              • 语义变换
              • 消除重复
                • 如规则需要唯一的键值或记录,以确保包括扫描目标、检测和删除重复行的方法。
              • 重新排序
                • 改变数据元素或记录的顺序以适应已定义的模式。
          • 加载
          • ELT
          • 映射
            • 映射(Mapping)是转换的同义词,它既是从源结构到目标结构建 立查找矩阵的过程,也是该过程的结果。
        • 时延
          • 时延(Latency)是指从源系统生成数据到目标系统可用该数据的时间差
          • 延时分类
            • 批处理
            • 事件驱动
              • 准实时数据集成解决方案通常是使用企业服务总线来实现
            • 实时处理
          • 变更数据捕获
            • 变更数据捕获是一种通过增加过滤来减少传送带宽需求的方法,只 包含在特定时间范围内更改过的数据
            • 有三种基于数据的变更数据捕获技术
              • 源系统填入特定的数据元素
              • 源系统进程在更改数据时被添加到一个简单的对象和标识符列 表,然后用于控制抽取数据的选择
              • 源系统复制已经变化的数据
          • 异步
          • 实时,同步
          • 低延迟或流处理
        • 复制
          • 复制解决方案通常监视数据集的更改日志,而不是数据集本身。因为它 们不会与应用程序竞争访问数据集,所以它们可以最大限度地减少对任 何操作应用程序的影响
          • 当源数据集和目标数据集是彼此的精确副本时,复制工具的表现最 佳
        • 归档
          • 不经常使用的数据可以移动到对组织成本较低的备用数据结构或存 储解决方案中
          • 监控归档技术非常重要,要确保在技术发生改变时,数据仍然可以 被访问
        • 企业消息格式/规范格式
          • 规范化的数据模型是组织或数据交换团队使用的通用模型,用于标 准化数据共享的格式
        • 交互模型
          • 交互模型描述了在系统之间建立连接以传送数据的方式
          • 分类
            • 点对点
              • 影响处理
              • 管理接口
              • 潜在的不一致
            • 中心辐射模型
              • 数据仓库、数据集 市、操作数据存储和主数据管理中心都是数据中心的最佳示范
              • 企业服务总线(Enterprise Service Bus,ESB)是用于在多个系统之 间接近实时共享数据的数据集成解决方案
            • 发布与订阅
        • 数据集成和互操作架构概念
          • 应用耦合
            • 耦合描述了两个系统交织的程度
          • 编排和流程控制
            • 编排(Orchestration)是一个术语,用来描述在一个系统中如何组织和执行多个相关流程。所有处理消息或数据报的系统,必须能够管理这些流程的执行顺序,以保持一致性和连续性。
            • 流程控制是确保数据的调度、交付、抽取和装载的准确和完整的组件。
          • 企业应用集成
          • 企业服务总线
            • 企业服务总线(Enterprise Service Bus,ESB)是一个系统,它充当系统之间的中介,在它们之间传送消息
          • 面向服务的架构
          • 复杂事件处理
            • 复杂事件处理(Complex Event Processing,CEP)将多个来源的数据进行合并,通过识别出有意义的事件(如机会或威胁),为这些事件设置规则来指导事件处理及路由,进而预测行为或活动,并根据预测的结果自动触发实时响应,如推荐消费者购买产品。
          • 数据联邦和虚拟化
            • 数据联邦(Data Federation)提供访问各个独立数据存储库组合的权限
            • 数据虚拟化(Data Virtualization)使分布式数据库以及多个异构数据存储能够作为单个数据库来访问和查看
          • 数据即服务
            • 从供应商获得许可并按需由供应商提供数据,而不是存储和维护在被许可组织数据中心的数据。
        • 云化集成
          • 云化集成,也称为集成平台即服务或IPaaS,是作为云服务交付的一种系统集成形式。用它处理数据、流程、面向服务架构(SOA)和应用集成。
        • 数据交换标准
          • 数据交换标准是数据元素结构的正式规则
    • 8.2 活动
      • 规划和分析
        • 定义数据集成和生命周期需求
        • 执行数据探索
        • 记录数据血缘
        • 剖析数据
          • 理解数据的内容和结构是实现数据集成成功的关键
            • 基本剖析
              • 1)数据结构中定义的数据格式和从实际数据中推断出来的格式。2)数据的数量,包括null值、空或默认数据的级别。3)数据值以及它们与定义的有效值集合的紧密联系。4)数据集内部的模式和关系,如相关字段和基数规则。5)与其他数据集的关系。
        • 收集业务规则
          • 业务规则是需求的一个关键子集,是定义或约束业务处理方面的语句
          • 业务规则分为四类:业务术语定义、相互关联的术语的事实、约束或行为断言以及派生。
      • 设计数据集成解决方案
        • 设计数据集成解决方案
          • 选择交互模型
            • 确定哪个交互模型或组合将满足需求——中心辐射型、点到点或发 布订阅
          • 设计数据服务或交换模式
            • 创建或重用现有的集成流来移动数据
        • 建模数据中心、接口、消息、数据服务
        • 映射数据源到目标
        • 设计数据编排
          • 数据集成解决方案中的数据流必须做好设计和记录
      • 开发数据集成解决方案
        • 开发数据服务
        • 开发数据流编排
        • 制定数据迁移方法
        • 制定发布方式
        • 开发复杂处理流
        • 维护数据集成和互操作的元数据
      • 实施和监测
        • 启用已开发并通过测试的数据服务时,对实时数据处理过程需要实 时监控运行状况
    • 8.3 工具
      • 数据转换引擎/ETL工具
      • 数据虚拟化服务器
      • 企业服务总线
        • 企业服务总线(Enterprise Service Bus,ESB)既指软件体系结构模 型,又指一种面向消息的中间件,用于在同一组织内的异构数据存储、 应用程序和服务器之间实现近乎实时的消息传递
      • 业务规则引擎
      • 数据和流程建模工具
      • 数据剖析工具
      • 元数据存储库
    • 8.4 方法
      • 基本目标是保持应用程序松散耦合,限制开发和管理接口的数量,使用中心辐射形方法并创建标准规范的接口
    • 8.5 实施指南
      • 就绪评估/风险评估
        • 每个组织都有某种形式的数据集成和互操作解决方案。因此,就绪评估/风险评估应该围绕企业集成工具实现或增强允许互操作性能力来考虑。
      • 组织和文化变革
    • 8.6 数据集成和互操作治理
      • 概要
        • 业务利益相关方负责定义数据建模和转换规则,并应由他们批准对这些业务规则的任何更改
      • 分类
        • 数据共享协议
          • 该协议规定了交换数据的责任和可接受的使用用途,并由相关数据的业务数据主管批准
        • 数据集成和互操作与数据血缘
          • 数据血缘对于数据集成和互操作解决方案的开发非常有价值。
        • 度量指标
          • 1)数据可用性。请求数据的可获得性。2)数据量和速度。它包括:传送和转换的数据量,分析数据量,传送速度,数据更新与可用性之间的时延,事件与触发动作之间的时延,新数据源的可用时间。3)解决方案成本和复杂度。它包括:解决方案开发和管理成本,获取新数据的便利性,解决方案和运营的复杂度,使用数据集成解决方案的系统数量
  • 考察分值&知识点
    • 考察分值
      • 2分

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2197519.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

open3D release版配置及简单使用

open3D release版配置及简单使用 0 引言1 open3d库文件获取及配置到VS1.1 open3d库文件获取1.2 open3d库配置到VS 2 测试open3d库3 结语 0 引言 💻💻AI一下💻💻 Open3D是一个用于处理3D数据的开源库。它提供了一系列算法和工具&a…

职场中的人情世故,你懂了多少?

职场如战场,稍有不慎,满盘皆输。 职场如江湖,不是打打杀杀,而是人情世故。 成年人的世界里没有“容易”二字,我们也需要懂得哪些人情世故和。 职场上的各种光怪陆离现象,有很多职场人吐槽:“…

云岚到家,使用Elasticsearch实现服务的搜索功能,使用Canal+MQ完成服务信息与ES索引同步。MQ

为什么使用elasticsearch?数据很多么? 项目使用Elasticsearch是实现了门户上对服务的搜索。 平台上的服务数据是并不是很多,全国所有区域下的服务信息加一起几千条,之所以使用Elasticsearch是因为: 1、公司架构师在系统架构时…

九、5 USART串口数据包

数据包作用:把一个个单独的数据给打包起来,将同一批的数据进行打包和分割,方便接收方进行识别,方便我们进行多字节的数据通信。 1、串口收发HEX数据包 (1)数据包的格式是个人规定的,如以FF为包…

dotnet7==windows ZIP方式安装和web demo和打包

下载ZIP Download .NET 7.0 (Linux, macOS, and Windows) 解压 创建项目 mkdir MyWebApp cd MyWebApp "C:\Users\90816\Downloads\dotnet-sdk-7.0.317-win-x64\dotnet.exe" new webapp -n MyWebApp 运行项目 "C:\Users\90816\Downloads\dotnet-sdk-7.0.317-…

MySQL9的3个新特性

【图书推荐】《MySQL 9从入门到性能优化(视频教学版)》-CSDN博客 《MySQL 9从入门到性能优化(视频教学版)(数据库技术丛书)》(王英英)【摘要 书评 试读】- 京东图书 (jd.com) 本文讲解MySQL9的3个新特性&…

出国读研,是否有必要选择与自己本科专业相关的研究方向?

出国读研时,选择什么专业,是否选择与自己本科专业相关的方向,是很多同学会考虑的问题。事实上这个问题没有标准答案,取决于个人的职业目标、兴趣及市场需求等多方面因素。今天我们就这一问题展开讨论,希望能给即将出国…

【渗透测试】-OAuth授权框架-burp

文章目录 1.Lab: Authentication bypass via OAuth implicit flow  2.Lab: Forced OAuth profile linking 1.Lab: Authentication bypass via OAuth implicit flow 通过 Burp 代理流量时,单击“我的帐户”并完成 OAuth 登录过程。之后,您将被重定向回博…

信息安全工程师(39)防火墙防御体系结构类型

前言 防火墙防御体系结构类型多样化,每种类型都针对不同的安全需求和应用场景,提供不同层次的保护。 一、传统防火墙系统 包过滤防火墙 原理:通过检查进出网络数据包的头信息(如源IP地址、目的IP地址、源端口、目的端口和协议等&a…

数据结构-4.4.朴素模式匹配算法

一.专业术语: 注:子串和模式串有区别。 二.朴素模式匹配算法: 思路:在主串中找出所有与模式串长度相等的子串,与模式串进行比较,如果找到了,返回子串第一个字符在主串的位置 1.使用字符串的基本…

大龄焦虑?35岁码农逆袭之路:拥抱大模型时代,焕发职业生涯新活力!

前言 其实我很早就对大龄程序员这个话题感到焦虑,担心自己35岁之后会面临失业,有时和亲戚朋友聊天时,也会经常拿这个出来调侃。现在身边已经有很多35岁左右的同事,自己过两年也会步入35岁的行列,反倒多了一份淡定和从…

【C++ 11】for 基于范围的循环

文章目录 【 1. 基本用法 】【 2. for 新格式的应用 】2.1 for 遍历字符串2.2 for 遍历列表2.3 for 遍历的同时修改元素 问题背景 C 11标准之前(C 98/03 标准),如果要用 for 循环语句遍历一个数组或者容器,只能套用如下结构&#…

AtCoder Beginner Contest 373

D - Hidden Weights 题目&#xff1a; 思路&#xff1a; 代码&#xff1a; #include <bits/stdc.h> #define fi first; #define se second;using namespace std;typedef long long LL; typedef pair<int,int> PII;const int N2e510; const LL lnf0x3f3f3f3f3f3f3…

【JavaEE】【多线程】Thread类讲解

目录 Thread构造方法Thread 的常见属性创建一个线程获取当前线程引用终止一个线程使用标志位使用自带的标志位 等待一个线程线程休眠线程状态线程安全线程不安全原因总结解决由先前线程不安全问题例子 Thread构造方法 方法说明Thread()创建线程对象Thread(Runnable target)使用…

WPS Office从路径穿越到远程代码执行漏洞(CVE-2024-7262)分析与复现

漏洞概述 WPS Office程序promecefpluginhost.exe存在不当路径验证问题&#xff0c;允许攻击者在Windows上加载任意Windows库文件。该漏洞已被APT-C-60攻击者利用&#xff0c;当用户打开MHTML格式的文档时&#xff0c;只需单击一个恶意制作的超链接&#xff0c;即可执行攻击者指…

【C++】map详解

&#x1f4e2;博客主页&#xff1a;https://blog.csdn.net/2301_779549673 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01; &#x1f4e2;本文由 JohnKi 原创&#xff0c;首发于 CSDN&#x1f649; &#x1f4e2;未来很长&#…

如何实现小红点

文章目录 1. 概念介绍2. 实现方法3 示例代码我们在上一章回中介绍了WebView组件相关的内容,本章回中将介绍如何在图标旁边添加小红点.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 在实际项目中有时候需要在图标旁边显示小红点,而且小红点内还有数字,比如购物车图标显…

Android阶段学习思维导图

前言 记录下自己做的一个对Android原生应用层的思维导图&#xff0c;方便个人记忆扩展&#xff1b;这里只露出二级标题。 后语 虽然有些内容只是初步了解&#xff0c;但还是记录了下来&#xff1b;算是对过去一段学习的告别。

全体起立!CEEMDAN-Kmeans-VMD-CNN-Attention双重分解+卷积神经网络注意力机制多元时间序列预测

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现CEEMDAN-Kmeans-VMD-CNN-Attentionr融合K均值聚类的数据双重分解卷积神经网络注意力机制多元时间序列预测&#xff08;完整源码和数据&#xff09; 2.CEEMDAN分解&#xff0c;计算样本熵&#xff0c;根据…

Arduino UNO R3自学笔记23 之 Arduino如何使用4511控制数码管?

注意:学习和写作过程中,部分资料搜集于互联网,如有侵权请联系删除。 前言:因为7段数码管控制需要用到7个IO,这会严重占用Arduino的IO口,因此我们采用现有IC来节省Arduino的IO口。 1.CD4511介绍 CD4511是一款用于驱动共阴极LED(数码管)显示器的BCD码-七段码译码器。它…