- 课本内容
- 8.1 引言
- 概要
- 数据集成和互操作(DII)描述了数据在不同数据存储、应用程序 和组织这三者内部和之间进行移动和整合的相关过程
- 数据集成和互操作是新兴大数据管理领域的核心
- 业务驱动因素
- 数据集成和互操作的主要目的是为了对数据移动进行有效的管理
- 维护管理成本
- 语境图
- 图8-1 语境关系图:数据集成和互操作
- 目标和原则
- 目标
- 1)及时以数据消费者(人和系统)所需的格式提供数据。
- 2)将数据物理地或虚拟地合并到数据中心。
- 3)通过开发共享模型和接口来降低管理解决方案的成本和复杂度。
- 4)识别有意义的事件(机会和威胁),自动触发警报并采取相应行动。
- 5)支持商务智能、数据分析、主数据管理以及运营效率的提升。
- 原则
- 1)采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现。
- 2)平衡本地数据需求与企业数据需求,包括支撑与维护。
- 3)确保数据集成和互操作设计和活动的可靠性。业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性。
- 目标
- 基本概念
- 抽取、转换和加载
- 抽取
- 转换
- 转换例子
- 格式变化
- 技术上的格式转换,如从EBCDIC到ASCII的格式转换。
- 结构变化
- 数据结构的变化,如从非规范化到规范化的记录。
- 语义变换
- 消除重复
- 如规则需要唯一的键值或记录,以确保包括扫描目标、检测和删除重复行的方法。
- 重新排序
- 改变数据元素或记录的顺序以适应已定义的模式。
- 格式变化
- 转换例子
- 加载
- ELT
- 映射
- 映射(Mapping)是转换的同义词,它既是从源结构到目标结构建 立查找矩阵的过程,也是该过程的结果。
- 时延
- 时延(Latency)是指从源系统生成数据到目标系统可用该数据的时间差
- 延时分类
- 批处理
- 事件驱动
- 准实时数据集成解决方案通常是使用企业服务总线来实现
- 实时处理
- 变更数据捕获
- 变更数据捕获是一种通过增加过滤来减少传送带宽需求的方法,只 包含在特定时间范围内更改过的数据
- 有三种基于数据的变更数据捕获技术
- 源系统填入特定的数据元素
- 源系统进程在更改数据时被添加到一个简单的对象和标识符列 表,然后用于控制抽取数据的选择
- 源系统复制已经变化的数据
- 异步
- 实时,同步
- 低延迟或流处理
- 复制
- 复制解决方案通常监视数据集的更改日志,而不是数据集本身。因为它 们不会与应用程序竞争访问数据集,所以它们可以最大限度地减少对任 何操作应用程序的影响
- 当源数据集和目标数据集是彼此的精确副本时,复制工具的表现最 佳
- 归档
- 不经常使用的数据可以移动到对组织成本较低的备用数据结构或存 储解决方案中
- 监控归档技术非常重要,要确保在技术发生改变时,数据仍然可以 被访问
- 企业消息格式/规范格式
- 规范化的数据模型是组织或数据交换团队使用的通用模型,用于标 准化数据共享的格式
- 交互模型
- 交互模型描述了在系统之间建立连接以传送数据的方式
- 分类
- 点对点
- 影响处理
- 管理接口
- 潜在的不一致
- 中心辐射模型
- 数据仓库、数据集 市、操作数据存储和主数据管理中心都是数据中心的最佳示范
- 企业服务总线(Enterprise Service Bus,ESB)是用于在多个系统之 间接近实时共享数据的数据集成解决方案
- 发布与订阅
- 点对点
- 数据集成和互操作架构概念
- 应用耦合
- 耦合描述了两个系统交织的程度
- 编排和流程控制
- 编排(Orchestration)是一个术语,用来描述在一个系统中如何组织和执行多个相关流程。所有处理消息或数据报的系统,必须能够管理这些流程的执行顺序,以保持一致性和连续性。
- 流程控制是确保数据的调度、交付、抽取和装载的准确和完整的组件。
- 企业应用集成
- 企业服务总线
- 企业服务总线(Enterprise Service Bus,ESB)是一个系统,它充当系统之间的中介,在它们之间传送消息
- 面向服务的架构
- 复杂事件处理
- 复杂事件处理(Complex Event Processing,CEP)将多个来源的数据进行合并,通过识别出有意义的事件(如机会或威胁),为这些事件设置规则来指导事件处理及路由,进而预测行为或活动,并根据预测的结果自动触发实时响应,如推荐消费者购买产品。
- 数据联邦和虚拟化
- 数据联邦(Data Federation)提供访问各个独立数据存储库组合的权限
- 数据虚拟化(Data Virtualization)使分布式数据库以及多个异构数据存储能够作为单个数据库来访问和查看
- 数据即服务
- 从供应商获得许可并按需由供应商提供数据,而不是存储和维护在被许可组织数据中心的数据。
- 应用耦合
- 云化集成
- 云化集成,也称为集成平台即服务或IPaaS,是作为云服务交付的一种系统集成形式。用它处理数据、流程、面向服务架构(SOA)和应用集成。
- 数据交换标准
- 数据交换标准是数据元素结构的正式规则
- 抽取、转换和加载
- 概要
- 8.2 活动
- 规划和分析
- 定义数据集成和生命周期需求
- 执行数据探索
- 记录数据血缘
- 剖析数据
- 理解数据的内容和结构是实现数据集成成功的关键
- 基本剖析
- 1)数据结构中定义的数据格式和从实际数据中推断出来的格式。2)数据的数量,包括null值、空或默认数据的级别。3)数据值以及它们与定义的有效值集合的紧密联系。4)数据集内部的模式和关系,如相关字段和基数规则。5)与其他数据集的关系。
- 基本剖析
- 理解数据的内容和结构是实现数据集成成功的关键
- 收集业务规则
- 业务规则是需求的一个关键子集,是定义或约束业务处理方面的语句
- 业务规则分为四类:业务术语定义、相互关联的术语的事实、约束或行为断言以及派生。
- 设计数据集成解决方案
- 设计数据集成解决方案
- 选择交互模型
- 确定哪个交互模型或组合将满足需求——中心辐射型、点到点或发 布订阅
- 设计数据服务或交换模式
- 创建或重用现有的集成流来移动数据
- 选择交互模型
- 建模数据中心、接口、消息、数据服务
- 映射数据源到目标
- 设计数据编排
- 数据集成解决方案中的数据流必须做好设计和记录
- 设计数据集成解决方案
- 开发数据集成解决方案
- 开发数据服务
- 开发数据流编排
- 制定数据迁移方法
- 制定发布方式
- 开发复杂处理流
- 维护数据集成和互操作的元数据
- 实施和监测
- 启用已开发并通过测试的数据服务时,对实时数据处理过程需要实 时监控运行状况
- 规划和分析
- 8.3 工具
- 数据转换引擎/ETL工具
- 数据虚拟化服务器
- 企业服务总线
- 企业服务总线(Enterprise Service Bus,ESB)既指软件体系结构模 型,又指一种面向消息的中间件,用于在同一组织内的异构数据存储、 应用程序和服务器之间实现近乎实时的消息传递
- 业务规则引擎
- 数据和流程建模工具
- 数据剖析工具
- 元数据存储库
- 8.4 方法
- 基本目标是保持应用程序松散耦合,限制开发和管理接口的数量,使用中心辐射形方法并创建标准规范的接口
- 8.5 实施指南
- 就绪评估/风险评估
- 每个组织都有某种形式的数据集成和互操作解决方案。因此,就绪评估/风险评估应该围绕企业集成工具实现或增强允许互操作性能力来考虑。
- 组织和文化变革
- 就绪评估/风险评估
- 8.6 数据集成和互操作治理
- 概要
- 业务利益相关方负责定义数据建模和转换规则,并应由他们批准对这些业务规则的任何更改
- 分类
- 数据共享协议
- 该协议规定了交换数据的责任和可接受的使用用途,并由相关数据的业务数据主管批准
- 数据集成和互操作与数据血缘
- 数据血缘对于数据集成和互操作解决方案的开发非常有价值。
- 度量指标
- 1)数据可用性。请求数据的可获得性。2)数据量和速度。它包括:传送和转换的数据量,分析数据量,传送速度,数据更新与可用性之间的时延,事件与触发动作之间的时延,新数据源的可用时间。3)解决方案成本和复杂度。它包括:解决方案开发和管理成本,获取新数据的便利性,解决方案和运营的复杂度,使用数据集成解决方案的系统数量
- 数据共享协议
- 概要
- 8.1 引言
- 考察分值&知识点
- 考察分值
- 2分
- 考察分值