关于数据挖掘和数据集成?

news2024/11/16 11:57:28

按照数据的生命周期,我们通常将大数据技术分为数据集成、数据存储、批流处理、数据查询与分析、数据调度与编排、数据开发、BI 7 个部分。

可以看到数据集成在数据生命周期最前面的位置,它负责将多个来自不同数据源的数据聚合存放在一个数据存储中(如数据仓库/数据湖),组合为用户提供单一统一视图,可以兼顾数据的增长量及所有不同的格式,合并所有类型的数据方便了后续的数据分析和挖掘工作。

了解数据过程的朋友应该知道,大数据项目中 90% 甚至更多的工作是和数据集成相关,数据集成有广泛的含义,包括数据清洗、数据抽取、数据转换、数据同步复制等操作。因此数据集成在数据工作中也相当重要,也可以侧面回答题主的问题,为什么数据集成可以单独出书。小亿今天也想和大家聊聊关于数据集成的那些事。

一、相关概念

1.数据集成概念

信息资源建设存在阶段性和分布性的特点,造成“信息孤岛”的存在,影响数据的整体性与一致性,从而导致数据的协同性和利用率降低,影响数据作用的发挥,由此,数据集成的研究受到广泛重视。

数据集成是对数据源进行融合,把不同来源、格式、特点、性质的数据在逻辑上或物理上有机地集中,通过集成将自治异构数据源结合起来,为用户提供统一的集成数据视图,揭示数据之间的联系,挖掘其潜在价值,从而为用户提供集中管理与全面数据共享的条件。

数据集成过程

2.数据集成的方法

(1)基于元数据方法

元数据是关于数据的数据,是描述本体的内容、结构、背景及其整个管理过程的数据。基于元数据方法的数据集成,是运用元数据对数据资源进行描述,完成多个异构数据源之间的信息交换、集成、同步等操作,实现异构数据资源整合利用。元数据方法通过编写受控词表,确定元数据语义描述标准,设置元数据语义化映射模式,对不同系统的数据进行集成。然后按照一定的映射规则将自己的元数据记录转换成中心元数据存储在数据库中。

元数据方法能够很好地体现档案数据元素之间的语义关系,按照元数据组织信息资源的功能分为:知识描述元数据、结构元数据、访问控制元数据和评估元数据。根据不同的功能需求建立相应的词表对特定领域的档案数据共享具有参考价值和指导意义。但是也存在一些局限性:元数据所提供的数据描述信息不够完备,数据处理过程、数据使用说明、数据来源及引用信息等需要借助完整的数据文档提供。为了涵盖尽可能多的知识,元数据的条目越来越多,而且不同行业领域的元数据标准各异,导致数据源之间的互访困难。不同格式类型和专业领域的档案数据采用不同的元数据标准,由于缺乏跨领域共享概念模型的支持,元数据方法无法实现不同领域之间异构档案数据的语义集成。

(2)基于语义本体的方法。

在信息科学领域,本体是对某一领域中的概念及其之间关系,运用机器可读的语义表达方式进行显性描述,通过构建领域本体建立各数据源之间的映射关系网络。基于语义本体的数据集成系统,用户能够通过对本体描述有效访问多个数据源中的数据。目前基于本体技术的数据集成的方式主要分为:单本体、多本体、混合本体方法三种模式。值得注意的是,档案语义本体具有显著的实践性和客观性,能够建立实践属性突出的语义本体体系。

(3)基于关联数据方法。

关联数据对代表同一过程来自不同局部节点的数据进行关联,它采用RDF数据模型,使用统一资源标识符(URI)命名数据对象,描述数据对象及其关联关系和语境信息,通过HTTP协议发布和共享数据、知识,构成人和机器都能够获取的数据关联网络。

关联数据集的构建是一个繁杂、系统工程,将多源异构的数据通过关联数据的方式对数据和知识进行再组织,使之形成关联化、结构化、有序化语义信息,运用字典或语义库的属性列(“属性列是以关系数据库中的特征/列为单位进行数据存储,将具有相同特征值的实体存储在一起,而某一实体中的不同属性值则存储于不同的存储单元中。”)语义匹配、利用属性列内容相似性判断和使用朴素贝叶斯学习算法计算属性列相似概率等方法发现实体之间的关联。

3.数据集成的技术

(1)开放网格服务架构下的数据访问与集成技术。

OGSA-DAI是一种广泛使用在网格中集成数据资源的中间件。其中网格是集成基础设施,能够在动态、分布式虚拟组织中共享和协同各种数据资源,数据网格作为一种数据处理架构,实现了网格环境中的数据访问、交换和共享。其通过将关系数据库、XML数据库以及文件系统等不同数据源中的异构科学数据封装为网格服务并构建数据网格。分布式数据资源的格式、模式、质量、访问机制、功能是多种多样的,通过数据网格能够在数据受控和安全的前提下,实现大量异构数据集的协调与共享。

OGSA-DAI技术可以在尊重本地策略的情况下跨特定域使用计算资源,通过备份数据的方法提高可靠性、可用性。其次,提供了一站式访问异构数据资源的方式,提高数据集成工作的效率。同时,允许数据提供者保留对原始数据的控制,保证了数据的安全性。

(2)人工智能技术。

人工智能是计算机系统正确地解译外部数据,从这些数据中进行学习,并通过灵活运用所学知识实现特定目标或完成特定任务的能力。涉及的技术较多,如利用机器学习、数据挖掘、知识图谱等呈现数据资源的全景视图。利用统一的资源描述框架描述多模态的数据资源,然后利用基于知识库与本体库的双向嵌入式学习、迁移学习方法挖掘和抽取数据资源中的知识,将多源异构数据和知识从概念层和实例层进行对齐,融合到一个全局视图的全景化知识图谱中。

人工智能技术具备高维非结构化数据分析处理能力,基于人工智能技术的科学数据集成方法具有高效构建科学数据关系网络和挖掘科学数据关联资源的优势,可以实现大规模多源异构科学数据的融合管理。人工智能虽然在技术成熟度和应用生态方面存在不足,但随着技术的发展和应用的深入,人工智能将成为今后数据集成的主流技术。

(3)开源软件技术。

开源软件是允许用户根据开源许可证及其协议要求,自由使用、修改和分发软件的源代码。开源软件为数据集成提供了低成本、高效率的技术工具,但是很多开源软件没有可视化操作界面,而且需要二次开发适用的插件,技术要求和开发成本较高,并且经过二次开发的开源软件其通用性和重用性较差。

二、价值作用

数据集成可以说是现代企业改善战略决策和提高竞争优势的必要条件。随着数据、云计算相关系列技术的爆炸式增长,企业如果建立数据集成计划,便能更有效地分析处理数

1.改善现有系统的协作和统一

几乎每个部门的员工都在生成和改进其他业务所需的数据,也就对于访问公司共享数据和个人项目数据有了需求,因此就需要一个安全的解决方案,通过所有业务线的自助服务访问来提供数据,用以解决公司不同组织间的协作和统一问题。

2.节省时间

当公司采取措施正确整合其数据时,这将会大大减少准备、分析数据所需的时间。数据集成的统一视图自动化消除了手动收集数据的需要,员工就无需在需要运行报表或构建应用程序时从头开始建立连接。

这样,在这些任务中节省的时间就可以更多地用于分析和执行,以使组织更具生产力和竞争力。此外,使用正确的工具,而不是手动编写集成,除了节约时间之外,还可以为开发团队节省更多的资源。

3.减少错误(和返工)

关于公司的数据资源,如果需要手动收集,员工就必须要知道他们可能需要探索的每个位置和帐户,并在开始之前安装所有必需的软件,以确保他们的数据集完整和准确。如果添加了数据存储库,并且该员工不知情,那么最终的数据集必定将会是不完整的。

此外,如果没有同步数据的数据集成解决方案,则必须定期重新报告以应对任何更改。如果通过数据集成工具自动更新,可以在需要时实时轻松地运行报告。

4.提供更有价值的数据

数据集成工作实际上会随着时间的推移提高业务数据的价值。随着数据集成到集中式系统中,可以识别质量问题并实施必要的改进,最终产生更准确的数据质量分析的基础。

企业进行数据集成后,对数据进行处理,通过大数据分析后就会形成正确有效的方案,从而为企业创造更多的利润价值,进而为社会做出贡献。

但是,目前在大数据处理这一环节上,企业对大数据治理体系缺乏清晰地了解,数据治理专业人员也比较匮乏,而且目前持有数据治理证书的人更是少之又少。

三、具体应用

1.数据集成的业务场景

数据集成服务的常用业务场景如下:

同构/异构数据源间的同步:用户的原始数据需要转移存储,或利用目标存储系统的查询、分析能力,如 Hive 数据、本地数据需要同步到 Snowflake、Clickhouse 等做快速查询;

数据上云:用户需要把云下的数据快速安全的迁移到云上存储并做进一步的业务分析,如线下 MySQL、Postgre 等到云上 RDS。

基于这些场景,数据集成一直以来都扮演着数据搬运工的角色,为各种各样的数据同步需求提供了强大高效的解决方案。

2、数据集成案例

亿信华辰的仓湖一体大数据中心建设方案涵盖了数据存储、数据集成、数据交换、数据共享等方面,综合数据湖、数据仓库两种技术演进方向,为企业用户提供云原生仓湖一体解决方案,小亿也以亿信华辰曾经建设的案例为例为大家讲解。

亿信华辰曾帮助某能源集团建设了煤矿风控大数据平台。煤炭企业工业互联网数据包含大量传感器和视频等非结构化数据,本项目通过仓湖一体化建设方案,实现工业务链和设备数据的实时采集存储,基于业务流程搭建数据湖对感知数据、视频数据、关系型数据等多元数据进行分类存储,解决数据互联互通和实时利用的问题,实现智能预警与精准防控。


数据集成是消除企业信息孤岛,实现数据共享,是现代数据技术栈成功的关键。同时, 数据集成还可以让企业的应用、流程、系统、组织和人员等关键要素都协同起来,提高企业业务效率,进而助力企业高效数字化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/452406.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分布式任务调度框架Power-Job

分布式任务调度框架的由来及对比 在大型业务业务系统中,不可避免会出现一些需要定时执行需求的场景,例如定时同步数据,定时清洗数据,定时生成报表,大量机器一同执行某个任务,甚至有些需要分布式处理的任务…

中继器+js组件化GIS地图

虽然可以使用JavaScript注入的方式将GIS地图嵌入Axure,但每次使用地图都需要重复嵌入并修改代码,不太方便。那么,能不能实现组件化呢?我们可以使用中继器(repeater)将常用的地图参数提取出来,通…

力扣题库刷题笔记406-根据身高重建队列

1、题目如下: 2、个人Python代码实现 这里需要单独备注一下截图中第21行代码: 上图可以看到,已经对[5, 2]等元素进行了遍历循环,且[5, 2]左侧确实只存在[7, 0][6, 1]两个元素身高高于他,但是继续[5,0]循环完成后&#…

@Async异步线程:Spring 自带的异步解决方案

前言 在项目应用中,使用MQ异步调用来实现系统性能优化,完成服务间数据同步是常用的技术手段。如果是在同一台服务器内部,不涉及到分布式系统,单纯的想实现部分业务的异步执行,这里介绍一个更简单的异步方法调用。 对于…

FreeRTOS - 计数信号量

一.任务功能 1、修改按键功能,模拟停车位出入功能 2、当按键按下 获取车位 3、当按键抬起 释放车位 二.API接口 函数原型SemaphoreHandle_t xSemaphoreCreateCounting( ①UBaseType_t uxMaxCount,②UBaseType_t uxInitialCount );功能概述创建计数信号量&#xff0c…

详解空气质量API 使用

引言 空气污染是当今世界面临的一大环境问题,而空气质量监测数据是制定环境政策和公众健康计划的重要依据。通过提供空气质量查询 API,开发人员可以方便地获取中国境内多个城市的空气质量数据,从而更好地监测和管理空气质量。 本文将介绍的…

Redis入门学习笔记【一】

目录 一、redis是什么 二、Redis数据结构 2.1 Redis 的五种基本数据类型 2.1.1String(字符串) 2.1.2字符串列表(lists) 2.1.3字符串集合(sets) 2.1.5哈希(hashes) 2.2 Red…

设计模式详解-软件设计(五十六)

原创 真题详解(UML图)-软件设计(五十五)https://blog.csdn.net/ke1ying/article/details/130311994 创建型、结构型、行为型 抽象工厂(Abstruct Factory) 提供一个创建系列相关或相互依赖的接口,无须指定他们具体的类。 适用于&…

07-Node.js—包管理工具

目录 1、概念介绍1.1 包是什么1.2 包管理工具1.3 常用的包管理工具 2、npm2.1 npm 的安装2.2 npm 基本使用2.2.1 初始化2.2.2 搜索包2.2.3 下载安装包2.2.4 require 导入 npm 包基本流程 2.3 生产环境与开发环境2.4 生产依赖与开发依赖2.5 全局安装2.5.1 修改 windows 执行策略…

CorelDRAW 2023版本更新内容及安装详细教程

这里是CorelDRAW 2023版本更新内容及安装详细教程: CorelDRAW 2023是最新更新版本,在界面和功能上做了较大提升与优化: 1. 简洁界面:采用全新设计界面,简约而不简单。菜单和工具栏进行了整合与重组,更加直观。拥有自动标记和提示,易于上手使用。 2. 全新工作空间:提供“轻量…

Qt — Graphics/View框架

文章目录 前言一、Qt图形系统介绍二、Graphics/View框架 前言 Qt的Graphics/View框架被用来存放、显示二维图形元素,处理那些对图形元素进行操作的交互命令。 一、Qt图形系统介绍 Qt 应用程序的图形界面包含各种控件,比如窗口、按钮、滚动条等。所有这…

三谈ChatGPT(ChatGPT可以解决问题的90%)

这是我第三次谈ChatGPT,前两篇主要谈了ChatGPT的概念,之所以火的原因和对人们的影响,以及ChatGPT可能存在的安全风险和将面临的监管问题。这一篇主要讲讲ChatGPT的场景和处理问题的逻辑。 这一次我特意使用了ChatGPT中文网页版体验了一番。并…

3个月,从功能测试进阶到自动化测试涨薪10k,我悟了....

因为我最近在分享自动化测试技术,经常被问到: 功能测试想转自动化,请问应该怎么入手?有没有好的资源推荐? 那么,接下来我就结合自己的经历聊一聊我是如何在工作中做自动化测试的。(学习路线和…

EIGRP配置 路由过滤和汇总,以及默认路由

1.4.1 实验目的 通过对 EIGRP 路由过滤,汇总以及默认路由配置的实验的练习,从而掌握 EIGRP 路由过 滤的方法,EIGRP 路由汇总的方法和作用,以及如何为 EIGRP 配置默认路由。 1.4.2 实验拓扑 1.4.3 实验步骤 配置 R1&#xff0c…

【深度学习】计算分类模型的分类指标,计算accuracy_top-1、accuracy_top-5、precision、recall和f1_score

计算accuracy_top-1、accuracy_top-5、precision、recall和f1_score: (1)accuracy_top-1 np.sum(np.argmax(preds, axis1) np.argmax(actual, axis1)) / actual.shape[0] accuracy_top-1指标是假设预测数据中,最大值的index就是…

自动控制原理模拟卷8

自动控制原理模拟题八 Question1 求解以下电网络和机械系统的传递函数,并证明下图的电网络和机械系统有相同的数学模型。 解: 【图 ( a ) ({\rm a}) (a)系统传递函数】 根据复数阻抗的方法可得电网络的传递函数为:

为啥运维人员更喜欢 NeoVim 而不是 Vim?这8个原因或许是答案,命令对比一目了然!

在 Linux 系统中,编辑器是开发和系统管理的必备工具。而在众多编辑器中,Vim 作为一款经典的文本编辑器,一直备受欢迎。然而,随着时间的推移,NeoVim 的出现逐渐成为了 Linux 运维人员的首选。那么,为什么 Li…

Opencv+Python笔记(七)边缘检测原理

注意:梯度计算总是由右边减去左边 目录 一、边缘检测原理二、Sobel算子(基于搜索)三、Laplacian算子(基于零穿越)四、Candy边缘检测算法1.消除噪声2. 计算图像的亮度梯度值3.减除虚假边缘(非极大值抑制NMS&#xff09…

OSCP-Sirol(docker容器到宿主机)

目录 扫描 WEB 提权 扫描 sudo nmap 192.168.64.54 -p- -sS -sVPORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 7.4p1 Debian 10+deb9u7 (protocol 2.0) 53/tcp closed domain 80/tcp open http Apache httpd 2.4.25 ((Debian)) 3306…

Spring更简单的存取方法

Spring存对象 在Spring的创建和使用篇章里,提到了用bean标签来将对象标识到Spring里面,但是这样的方法过于麻烦,下面我们来介绍使用类注解来存储对象。 五大类注解存对象 Spring里面有五大类注解: Controller、Service、Repos…