99页4万字XX大数据湖项目建设方案

news2024/11/24 19:09:14

目  录

1. 项目综述

1.1. 项目背景

1.2. 项目目标

1.3. 项目建设路线

2 需求分析

2.1功能需求

2.1.1 统一数据接入

2.1.2 数据迁移

2.1.3 数据范围与ETL

2.1.4 报表平台

2.1.5 安全管理

2.1.6 数据治理

2.2非功能需求

2.2.1运维保障需求

2.2.2可用性需求

2.2.3可靠性需求

2.2.4性能需求

2.3需求总结

3 整体解决方案

3.1 数据湖整体方案

3.1.1硬件部署方式

3.1.2基于CDH的数据湖软件部署

3.1.3数据ETL及数据接口开发方案

3.1.4沙盒管理

3.1.5多租户管理

3.2报表平台整体方案

3.2.1系统设计原则

3.2.2数据分析场景

3.2.3业务需求建议

3.2.4系统逻辑架构

3.2.5技术方案特点

3.2.6其它特性

3.2.7  报表平台具体实施步骤:

3.3数据仓库整体方案

3.3.1数仓的定义

3.3.2 数据仓库的特点

3.3.2 数据仓库具体实施步骤

3.4数据治理整体方案

3.4.1主数据管理实施

3.4.2元数据管理实施

4  企业版功能和特性

4.1  CDH核心套件

4.1.1 分布式文件系统HDFS

4.1.2 分布式数据库HBase

4.1.3 统一资源管理和调度框架YARN

4.1.4 分布式批处理引擎MapReduce

4.1.5 分布式内存计算框架Spark

4.1.6 数据仓库组件Hive

4.1.7 安全管理组件 Sentry

4.1.8 隐私保护

4.1.9 统一用户体验工具 HUE

4.1.10 元数据管理Metastore&HCatalog

4.1.11 高性能数据分析MPP引擎 Impala

4.1.12 数据导入导出工作Sqoop

4.1.13 消息处理总线Kafka

4.2  Manager集群管理组件

4.3  Navigator数据管理组件

5 项目建设

5.1项目实施计划

5.1.1项目实施服务

5.1.2人员构成

5.2验收说明

5.2.1验收依据

5.2.2验收内容和方式

5.3项目风险评估

6 6项目培训

6.1   培训服务简介

在线学习资源

6.2  标准课程简介

Hadoop集群管理课程

Hadoop技术开发课程

Hadoop数据分析课程

培训课程优势

培训质量保障

培训计划定义

6.3智慧企业大数据应用、管控、展示一体化云数据湖维护培训

7售后技术支持服务

7.1提供全程技术支持

7.2全周期技术支持

7.3协调原厂支持

7.3.1全周期的技术支持

7.3.2技术支持种类

7.3.3远程支持

7.3.4服务支持策略

7.4主动技术支持

7.5预测技术支持

7.6知识库

1.1. 项目建设路线

第一期:建设企业数据湖,梳理企业应用系统内部的业务数据类型,数据量;将结构化、非结构化数据打标签导入数据湖中心湖中,构建视频池、文本池和应用池分类。对某些应用场景构建BI报表分析。

第二期:建立主数据管理和数仓,ETL规范和流程,数据安全管理,数据可视化管理,数据监控的管理。梳理数据湖使用人员的角色和权限,对数据湖进行基于业务需求场景的多租户管理。根据业务的微服务化,逐步构建企业大数据微服务平台,细粒度的平台资源管理。

第三期:数据的深化应用,一体化管控数据标准和数据治理,深化主数据消费和应用。逐步将应用的数据来源迁移至数据湖中,形成数据应用平台、数据挖掘和BI报表平台,人工智能和机器学习平台。

2 需求分析

2.1功能需求

数据湖的应用、管控、展示为一体,提供标准的服务和数据接口和报表展现方式。数据湖数据采用高效,可靠的存储架构。企业业务数据制订迁移方案,将ERP系统、数据采集系统、OA系统、视频监控系统、云商系统中存储的核心数据,整体迁移至数据湖,非弹性资源实行本地化部署,对于弹性计算功能,需与算法数据湖进行协同计算。以实现核心数据可控,消除安全问题和潜在未知风险。支持可视化建模,支持鼠标拖拽方式进行人工智能算法建模。包括数据预处理、特征工程、算法模型、模型评估和部署等功能支持快销业务领域的预测预警等多种类型的算法应用,包括逻辑回归、K近邻、随机森林、朴素贝叶斯、K均值聚类、线性回归、GBDT二分类、GBDT回归等算法模型,也支持深度学习等人工智能训练模型。展示层通过统一的商业BI报表组件,多维度,动态的展示各业务系统的运行状况,资源使用情况等。并支撑周期性或临时性生成各业务状况,决策数据展示,故障分析挖掘等业务场景。

b168d0c6548f59b7becc76ebb3c27333.jpegx x数据湖架构图

文件中心:

主要用于存储各种格式文件,包括影像文件,视频音频文件,PDF,Office文件等类型文件,提供文件级别的全文检索,文 件发布,文件共享,文件提取等功能。提供文件权限管理,版本管理,历史版本恢复等管理功能。

文件中心中文件内容可以经由ETL过程与日志中心,数据中心交换融合数据,共同参与数据处理,数据挖掘,机器学习,影像分析等工作。

日志中心:

收集各类日志数据,物联数据等实时数据,由流处理引擎实时处理数据,确保在第一时间分析处理数据,做到实时监控,  实时告警。

经处理的实时数据可与文件中心,数据中心的数据融合,共同参与数据分析等工作。

结构化数据中心:

实时(或批量)获取数据库或其他介质中的架构化数据,借助Hadoop/Spark等强大的处理能力,高效处理各类数据。

有效结合文件中心,日志中心中的数据共同参与数据分析,数据挖掘。

支持百亿级数据Cube,做到海量数据亚秒级多维度查询。

标准SQL输出接口,支持不断升级的需求以及二次开发。622a24103bc23879337c4ab4c1c1ea84.jpeg

文章引用的资料均通过互联网等公开渠道合法获取,仅作为行业交流和学习使用,并无任何商业目的。其版权归原资料作者或出版社所有,本文作者不对所涉及的版权问题承担任何法律责任。若版权方、出版社认为本文章侵权,请立即通知作者删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/14110.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MQTT 具备那些特征?

目录 1、MQTT 中的 QoS(消息服务质量) (1)为什么服务质量(QoS)很重要? (2)QoS 在 MQTT 中是如何工作的? (3)如何选择正确的 QoS 级别 (4&a…

Java开发中Word转PDF文件5种方案横向评测

Java开发中Word转PDF文件5种方案横向评测 前段时间接了个项目,需要各种处理Word模板、转PDF、签章等等,非常头疼,其中光是一个word转PDF就折磨我好久,实现转换很简单,但是效果总是达不到满意,于是我把市面…

【Linux】关于普通用户无法使用sudo指令的解决方案

文章目录前言解决方案结语前言 在这篇博客中,测试 rm -rf 删除文件时无视权限暴力删除的效果时,使用了 sudo 指令。 但是sudo指令是不能直接使用的,需要修改一些设置。 当时我遇到这个问题时,困惑了许久,查找解决方…

JVM执行引擎

文章目录学习资料执行引擎概述工作过程Java代码编译和执行的过程什么是解释器(Interpreter),什么是JIT编译器?为什么说Java是半编译半解释型语言?机器码、指令、汇编语言、高级语言机器码指令指令集汇编语言高级语言字…

UE5实现PS图层样式投影效果

一、PS图层样式投影效果 1、创建材质函数 MF_PS_Style_Shadow 公开到库(可选) 定义 function input。 Shadow代码: /** PS图层样式投影效果param {UVs} texture coordinateparam {TextureObject} texture objectparam {TextureSize} …

十、children的深入用法-React.Children对象上的方法

目标 理解什么是children掌握React.Children对象上的方法 知识点 什么是children上图中我们看到了,我们之前学过的React.createElement方法,现在大家发现jsx的内容,全部都体现在了该方法上;那么React.createElement其实是有三个…

专精特新企业数据集两份数据

专精特新企业数据集 一、三批专精特新上市、非上市公司数据分布 1、时间截止至2021年8月 2、区域范围:上市和非上市公司两大板块,涵盖申万一级行业 3、指标说明: 包含如下内容:专精特新上市公司名单汇总、第一批专精特新上市公…

opencv 入门学习

opencv 演示 输入说明 原图在顶层后然后再去按键,不然会失效(未知原因) 1.roberts 边缘检测 2.sobel算子 3.Canny算子 4.Laplace算子 5.Canny算子,轮廓显示 空格 人脸检测准备一张图片效果 默认显示原图和灰阶图 roberts 边缘…

MySQL版本号6和7去哪了

问题 MySQL版本号6和7去哪了 详细问题 笔者起初误以为MySQL版本号6和7可能由于存在诟病不受欢迎或由于MySQL版本迭代过快导致未能在市场上流行 但是在浏览MySQL官网注意到 MySQL在2017年发布了新的版本8.0,但是在此之前的上一一个版本是5.7,40,那么中间的6和7去哪…

并发编程永远绕不开的难题,跟着大牛带你Java并发编程从入门到精通

我们知道,很多框架或者自研组件的底层,都或多或少涉及到并发编程方面的技术点。 比如:在一些本地缓存组件中,当本地缓存过期后,需要从数据库加载数据,这个阶段中就会涉及到线程并发请求的处理;在…

微信小程序云开发

概念 小程序云开发,让前端程序员拥有后端的能力云函数 (nodejs)云数据库 (mogodb)云存储前端写好云函数 > 上传到云服务器 >实现自定云部署前端去调用云函数>间接通过云函数对数据库的操作前端>全栈 注意…

DSP之寄存器映射和CDM文件

DSP之寄存器映射和CDM文件 RAM:程序运行速度快,关掉电源,程序会丢失。 Flash:程序运行速度慢,关掉电源,程序不会丢失。 所以,程序一般存到Flash中,在运行的时候,由CPU将…

2010-2019年208个地级市城乡收入差距泰尔指数

2010-2019年208个地级市城乡收入差距泰尔指数 1、数据来源:各省的统计NJ以及部分地级市的NJ(主要是地级市的城镇化率) 城镇化率为常驻人口城镇化率而非户籍人口城镇化率。附件中也包含各个地级市的城镇化率,农村人均可支配收入2…

Linux开发工具(1)——yum

文章目录软件包管理器 —— yum安装软件的三个问题Linux开源生态yum查找软件yum下载软件yum删除软件配置yum源Linux下的工具本质也是指令 , 下面我会介绍几个常用的工具 , 分别是yum(相当于是手机上的应用商店 , 可以在里面下载工具 ) vim(多模式编辑器)…

【毕业设计】深度学习行人车辆流量计数系统 - 目标检测 python

文章目录0 前言1. 目标检测概况1.1 什么是目标检测?1.2 发展阶段2. 行人检测2.1 行人检测简介2.2 行人检测技术难点2.3 行人检测实现效果2.4 关键代码-训练过程3 最后0 前言 🔥 Hi,大家好,这里是丹成学长的毕设系列文章&#xff…

机器学习-SVM算法

文章目录支持向量机1. 间隔与支持向量1.1. 点到超平面的距离1.2. 去掉绝对值1.3. 最大间隔2. 对偶问题2.1. 引入拉格朗日乘子2.2. 求偏导2.3. 得到对偶问题2.4. 求解内层函数 minw,bL(w,b,α)min_{w,b} L(w,b,\alpha)minw,b​L(w,b,α)2.5. 求解外层函数 maxαminw,bL(w,b,α)m…

.ko 加载报错 “unknown symbol in module or invalid parameter” 排查解决方法

.ko 加载报错 “unknown symbol in module or invalid parameter” 排查解决方法 问题来源 今天参照Sigmastar的文档,修改config重新编译kernel,打开板上RNDIS虚拟网口。 按照步骤重编后,在demo.sh加入insmod指令,按顺序在启动…

【计算机网络】—网络编程(socket)02

目录 一、网络编程的概念 二、UDP数据报套接字编程 2.1 回显服务器代码 2.2 翻译程序(英译汉) 三、TCP数据报套接字编程 3.1回显服务器 3.2 翻译服务器 一、网络编程的概念 网络编程:指网络上的主机,通过不同的进程&#x…

openlayer+ol-ext 裁剪 天地图 中国或者其他省份 范围进行展示

地图未裁剪或遮盖效果(天地图) 效果1.crop: 1.1裁剪天地图里面效果 参数: inner: true 1.2裁剪天地图外面 参数: inner: false 核心代码: let crop new Crop({feature: feature[0],inner: false,});vecLayer.addF…

【保姆级】新机器部署JDKTomcat

1、登录服务器,如果非root用户则切root用户 sudo su - 2、在/usr/tmp目录上传JDK、Tomcat安装包 3、将安装包移到/usr/lib目录 mv xxx /usr/lib 4、解压 & 重命名 tar -xzvf xxx mv xxx jdk、mv xxx tomcat 5、配置环境变量 vim /etc/profile JAVA_HOME/u…