520页(17万字)集团大数据平台整体解决方案-v1.0

news2025/3/1 3:25:44

【版权声明】本资料来源网络,知识分享,仅供个人学习,请勿商用。
【侵删致歉】如有侵权请联系小编,将在收到信息后第一时间删除!
完整资料领取见文末,部分资料内容:

1.1.1 系统总体逻辑结构54bfcefdbcbf86266cbf2cc81e126b77.jpeg

4-14系统总体逻辑结构图

参见上图,基于Hadoop构建的企业级数据仓库,包含:分布式列式存储数据库Hyperbase和分布式文件系统HDFS。通过数据集成及ETL平台,采集集团现有业务系统(CRM、ERP、寄递平台、金融大数据平台等)数据,经清洗、转换、加工后将数据批量加载到数据仓库。通过分布式消息队列(Kafka)和流处理引擎(Spark Streaming),可实时采集处理流数据(如:网站点击流数据、实时事件流数据等);流处理引擎可通过SQL接口将流数据实时加载至分布式内存或分布式数据库中。通过互联网数据采集软件(iRIS)可采集互联网数据(网站、SNS等),并经加工处理后导入数据仓库。本系统还支持在线填报、报表文件上传等数据采集方式。

结构化数据导入数据仓库后,可通过PL/SQL脚本和Hadoop/Spark批处理引擎进行数据关联操作和汇总加工处理;半/非结构化数据导入数据仓库后,可通过全文检索引擎Elastic Search快速创建全文索引。

大数据平台为数据分析挖掘应用开发,提供可视化的数据建模工具、数据分析挖掘工具(RStudio)、并行化R算法模型库及分布式计算引擎。平台还提供分析报表和仪表盘、OLAP多维查询、iGIS地图等可视化数据展现组件。

大数据平台为上层的各类应用提供数据访问接口服务,包括:SQL引擎(Inceptor SQL)、联合查询引擎(Inceptor StarGate,支持结构化数据和非结构数据联合查询)、全文检索引擎(Elastic Search)。本平台还支持分布式内存OLAP Cube功能,多维分析应用可通过SQL引擎快速访问OLAP  Cube数据集。

基于支撑平台开发的应用系统采用面向服务架构(SOA)设计。采用J2EE/Spring、Apache CXF框架,实现内置的服务注册功能,能够将已有的外部Web Service进行注册、调用,同时能够将定义的服务以 方式对外暴露,供其它应用调用。集团已有的ESB服务总线平台,可通过JDBC/ODBC接口与SQL引擎对接,将分布式数据库查询访问封装为Web Services,供相关应用系统调用;ESB平台可通过HTTP/JSON接口与联合查询引擎对接,将非结构化数据和结构化数据联合查询访问封装为Web Services,供相关应用系统调用;基于ESB平台可将报表/分析平台生成的分析挖掘结果封装为RESTful服务,供相关应用系统调用。本项目中,可应用ESB总线平台实现与集团主数据管理系统、元数据管理系统、统一运维管理平台之间的实时数据交换。

1.1.2 平台组件关系

7381bef55a7f87800a01843f870dcc85.jpeg

图4-15整体架构及平台组件关系图

大数据平台系统主要是由大数据分布式计算和存储服务、分布式容器集群管理、数据采集交换、数据管控、应用支撑平台及定制开发的应用服务等组件组成。

参见上图,以下描述了主要的平台组件功能及组件关系:

1、分布式数据存储

² 分布式文件系统(HDFS)

存储半/非结构数据,包括Office文件、XML数据、Email数据、凭证单据扫描件、视频图像、Web网页等数据。有关文件属性数据主要是存于分布式数据库Hyperbase

中;对文本数据生成的索引数据主要是存于全文索引库(Elastic Search)中。

应用系统可通过JAVA API访问HDFS,也可通过FUSE挂载HDFS,将HDFS映射为远程盘访问使用。

² 分布式列式存储数据库(Hyperbase):

存储结构化数据,包括从现有业务系统数据库采集的数据、整合加工后的多主题关联的数据集及面向应用的数据集市等。

应用系统可通过SQL引擎(InceptorSQL)、基于JDBC/ODBC标准接口访问Hyperbase。

² 分布式内存/OLAP Cube

Hyperbase可将数据集市及OLAP Cube数据加载到分布式内存节点,为即时查询、多维统计分析等应用提供快速访问服务。

应用系统可通过SQL引擎(Inceptor SQL)、基于JDBC/ODBC标准接口访问分布式内存/OLAP Cube。

² 分布式全文检索库(Elastic Search)

存储ES索引引擎生成的全文索引数据,并为全文检索查询应用提供HTTP/JSON、JAVA API访问接口。

2、分布式计算处理引擎

² Hadoop MapReduce框架和Spark内存计算引擎

Hadoop MR为分布式批处理计算提供了JAVA API框架;Spark引擎充分利用内存计算技术实现快速分布式处理,支持Java、Scala、Python等语言。

² SQL引擎(Inceptor SQL)

基于Spark实现的高性能、高兼容性(SQL99、SQL2003标准)的SQL

引擎,为应用系统提供JDBC/ODBC标准接口访问Hyperbase数据库。SQL引擎支持PL/SQL,方便开发人员实现多表关联、汇总处理等应用

² 流处理引擎(Spark Streaming)

基于Spark Streaming实现的流处理引擎,可与分布式消息系统Kafka对接,实时接收处理流数据;可通过JMS API接口与集团ESB平台(Tibco EMS消息中间件)对接,实时接收处理业务数据流;可将实时检测出异常事件信息向ESB平台发送。

流处理引擎可通过SQL引擎将流数据实时导入Hyperbase、分布式内存/Cube中。流处理引擎运行中所用到的业务参考数据、规则数据等可放在分布式内存/Cube中,从而大大减少了访问数据库的时间消耗。

² 联合查询引擎(Inceptor Stargate)

联合查询引擎为应用系统提供非结构化数据和结构化数据联合查询服务。应用系统与联合查询引擎之间通过HTTP/JSON接口交互查询请求和响应信息。联合查询引擎支持通过JDBC/ODBC接口访问数据库(Oracle、Teradata、MySQL等);支持通过Inceptor SQL引擎访问分布式数据库Hyperbase、分布式内存/OLAP Cube;支持通过Java API接口访问分布式文件系统HDFS;支持通过HTTP接口访问JSON、XML数据。

² 并行化R算法引擎

基于SparkR实现的并行化R算法引擎,目前已支持近60种并行化R算法。开发人员可通过可视化编程环境RStudio将应用包加载到算法引擎执行。并行化R算法引擎,可通过JDBC接口及SQL引擎向Hyperbase提取所需数据,并将分析结果存入Hyperbase。并行化R算法引擎也可直接读取HDFS上的文件数据。

² 分布式检索引擎(Elastic Search)

可从Hyperbase、HDFS提取文本数据并创建全文索引库。全文索引库数据可存于分布式文件系统HDFS。Elastic Search为全文检索查询应用提供HTTP/JSON访问接口。

3、数据集成和管控平台

² 数据ETL平台

提供数据抽取、转换和加载功能。平台可通过SQL/JDBC/ODBC接口、批量导出脚本、Sqoop并行化抽取等方式,从现有业务系统数据库(Oracle)、Teradata数仓中批量导出数据并经转换处理后,加载到Hyperbase或HDFS中。网络爬虫(iRIS)所抓取的网页数据也可通过ETL平台加载到HDFS或Hyperbase中。

² 数据管控平台

提供元数据管理、主数据管理、数据质量管理、数据标准管理、数据安全管理等功能。可通过ETL平台的元数据采集引擎,统一采集处理分布式文件系统HDFS、分布式数据库Hyperbase、ETL处理流程及规则、现有业务系统数据库以及Teradata、Oracle数据库的元数据,并统一存于数据管控平台的数据库中,建立源库表-->接口表-->ETL处理过程-->目标库表的元数据关联关系,从而为后续的数据标准管理、主数据管理、数据质量管理、数据安全管理奠坚基础。本项目涉及与集团现有的元数据管理、主数据管理系统对接交换数据,可采用ESB平台及消息传输中间件,基于JMS接口与现有系统实时交换元数据、主数据变更记录。

² ESB服务总线平台

集团现有的ESB平台提供消息队列(消息存储转发、消息路由)、消息订阅和发布、Web Service服务编排及组合调用、服务监控等功能。

基于ESB平台及JMS

消息接口,可实现大数据平台系统与集团现有业务系统之间的实时数据交换(包括:运维管理数据、元数据/主数据等),并可将大数据平台分析挖掘的结果数据集实时推送到CRM、ERP、企业门户及APP等应用服务系统。

ESB平台支持JDBC/ODBC、HTTP/JSON接口,可与大数据平台的SQL引擎、联合查询引擎对接,从而可将Hyperbase数据库查询、非结构化和结构化数据的联合查询功能封装为Web Service服务,供相关应用系统调用。

基于应用支撑平台开发的图表展现、多维分析等应用,可封装为轻量级的RESTful/HTTP服务,并注册于ESB平台上,可供相关应用系统调用。

4、经营分析等应用及可视化展现组件

基于J2EE平台和可视化展现组件(即时查询、报表和仪表盘、OLAP多维分析、地图展现等组件)定制开发的经营分析和决策支持应用服务系统,可通过SQL引擎及JDBC/ODBC接口访问分布式数据库Hyperbase、分布式内存/OLAP Cube。应用系统可通过联合查询引擎及HTTP/JSON接口实现非结构化数据(如存于HDFS中的文本数据、XML数据)和结构化数据(包括:Oracle、MySQL、Teradata、Hyperbase等数据库数据)的联合查询。应用系统还可通过HTTP/JSON接口对接全文检索引擎,实现全文检索查询。

基于面向服务架构(SOA)设计思想,将定制开发的经营分析和决策支持应用及分析挖掘结果数据集查询功能封装为轻量级的Web Service服务,注册发布于ESB平台,可供相关应用系统调用。

5、身份认证和访问控制组件(IM/AM

IM/AM组件是为访问企业门户、经营分析等应用的用户统一提供身份认证和鉴权访问控制服务。用户证书、授权信息可存于关系数据库(Oracle或MySQL)或轻量级的LDAP目录库中。可通过专有接口或ESB平台的JMS接口,与集团CA中心交换用户证书信息。IM/AM组件还提供SSO Agent插件,可实现对多种应用系统、管理系统的SSO单点登录集成。

6、分布式容器集群管理系统(TOS

基于分布式容器集群管理系统(TOS)构建的服务器虚拟化资源池,可为大数据平台系统的各类应用、分布式计算和存储服务组件提供多租户隔离的容器资源调配管理、应用打包部署及SLA管理、作业调度管理以及统一运维监控管理。系统配置管理信息以及系统运行监控记录是存于本地的关系数据库中,可对外提供SNMP协议接口、ESB平台的JMS消息接口,以实现与集团运维管理平台交换运维监控信息。

1.1.3 系统接口设计

平台对外提供各种开发接口,包括完全兼容Hadoop生态圈开源各个组件API接口,REST访问接口包括Web HDFS以及StarGate/Hyperbase REST接口;同时通过支持SQL2003标准以及PL/SQL,提供JDBC/ODBC接口,能够使传统业务场景向大数据平台上进行平滑迁移;此外,大数据平台为数据挖掘提供Java API以及R语言接口。通过接口,用户可以直接使用R语言与SQL进行交互式数据挖掘探索,同时可以通过平台开放的API进行二次开发,通过JDBC/ODBC接口给上层应用进行SQL查询。此外,Inceptor中还包含了基础的并行统计挖掘算法库的Java API,用户可以通过并行算法库进行数据挖掘的二次开发。

篇幅有限,无法完全展示,如需获取完整内容,请转发后私信资料名称。
文章引用的资料均通过互联网等公开渠道合法获取,仅作为行业交流和学习使用,并无任何商业目的。其版权归原资料作者或出版社所有,本文作者不对所涉及的版权问题承担任何法律责任。若版权方、出版社认为本文章侵权,请立即通知作者删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/145738.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Golang 面试题总结

一.基础部分 go语言的值类型和引用类型? 值类型:int、float、bool、string和数组这些类型都属于值类型。 值类型的变量直接指向存在内存中的值,值类型的变量的值存储在栈中。当使用 将一个变量的值赋给另一个变量时,如 j i ,实…

九、k8s 安全认证

文章目录1 访问控制概述2 认证管理3 授权管理4 准入控制1 访问控制概述 Kubernetes作为一个分布式集群的管理工具,保证集群的安全性是其一个重要的任务。所谓的安全性其实就是保证对Kubernetes的各种客户端进行认证和鉴权操作。 客户端 在Kubernetes集群中&#…

MySQL调优-深入理解MVCC机制

目录 MySQL调优-深入理解MVCC机制 MVCC多版本并发控制机制 undo日志版本链与read view机制详解 根据图2和图3对应画出下图的undo日志版本链: 版本链比对规则: 注意: 举例1:分析一下下图select1的read_view以及各个select语句…

Cadence PCB仿真使用Allegro PCB SI导入其他板卡的层叠结构的方法图文教程

⏪《上一篇》   🏡《总目录》   ⏩《下一篇》 目录 1,概述2,导入方法3,总结1,概述 本文详细介绍使用Allegro PCB SI PCB仿真软件导入其他电路板层叠结构的方法。 2,导入方法 第1步:打开待仿真的PCB文件,并确认软件为Allegro PCB SI 如果,打开软件不是Allegro PC…

STL-vector的接口使用及模拟实现

文章目录vector类的介绍vector类的常用接口介绍 构造相关 无参构造迭代器区间构造拷贝构造 容量相关的接口 sizereserveresizecapacityempty 数据访问及遍历相关的接口 operator[]begin endrbegin rend 修改数据相关的接口 push_backpop_backinserterase vector类的模拟实现…

excel统计函数:应用广泛的动态统计之王OFFSET 下篇

【前言】在上篇文章中,我们了解了OFFSET函数的运算原理和各个参数的作用,并且我们也通过一些OFFSET的案例,了解了它的用途。那么本篇我们继续来看看,OFFSET函数在实际工作中所能起到的强大效果吧。一、高阶应用的思路(…

vector使用指南

目录 引言 空间配置器 vector 与 string的一些差异 vector容器与string容器的一些差异 接口介绍——reserve resize接口 shrink_to_fit 接口 operator[ ] 和 at 接口 assign接口 增删查改接口 swap接口 例题讲解 引言 vector实质上就是数据结构的顺序表&#xff0…

数据结构:栈和队列(详细讲解)

🎇🎇🎇作者: 小鱼不会骑车 🎆🎆🎆专栏: 《数据结构》 🎓🎓🎓个人简介: 一名专科大一在读的小比特,努力学习编程是我唯一…

(8)Qt中的自定义信号

目录 自定义信号需要遵循的规则 信号的发送 自定义信号的基本实现 使用一个父子窗口切换的小案例 Qt框架提供的信号在某些特定场景下是无法满足我们的项目需求的,因此我们还设计自己需要的的信号,同样还是使用connect()对自定义的信号槽进行连接。 自…

制造业ERP管理系统解决方案之销售管理

在企业的生存发展中,销售管理起到了重要的作用,它决定着企业发展的提速和效益的提升。做好销售管理工作,不仅可以推动企业资金有效运转,还可以使企业在稳定中高效发展,使企业价值最大化。而在制造企业销售管理中&#…

Leetcode.1658 将 x 减到 0 的最小操作数

题目链接 Leetcode.1658 将 x 减到 0 的最小操作数 题目描述 给你一个整数数组 nums 和一个整数 x 。每一次操作时,你应当移除数组 nums 最左边或最右边的元素,然后从 x 中减去该元素的值。请注意,需要 修改 数组以供接下来的操作使用。 如…

SHELL脚本学习 --- 第八次作业(安全脚本)

SHELL脚本学习 — 第八次作业 题目要求: 将密码输入错误超过4次的IP地址通过firewalld防火墙阻止访问 思路: 首先需要找到ssh密码输入错误超过四次的IP地址,需要到日志文件中找。 该日志文件为/var/log/secure。 找到之后通过正则匹配到密码输…

JavaEE高阶---SpringBoot 统⼀功能处理

一:什么是SpringBoot 统⼀功能处理 SpringBoot统一功能处理是AOP的实战环节。我们主要学习三方面内容: 统一用户登录权限验证;统一数据格式返回;统一异常处理。 二:统一用户登录权限验证 Spring 中提供了具体的实现…

通过后端代理实现Web搜索功能

大家好,才是真的好。 前面我们都在说使用Domino自带的视图搜索功能,这一篇也是,不过不是视图搜索,而是整个Notes数据库搜索,然后再将结果返回给浏览器网页呈现。 前提和前面两篇都是一样的,即Notes应用需…

Java 如何不使用 volatile 和锁实现共享变量的同步操作

前言 熟悉 Java 并发编程的都知道,JMM(Java 内存模型) 中的 happen-before(简称 hb)规则,该规则定义了 Java 多线程操作的有序性和可见性,防止了编译器重排序对程序结果的影响。 按照官方的说法: 当一个变量被多个线程读取并且至…

「数据密集型系统搭建」原理篇|数据类型不怕精挑细选

本篇围绕MySQL数据库的底层存储模型、列类型来聊聊数据库表设计及建模中要注意的事项,剖析最根源的底层物理存储文件,用最真实的数据剖析来证明和解答开发过程中的疑惑。 在一些技术谈资、面试沟通过程中,MySQL特别是我们常用的Innodb存储引擎…

JavaScript 作用域

文章目录JavaScript 作用域JavaScript 作用域JavaScript 局部作用域JavaScript 全局变量JavaScript 变量生命周期函数参数HTML 中的全局变量你知道吗?JavaScript 作用域 作用域可访问变量的集合。 JavaScript 作用域 在 JavaScript 中, 对象和函数同样也是变量。 在 JavaScr…

ONES X 海银财富|以敏捷流程管理,创新金融服务平台

近日,ONES 签约财富管理行业领跑者——海银财富,助力海银财富落地敏捷流程管理,打造从需求到交付的一体化平台,快速接受业务方的反馈,进行金融平台的迭代与优化。海银财富管理有限公司(以下简称海银财富&am…

拆机详解:1968年军用集成电路计算机 高级货赢在做工

halo大家好,这里是一天更两篇的Eric。 今天我在网上偶然看到一个拆军用计算机的,正好给你们分享一下。这可是1970年左右为了F4战斗机敌我识别系统打造的,虽说比之前说的Macintosh更加的挤也更大,不过做工够扎实。 上图&#xff…

centos8安装RabbitMQ和erlang

RabbitMQ 消息队列MQ RabbitMQ简称MQ是一套实现了高级消息队列协议的开源消息代理软件,简单来说就是一个消息中间件。是一种程序对程序的通信方法,其服务器也是以高性能、健壮以及可伸缩性出名的Erlang语言编写而成为什么使用MQ 在项目中,…