10万字大数据平台数据治理体系和大数据架构技术方案word

news2024/10/2 3:29:28

【版权声明】本资料来源网络,知识分享,仅供个人学习,请勿商用。
【侵删致歉】如有侵权请联系小编,将在收到信息后第一时间删除!
完整资料领取见文末,部分资料内容:

总体技术架构设计

基于企业内部多年的大数据建设实践经验,针对开源Apache Hadoop/Spark框架进行了大量的修复完善及深度优化工作,并自主创新的众多功能和实用工具,易于使用者开发和管理。

XXX医院的数据来源自多个方面,包括内部数据来源以及未来可能第三方数据接入。各类数据的来源方式多样化,包括关系型数据库数据、数据仓库数据、实时数据、文件数据、图片数据等。面对于多种数据接入的需求,大数据平台提供多种针对性的接入方式以及工具,通过分布式消息队列Kafka接入实时数据;通过Sqoop全量或定时增量抽取同步关系型数据库;采用Kettle作为数据抽取管理工具,Kettle提供图形化的界面定义数据抽取规则,并可与其他工具相结合,完成数据抽取的工作流;同时,分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入HDFS的通道;通过Flume提供海量日志文件的聚汇到HDFS的功能。

d3fbedf99bcc6e123542fb3653bb4823.jpeg

大数据分析平台从功能架构上分为数据集成套件、大数据计算平台、算法与分析工具组件、平台运维管理组件、数据资产管理组件、数据可视化组件。

一.1.1、 大数据计算存储平台( Hadoop Distribution)

大数据计算平台基于Hadoop、Spark等社区成熟的开源组件为基础,结合行业应用的需求,进行了深度的优化和改造,显著提升平台运行的稳定性和可靠性。平台在提供海量结构化、非结构化数据处理和线性扩展能力外,还具备四方面的特性:统一的资源管理、海量数据集中存储、高效数据处理、平台高可用。

360700beb4af23819f6217efbd223c73.jpeg


大数据平台提供一站式商用大数据分析处理平台,集成Apache开源社区Hadoop 2.6及以上版本,包含HDFS、MapReduce、Hive、HBase、Spark、kafka、Solr、Impala、Storm、Flume、Sqoop、ELK、Kylin等常用组件,组件内核与Apache Hadoop开源社区版本保持兼容性。并提供对以上组件的集中的可视化管理、配置和监控界面。整理制作郎丰利。

一.1.1.1、 海量数据集中存储

通过基于改造后的分布式文件系统HDFS作为存储海量数据的分布式存储软件架构。 HDFS被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。

HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,一个文件其实被分成一个或多个数据块,这些块存储在一组Datanode上。Namenode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。

eb07eb8656e780bf163fadf1826fafd9.jpeg


同时,系统支持多存储层级支持,能够将应用表建立在不同IO读写速度的不同介质上,包括磁盘、SSD固态硬盘、高速闪存卡和内存,其中建立的非易失存储上的数据表在整个系统重启后能保证数据不丢失,能在SSD上提供与内存相近的性能。

一.1.1、 数据资产管理 (  Data Governor)

数据资产管理核心在于有效解决对数据资产进行管理的实践性问题,既帮助企业合理评估、规范和治理企业信息资产,又可以挖掘和发挥数据资产价值并促进持续增值,并符合大数据的跨行业合作趋势。

6e5d0edb706e7bad40a464e5e1c7aa6c.jpeg


元数据管理是需要将各系统的信息、设计工具信息、生产平台信息,进行收集并统一管理。提供一个视图,以帮助使用人员了解系统的数据分布、数据关系、业务规则、指标口径等。元数据包括:业务类元数据、技术类元数据。

数据标准化,解决系统之间数据集成的标准,解决跨部门数据分析时数据一致理解,是企业级数据标准,同时也是沟通IT和业务的一致理解。那么标准化需要解决的关键问题:标准制定,标准的执行和控制,标准化问题管理。

数据资产管理核心在于有效解决对数据资产进行管理的实践性问题,既帮助企业合理评估、规范和治理企业信息资产,又可以挖掘和发挥数据资产价值并促进持续增值,并符合大数据的跨行业合作趋势。

d3daeb952cd7f7ab54207db0a0336f81.jpeg

cc612961509f6f870117f6044a22e8e3.jpeg

e04a168f8c9374e5ea5eda10c636c3bd.jpeg

38cc39a619b7487667d10ac52bb7441e.jpeg

c5d7eb913edb83a8798b332b115a5816.jpeg

2802e6bc8c4ad554e3633d77681bf8b4.jpeg 

篇幅有限,无法完全展示,如需获取完整内容,请转发后私信资料名称。
文章引用的资料均通过互联网等公开渠道合法获取,仅作为行业交流和学习使用,并无任何商业目的。其版权归原资料作者或出版社所有,本文作者不对所涉及的版权问题承担任何法律责任。若版权方、出版社认为本文章侵权,请立即通知作者删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/374461.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高频面试题|RabbitMQ如何防止消息的重复消费?

一. 前言最近有很多小伙伴开始找工作,在面试时,面试官经常会问我们这样一个题目:RabbitMQ如何防止重复消费?有很多小伙伴这个时候都在想,消息怎么还会重复消费呢???.......所以他们在面试后就跑来问壹哥,针对这个比…

【华为OD机试模拟题】用 C++ 实现 - 异常的打卡记录(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 去重求和(2023.Q1) 文章目录 最近更新的博客使用说明异常的打卡记录【华为OD机试模拟题】题目输入输出备注示例一输入输出说明示例二输入输出说明示例三输入输出说明

基于合作型Stackerlberg博弈的考虑差别定价和风险管理的微网运行策略研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

数据结构与算法(五):优先队列

这节总结一下优先队列的常用实现方法。 一、基本概念 普通的队列是一种先进先出的数据结构,元素在队列尾追加,而从队列头删除。在优先队列中,元素被赋予优先级。当访问元素时,具有最高优先级的元素最先删除。优先队列具有最高级…

100天精通Python(数据可视化篇)——第77天:数据可视化入门基础大全(万字总结+含常用图表动图展示)

文章目录1. 什么是数据可视化?2. 为什么会用数据可视化?3. 数据可视化的好处?4. 如何使用数据可视化?5. Python数据可视化常用工具1)Matplotlib绘图2)Seaborn绘图3)Bokeh绘图6. 常用图表介绍及其…

81页5G 智慧工厂物联数字孪生可视化建设方案

数字企业建设思路3 XXXX智慧企业将以信息化为基础、以数据为纽带、以制造为核心、以管理为载体打造新型智慧园区,该智慧园区整合了企业的安全、环保、能源、安防、应急、服务等数据资源,支撑企业科学、准确、及时决策,提升企业综合监管能力、…

计算机网络笔记、面试八股(一)—— TCP/IP网络模型

本章目录1. TCP/IP网络模型1.1 应用层1.1.1 应用层作用1.1.2 应用层有哪些常用协议1.2 运输层1.2.1 TCP与UDP的区别1.2.2 分块传输1.2.3 端口1.3 网络层1.3.1 IP报文1.3.2 IP地址1.3.3 网络号和主机号的获得1.3.4 子网掩码的获得1.3.5 路由1.3.6 IP地址与MAC地址的区别1.3.7 AR…

【C++】List 基本接口的使用

LISTList 基本接口介绍前言list 构造方法list 析构方法容量相关元素获取迭代器元素的修改其他相关操作前边博客中已经介绍了c STL 中的 string 以及 vector 基本接口的使用方法并进行了接口的模拟实现,接下来让我们来学习 list 的基本接口使用方法吧~~ List 基本接…

Linux基础命令-stat显示文件的状态信息

文章目录 stat 命令介绍 语法格式 基本参数 测试三个时间的变化过程 1)使用cat命令 2)使用echo命令 3)使用chmod命令 4)使用vim命令 参考实例 1)显示文件的状态信息 2)以简洁的形式显示状态信…

Android:IdleHandler的简单理解和使用

IdleHandler的简单理解和使用1、IdleHandler 是什么2、IdleHandler 使用方式2.1、添加和删除2.2、执行3、常见问题和使用场景3.1、使用场景3.2、常见问题参考1、IdleHandler 是什么 IdleHandler 说白了,就是 Handler 机制提供的一种,可以在 Looper 事件…

Cesium 100K数据加载 支持弹窗 动态更改位置

前言:今天总结关于point、label、billboard海量数据加载。后续会研究下大量model加载以及大bim(几百G上T)模型记载 海量点加载 弹窗 加载点位时,不加载弹窗。点击点位时在加载弹窗,及有效的减少加载量,优化性能。 const handler …

FPGA学习之日常工作复位电路

最近一个多月没有写博客了,然后最近工作中也遇到一个复位信号的问题。问题是这样的,关于外部复位信号,之前我们的处理方式都是通过PLL产生的Lock信号作为内部的复位信号。但是由于换到A54上面没有IP核,所以只有不用PLL&#xff0c…

Mybatis持久层框架 | 动态SQL、缓存

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 动态SQL 动态SQL就是指根据不同条件生成不同的sql语句,本质还是SQL语句,知识可以在SQL层面,执行逻辑代码 搭建环境 创建数据库 cre…

Linux搭建SVN服务器,并内网穿透实现公网远程访问

文章目录1. Ubuntu安装SVN服务2. 修改配置文件2.1 修改svnserve.conf文件2.2 修改passwd文件2.3 修改authz文件3. 启动svn服务4. 内网穿透4.1 安装cpolar内网穿透4.2 创建隧道映射本地端口5. 测试公网访问6. 配置固定公网TCP端口地址6.1 保留一个固定的公网TCP端口地址6.2 配置…

HCIA-HarmonyOS Application Developer——题目集2

题目1 1、HarmonyOS的"18N”战略中的"1"指的是什么? A、智慧屏 B、平板电脑 C、手表 D、手机 解析:(D) HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统,是一个全场景分布式智慧操作系统,覆…

从产品经理的角度如何提升项目的交付质量?

提高交付质量 ,对于每个IT公司都是永恒的话题。 交付质量其实包含2重意义, 一是交付的高质量(客户角度),即客户的满意度;二是高质量的交付(交付团队的角度),这里是指如何…

【笔记】ChatGPT是怎样炼成的(李宏毅2023机器学习课程引入部分)

来源:【授权】李宏毅2023春机器学习课程 ChatGPT太火热了,借此简单了解一下 ChatGPT的newbie之处在哪里? 同一个问题,它的每次回答都不同;处于同一个chat中,我可以追问多个问题,因为它知道上下…

NO.8代码随想录第8天-字符串|●28. 实现 strStr()●459.重复的子字符串●字符串总结

KMP算法的原理: KMP算法:解决字符串匹配的问题。 前缀:包含首字母不包含尾字母的所有子串。 后缀:包含尾字母不包含首字母的所有子串。 最长相等前后缀:以模式串aabaaf为例,这里从a开始到aabaaf&#x…

数据结构入门DAY1

力扣刷题合集:力扣刷题_Sunlightʊə的博客-CSDN博客217.存在重复元素相关题目链接:力扣 - 存在重复元素题目重现给你一个整数数组 nums 。如果任一值在数组中出现 至少两次 ,返回 true ;如果数组中每个元素互不相同,返…

【Spark分布式内存计算框架——Spark Streaming】5. DStream(上)

3. DStream SparkStreaming模块将流式数据封装的数据结构:DStream(Discretized Stream,离散化数据流,连续不断的数据流),代表持续性的数据流和经过各种Spark算子操作后的结果数据流。 3.1 DStream 是什么…