大数据处理各组件概念及作用

大数据处理各组件概念及作用

news2026/2/12 18:16:33

一、数据采集：

1.1 Flume集群：数据采集工具，如写脚本将不同源端的数据采集后进行数据存储，或推送至Kafka等；

1.2 FTP集群：文件传输工具；

1.3 Kafka集群：消息队列，未避免消息堵塞而将消息由Kafka统一管理，进行消息的接收和发布；

1.4 爬虫服务器：依据需求定时定向抓取页面数据；

二、数据存储：

2.1HDFS集群：

（1）概念：分布式文件存储系统，做数据存储（理解为一个磁盘），相当于数据分布在若干个服务器上，主要存储文件。

（2）流程：客户端先访问HDFS的管理服务器（NameNode存储元数据），再由管理服务器指向存储服务器（DataNode)存储数据块。

（3）特点：存储量大，主要文件存储。

2.2Greenplum集群

（1）概念：本质上是一个关系型数据库集群，做数据存储。

（2）特点：在低成本的开放平台基础上提供强大的并行数据计算性能和海量数据管理能力。能力主要指的并行计算能力，是对大任务、复杂的快速高效运算。

2.3Zookeeper服务器集群

（1）概念：一个分布式服务框架，文件系统+监听通知机制。

（2）作用：实现诸如分布式应用配置管理、统一命名服务、状态同步服务、集群管理等功能，实现自动高可用（master节点选举, 主节点down掉后, 从节点就会接手工作, 并且保证这个节点是唯一的,这也就是所谓首脑模式,从而保证我们集群是高可用的），用来监听及管理如存储服务器集群（HDFS,Greenplum）。

三、数据计算处理：

3.1Flink服务集群：

（1）概念：实时计算处理数据大数据组件。

（2）作用：容错机制。

（3）用处：业务对数据及时性要求很高时，产生一条数据处理一条，如订单支付状态等。

3.2Spark服务集群

（1）概念：实时计算处理数据大数据组件，实时性低于Flink组件。

（2）用处：业务对数据及时性要求不是很高时，用Spark组件，如物流状态更新。

3.3MR服务集群

（1）概念：MR-MapReduce，Hadoop自带数据处理工具。

（2）特点：通常处理大量数据，但实时性较Flink及Spark低。

（3）用处：通常用于对实时性要求很低的业务，如订单月统计分析（按月统计）。

3.1Hive服务集群

（1）概念：Facebook为解决海量数据统计分析而开发的基于Hadoop的数据分析工具（没有存储数据能力，有使用数据的能力），而且是将结构化的数据文件映射为一张数据库表（结构化是它对于存储在HDFS上的数据的一个要求，其他的文件是不能映射为Hive表），而且它提供的是类SQL查询功能，所以在数据使用的时候给我们提供了很大的方便。

（2）作用：是一个数据仓库工具，没有数据存储功能，它的数据是从HDFS来获得的，但是它又不能直接从HDFS进行数据访问，它是通过MapReduce来实现的，本质上也就是将HQL语句转换为MapReduce的任务，然后来进行数据访问。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/376411.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

UEFI启动的七阶段笔记

UEFI启动的七阶段笔记

研究起点是CPU收到ResetVector信号后，开始执行第一行代码，一直到计算机关机/重启/崩溃，被划分为七个不同阶段。 1. SEC安全阶段最早开始运行的固件代码，很大部分是汇编语言开发的。主要负责四件事： 处理平台所有的…

阅读更多...

纯手动搭建大数据集群架构_记录007_搭建Zookeeper3.5.7集群_集群配置_集群脚本---大数据之Hadoop3.x工作笔记0168

纯手动搭建大数据集群架构_记录007_搭建Zookeeper3.5.7集群_集群配置_集群脚本---大数据之Hadoop3.x工作笔记0168

然后我们来搭建一下zookeeper集群,这个集群,以后不管是搭建Hadoop高可用,还是nifi集群,还是 hive 集群,hbase集群,spark集群,kettle集群,sqoop集群,都是基础 [root@hadoop122 ~]# cd /opt/software/ [root@hadoop122 software]# ll 总用量 479040 -rw-r--r--. 1 root root 9…

阅读更多...

时间颗粒度选择（通过选择时间范围和颗粒度展示选项）

时间颗粒度选择（通过选择时间范围和颗粒度展示选项）

<template><div><el-time-selectplaceholder"起始时间"v-model"startTime":picker-options"startPickerOptions"change"changeStartTime"></el-time-select><el-time-selectplaceholder"结束时间&quo…

阅读更多...

【Python】python深拷贝与浅拷贝详解（必须掌握）

【Python】python深拷贝与浅拷贝详解（必须掌握）

深拷贝和浅拷贝是python必须要掌握的内容，无论你是面试开发、测试、运维等职位，只要是python，深拷贝与浅拷贝是面试官常问的一个重要知识点。 （关注“测试开发自动化” 弓中皓，获取更多学习内容） 文章目录一…

阅读更多...

软件测试如何进行需求分析，你真的学会了吗？

软件测试如何进行需求分析，你真的学会了吗？

目录前言从宏观的角度看需求文档从细节的角度看需求文档 1）结构化项目流程 2）确认影响模块 3）考量综合因素需求的测试成本与质量风险总结感谢每一个认真阅读我文章的人！！！ 重点：配…

阅读更多...

Win11安卓应用自动化测试的准备

Win11安卓应用自动化测试的准备

前言 APP的自动化测试，前提从ADB连接设备，启动APK应用开始。Win 11自带的WSA的APP的测试，要完全自动化，需要解决几个问题。 1、启动WSA 此项有两步： i 启动WSA服务 Python程序来启动服务，可以直接调用…

阅读更多...

DP1621国产LCD驱动芯片兼容替代HT1621B

DP1621国产LCD驱动芯片兼容替代HT1621B

目录DP1621简介DP1621芯片特性DP1621简介 DP1621是点阵式存储映射的LCD驱动器芯片，可支持最大128点（32SEG * 4COM）的 LCD屏，也支持2COM和3COM的LCD屏。单片机可通过3/4个通信脚配置显示参数和发送显示数据，也可通过指…

阅读更多...

jmeter基本使用

jmeter基本使用

jmeter基本使用 1.jemeter基本介绍 Jmeter 是什么 Apache JMeter 是 Apache 组织基于 Java 开发的压力测试工具，用于对软件做压力测试JMeter 可用于 Web 应用测试，后来扩展到了其他测试领域具体来说, Jmeter 可以测试静态和动态资源，比如…

阅读更多...

C语言Switch语句用法

C语言Switch语句用法

C switch 语句一个 switch 语句允许测试一个变量等于多个值时的情况。每个值称为一个 case，且被测试的变量会对每个 switch case 进行检查。语法 C 语言中 switch 语句的语法： switch(expression){case constant-expression :statement(s);break;…

阅读更多...

论索引的重要性

论索引的重要性

开篇小测验下面这样一个小SQL 你该怎么样添加最优索引两个表上现在只有聚集索引bigproduct 表上已经有聚集索引 ProductIDbigtransactionhistory 表上已经有聚集索引 TransactionID你是否一眼就能看出来呢？答案将在文章中逐步揭晓~~~简单粗暴的添加索引首先我们看一…

阅读更多...

企业如何做好员工安全意识提升

企业如何做好员工安全意识提升

背景： 近年来随着网络安全政策、技术的不断发展，国内企业对于安全的重视程度越来越高，安全建设投入力度越来越大，安全防御能力得到了明显的提升。然而，企业面临一个尴尬的问题就是，企业即使做了很多安全防…

阅读更多...

Java还值得选择吗？

Java还值得选择吗？

自1995年Java问世，到2023年已经差不多存在了28年。作为高级编程语言，他的生命周期相比很多编程语言都长，也见证了很多编程语言的辉煌时刻，不过Java始终都是名列前茅。 Java的主要优势在于其一次编写、随处运行。简单来讲&#xf…

阅读更多...

185、【栈与队列】leetcode ——496. 下一个更大元素 I：单调栈-哈希表（C++版本）

185、【栈与队列】leetcode ——496. 下一个更大元素 I：单调栈-哈希表（C++版本）

题目描述原题链接：496. 下一个更大元素 I 解题思路本题与 739. 每日温度的区别在于，需要先通过让nums1与nums2判定出为想等元素后，再去找nums2中更大的数。因此，第一步需要找到想等数，第二步需要找到大于的数。…

阅读更多...

快手电商新增商品信息诊断规则，对商家有何影响？

快手电商新增商品信息诊断规则，对商家有何影响？

1、2022年快手短剧日活跃用户达2.6亿新榜讯近日，快手数据显示，2022年快手短剧日活跃用户达2.6亿，现在的付费用户数对比2022年4月增长超过480%，快手已经是最大的短剧消费市场。此外，2023年快手小游戏日活跃用户峰值超…

阅读更多...

【Go】基于telegraf进行自定义插件开发（二）

【Go】基于telegraf进行自定义插件开发（二）

基于telegraf进行自定义插件开发（二）前言正文设计开发过程单个服务的处理结构体同时定义了string和数值类型适配本机服务或者多个ip来源程序打包结语前言书接上会，这次记录一下我基于telegraf进行的hdfs监控组件的开发工作，这其…

阅读更多...

RabbitMQ实现延时队列

RabbitMQ实现延时队列

目录什么是延时队列延时队列的使用场景前提准备利用RabbitMQ实现延时队列延时队列优化利用RabbitMQ插件实现延迟队列什么是延时队列延时队列，首先，它是一种队列，队列意味着内部的元素是有序的，元素出队和入队是有方向性的&#…

阅读更多...

沃尔玛采购退款大额过不了的原因是什么？

沃尔玛采购退款大额过不了的原因是什么？

市面上有很多伪装工具，但不是针对沃尔玛，很多软件方只是针对大众平台伪装，主要是方便程序开发人员调测系统程序，并不是能用于沃尔玛行业。而且每一个平台的风控是不—样的，我们技术团队从底层硬件环境开始配合软件控制…

阅读更多...

【论文精读】MVSNet系列（2018-2022）总结

【论文精读】MVSNet系列（2018-2022）总结

MVSNet系列总结1.MVSNet ECCV20182.RMVSNet CVPR20193.P-MVSNet ICCV20194.MVSCRF ICCV20195.PointMVSNet ICCV20192019年的这四篇文章各有特点，其中RMVSNet、PointMVSNet更是打开了可以继续沿着往下做的思路：6.cascade MVSNet CVPR20207.UCSNet CVPR202…

阅读更多...

初识go变量,使用var和:=来声明变量，声明变量的三种方式

初识go变量,使用var和:=来声明变量，声明变量的三种方式

初识go变量,使用var和:来声明变量，声明变量的三种方式 Go语言的变量名由字母、数字、下划线组成，其中首个字符不能为数字。 tip:(Go语言中的变量的规范，也和其他高级语言相同) 声明变量的一般形式是使用 var 关键字： var 变量…

阅读更多...

SpringCloud源码探析（二）-Nacos注册中心

SpringCloud源码探析（二）-Nacos注册中心

1.概述 Nacos是Spring Cloud Alibaba中的核心组件之一，它提供了服务发现、服务配置和服务管理等功能，可以作为注册中心和配置中心使用。注册中心是微服务架构体系中的核心组件之一，Nacos比Eureka有着更强大的功能，它们都能提供服…

阅读更多...

推荐文章

最新文章