阿里云EMR集群搭建及使用

news2024/9/28 23:26:30

目录

1.简介

1.什么是EMR

2.组成

3.与自建hadoop集群对比

4.产品架构

2.使用

1.创建EMR集群

1.登录EMR on ECS控制台

2.软件设置

3.硬件设置

3.基础配置

2.配置

1.组件配置

2.用户管理

3.安全组

4.Gateway

3.组件UI


1.简介

1.什么是EMR

EMR是运行在阿里云平台上的一种大数据处理的系统解决方案。可以简单的理解为一个对标ambari的产品。EMR构建于云服务器ECS上,基于开源的Apache Hadoop和Apache Spark。可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR提供on ECS和on ACK两种方式,on ACK指的是容器化。

2.组成

E-MapReduce的核心是集群。E-MapReduce集群是由一个或多个阿里云ECS实例组成的Hadoop、Flink、Druid、ZooKeeper集群。以Hadoop为例,每个ECS 实例上通常都运行了一些daemon进程(例如,NameNode、DataNode、ResouceManager和NodeManager),这些daemon进程共同组成了Hadoop集群。

  • Master节点,部署了Hadoop的主节点服务,包括HDFS NameNode、HDFS JournalNode、ZooKeeper、YARN ResourceManager和HBase HMaster等服务,可以根据集群的使用场景,选择高可用集群或非高可用集群。测试环境可以选择非高可用集群,生产环境建议选择高可用集群。高可用集群可以选择2个或3个Master节点,当选择2个Master节点时,HDFS JournalNode和ZooKeeper会部署在Core的emr-worker-1节点。生产环境建议创建高可用集群时选择3个Master节点。
  • Core节点,部署了HDFS DataNode和YARN Nodemanager,用于HDFS数据的存储和YARN的计算,不可以弹性伸缩。
  • Task节点,部署了YARN NodeManager,用于YARN计算,可以通过弹性伸缩的方式灵活扩容或缩容。
  • Gateway集群,部署了Hadoop的客户端文件,您可以通过Gateway提交作业,避免直接登录集群产生的安全和客户端环境隔离问题。您需要先创建Hadoop集群,然后创建Gateway集群关联至Hadoop集群。

3.与自建hadoop集群对比

对比项阿里云EMR自建Hadoop集群
成本支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需提前预估资源,且资源相对固定,资源使用率低。采用Hadoop发行版,需额外支付License费用。
性能较开源版本性能大幅提升。采用开源社区版本,性能需自行优化。
易用性分钟级别启动Hadoop集群,敏捷响应业务需求。采购服务器,部署Hadoop生态组件,周期长达数周。
弹性可根据作业临时启动和销毁集群。集群资源可根据时间周期或集群负载动态自动调整。基于JindoFS计算存储分离架构,轻松分别扩展计算和存储资源。计算和存储耦合,资源相对固定,无法弹性调整资源。
安全支持企业级多租户资源管理,支持对表、列、行级别的权限控制和日志审计,支持数据加密。多租户管理能力需自行配置,能力不完善,无法满足企业级需求。
可靠大规模、企业级环境的检验,随开源版本升级,并经过专业的兼容性验证测试,提供优于社区版本的使用体验。需自行更新和升级开源版本,验证各组件版本兼容性,自行修复社区bug。
服务专业和资深大数据专家技术服务团队提供售后支持。社区版本无服务支持,Hadoop发行版,需额外支付License和服务费用。

4.产品架构

 

 

2.使用

1.创建EMR集群

1.登录EMR on ECS控制台

 

2.软件设置

根据实际情况选择地域和资源组。

这里选择是数据湖的场景,如果有数据分析的可以重新再另建一个数据分析的EMR集群,这样以便于计算资源的隔离,如果不同的业务使用一个集群那资源就是混用的。

如果是生产环境需要开启服务高可用,服务高可用将会使用3个master节点保障服务的高可用。

元数据我们选择DLF统一元数据管理,当然也可以使用自建的RDS,不过这样就需要自己买个mysql的费用。

DLF数据目录我们使用默认的就好,也可以自建创建一个目录,如果其他EMR集群使用了同一个DLF数据目录,那就是使用的同一个元数据信息,这个需要注意

Hive存储模式使用数据湖存储,使用OSS-HDFS作为数据存储,所以这里需要我们在创建集群之前需要创建一个OSS的bucket,并开通OSS-HDFS服务。

Hive数据仓库路径这里填入前面创建OSS的bucket

3.硬件设置

付费类型,如果短期使用的我们选择按量付费,如果是长期选择包年包月。

专有网络,也就是vpc用于网络隔离的。

可用区我们这里选择和业务系统在同一个地域的同一个可用区内,保证效率。

节点组,master节点这个是不能扩容的,所以需要我们前面规划好。Master节点主要用来存储HDFS元数据和组件Log文件,属于计算密集型,对磁盘IO要求不高。HDFS元数据存储在内存中,建议根据文件数量选择16 GB以上内存空间。

Core节点会同时运行DataNode和Nodemanager。作为存储和计算节点使用,我们可以把数据存在OSS中,集群中的HDFS仅作为YARN任务分发的临时存储空间使用。

3.基础配置

身份凭证建议使用密钥对,这样更安全。

2.配置

1.组件配置

点击集群服务->选择Hive配置,修改配置项hive.execution.engine=tez。

2.用户管理

我们前面选择的knox,它可以让我们通过公网方式访问HDFS、YARN、Spark和Ganglia等Web UI页面,它可以帮助我们只开放一个端口访问所有的UI。

点击EMR集群->点击用户管理->添加用户,选择我们要添加的用户,然后设置密码,这个用户和密码用于后面访问组件UI的时候的验证。

3.安全组

knox默认使用了8443端口,所以在安全组中我们手动添加8443端口,授权对象为需要访问资源机器的ip地址。

4.Gateway

Gateway 主要用于向计算集群提交任务和进行安全隔离。部署组件客户端,访问EMR集群。

其部署过程如下

  1. 在 ECS 控制台创建 ECS 实例
  2. 在 ECS 实例安装 EMR-CLI 工具,并配置认证信息
  3. 通过 EMR-CLI 命令完成部署客户端软件包、同步集群配置及更新软件包操作。

在ECS实例安装EMR-CLI工具过程如下:

需要注意的是,如果使用spark客户端需要配置Gateway节点的域名解析。

如何创建ECS实例并基于EMR-CLI快速部署Gateway环境_开源大数据平台 E-MapReduce-阿里云帮助中心

3.组件UI

点击集群->访问链接与端口。点击之后输入我们前面添加的用户和密码访问。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/398998.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

国际安全领域顶会NDSS 2023录稿整理 (上)

隐私计算研习社 NDSS是网络和系统安全领域的四大顶级国际学术会议(BIG4)之一,第三十届会议于2023年2月27日到3月3日,在美国圣迭戈举办。本文将分上下两部分整理会议录取的94篇论文,并对论文进行分类,感兴趣…

【数据库概论】第七章 数据库设计

第七章 数据库设计 7.1 概述 1.数据库设计的基本步骤 数据库设计可以分为以下六个阶段 需求分析阶段 准别了解和分析用户的需求(包括数据与处理)。需求分析是整个设计过程的基础,觉定了在其上构建数据库的速度和质量。需求分析做不好可能会…

TwinCAT 3 ADS Monitor使用

TwinCAT 3 ADS Monitor使用 《20211022 TwinCAT ADS Monitor的使用方法》 《TwinCAT3.1从入门到精通》 TF6010 | TwinCAT 3 ADS Monitor 以上是基础知识,下面是实操 先在Instance中查看变量的偏移量,即地址 多变量读写测试 结果如下,4条指令…

GPC爬虫池有什么用?

GPC爬虫池有什么用? 答案是:100%提高外贸网站在Google搜索引擎的收录量。 众所周知,要想免费从谷歌搜索引擎获取流量,就好做好谷歌SEO。 一个网站是否能获取谷歌的认可,有一个重要的技术指标,就是这个网…

R语言基础(一):注释、变量

R语言用于统计分析和绘制图表等操作。不同于Java等其它语言,R用于统计,而不是做一个网站或者软件,所以R的一些开发习惯和其它语言不同。如果你是一个编程小白,那么可以放心大胆的学。如果你是一个有编程基础的人,那么需…

数字化时代,你应该知道的BI

我曾经看到有人在讨论过商业智能BI的部署对于企业是否有实际意义,现在市场的数据已经证明商业智能BI在商业世界中,在企业的实践中证明了自己的价值,得到了广泛的认可。 一、什么是BI 有一点可能很多人没有想到,实际上商业智能BI…

CorelDRAW2023详解新增七大功能 ,CorelDRAW2023最新版本更新怎么样?

CorelDRAW2023新功能有哪些?CorelDRAW2023最新版本更新怎么样?让我们带您详细了解! CorelDRAW Graphics Suite 2023是矢量制图行业的标杆软件,2023年全新版本为您带来多项新功能和优化改进。本次更新强调易用性,包括更…

如何使用vue创建一个完整的前端项目

搭建Vue项目的完整流程可以分为以下几个步骤:安装Node.js和npm:Vue.js是基于Node.js开发的,因此在开始搭建Vue项目之前,需要先安装Node.js和npm(Node.js的包管理器)。可以从官网下载Node.js安装包并安装。安…

数据的存储--->【大小端字节序】(Big Endian)(Little Endian)

⛩️博主主页:威化小餅干📝系列专栏:【C语言】藏宝图🎏 ✨绳锯⽊断,⽔滴⽯穿!一个编程爱好者的学习记录!✨前言计算机硬件有两种存储数据的方式:大端字节序——Big Endian小端字节序——Little …

【Android -- 开源库】表格 SmartTable 的基本使用

介绍 1. 功能 快速配置自动生成表格;自动计算表格宽高;表格列标题组合;表格固定左序列、顶部序列、第一行、列标题、统计行;自动统计,排序(自定义统计规则);表格图文、序列号、列标…

第十四届蓝桥杯三月真题刷题训练——第 6 天

目录 第 1 题:星期计算 问题描述 运行限制 代码: 第 2 题:考勤刷卡 问题描述 输入格式 输出格式 样例输入 样例输出 评测用例规模与约定 运行限制 代码: 第 3 题:卡片 问题描述 输入格式 输出格式 样…

Flutter-Scaffold组件

在Flutter开发当中,我们可能会遇到以下的需求:实现页面组合使用,比如说有悬浮按钮、顶部菜单栏、左右抽屉侧边栏、底部导航栏等等效果。Scaffold组件可以帮我们实现上面需求说的效果。这篇博客主要分享容器组件的Scaffold组件的使用&#xff…

AI视频智能分析EasyCVR视频融合平台录像计划模块搜索框细节优化

EasyCVR支持海量视频汇聚管理,可提供视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、智能分析等视频服务。在录像功能上,平台可支持: 根据业务场景自定义录像计划,可支持7*24H不间断录像,支持…

脑机接口科普0019——大脑的分区及功能

本文禁止转载!!!! 在前文脑机接口科普0018——前额叶切除手术_sgmcy的博客-CSDN博客科普中,有个这样的一张图: 这个图呢,把大脑划分为不同的区域,然后不同的区域代表不同的功能。 …

NLL loss(负对数似然损失)

NLL损失在NLP中含义 : 在自然语言处理中,通常用于分类任务,例如语言模型、情感分类等。NLL损失全称为Negative Log-Likelihood Loss,其含义是负对数似然损失。 在NLP任务中,我们通常将文本数据表示为一个序列&#x…

大数据是什么?学习后能找高薪工作么

大数据是什么,比较官方的定义是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 简单来说,大数据就是结构化的…

Unity使用webSocket与服务器通信(二)——C#服务器端使用Fleck时的简单服用方法

C#服务端用到Fleck包,它包含哪些可用的回调函数,有哪些常用的api方法? 演示:服务端收到Unity用户发来的信息 1、Fleck服务器提供哪些回调函数 Fleck提供的回调函数有下面几种: //用户连入服务器时... Action OnOp…

如何在Windows 10中安装PostgreSQL 15

PostgreSQL是一个强大的开源对象关系数据库系统,经过35年的积极开发,在可靠性、功能健壮性和性能方面赢得了很高的声誉。 通过官方文档可以找到大量的信息来描述如何安装和使用PostgreSQL。开源社区为熟悉PostgreSQL、发现它的工作原理和寻找职业机会提供了许多有用的地方。…

APP违法违规收集使用个人信息合规评流程和范围

近期,工信部通报2023年第1批《侵害用户权益行为的APP通报》(总第27批),共通报46款APP(SDK),这些被责令限期整改的APP(SDK),涉及的问题主要包括3个方面&#x…

Easy Deep Learning——卷积层

为什么需要卷积层,深度学习中的卷积是什么? 在介绍卷积之前,先引入一个场景 假设您在草地上漫步,手里拿着一个尺子,想要测量草地上某些物体的大小,比如一片叶子。但是叶子的形状各异,并且草地非…