什么是hdfs如何使用驱动程序访问hdfs

news2024/11/15 12:55:32

目录

什么是hdfs

主要特点包括:

架构组成:

应用场景:

如何使用驱动程序访问hdfs

准备工作环境:

启动 Hadoop 服务

可能遇到的问题:

ssh验证失败

验证Hadoop服务

对hdfs进行文件操作


什么是hdfs

HDFS(Hadoop Distributed File System)是Apache Hadoop项目中的一个关键组件,它是一个设计用来运行在商用硬件上的分布式文件系统。HDFS被设计为高容错性,并且适合部署在低成本硬件上,它提供了高吞吐量的数据访问和容量管理能力,适合大规模数据集的存储。

主要特点包括:

分布式存储:HDFS将数据分散存储在集群中的多台计算机上,每个文件被分成多个块(block),默认情况下,每个块大小为128MB(可以配置)。

高容错性:HDFS通过在集群中的多个节点上保存数据的多个副本来提供容错能力。如果某个节点或硬件发生故障,系统可以自动在其他节点上找到备份数据进行恢复,确保数据的可靠性和可用性。

适合大数据处理:HDFS被设计用来支持大数据集,具有高吞吐量的数据访问特性。它的设计考虑了数据的局部性原理,即将计算移动到数据附近,从而减少数据移动的开销,提高处理效率。

简单的一致性模型:HDFS采用了一种简单的一致性模型,适用于大多数应用程序的数据访问需求。

架构组成:

NameNode:负责管理文件系统的命名空间(namespace)以及客户端对文件的访问请求。它维护文件系统的目录树和文件到数据块的映射信息。

DataNode:负责实际存储数据块。每个数据节点(DataNode)负责存储和管理其上的数据块,并定期向NameNode报告它所存储的块信息。

应用场景:

HDFS广泛用于支持Apache Hadoop生态系统中的大数据处理应用,如MapReduce。它不仅适合存储大规模数据集,还能处理大数据的高吞吐量读写需求,是构建大数据分析和处理平台的重要基础之一。

如何使用驱动程序访问hdfs

准备工作环境:

安装和配置Hadoop:确保计算机或集群上安装了Hadoop,并且配置正确。这包括设置Hadoop的核心配置文件以及其他必要的配置。

1)、core-site.xml

这个文件包含了 Hadoop 核心的配置信息,如文件系统的默认名称(fs.defaultFS)、Hadoop 中各个服务的通信端口等。

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:8020</value>

</property>

<!-- 其他核心配置 -->

</configuration>

2)、hdfs-site.xml

这个文件包含了 HDFS (Hadoop 分布式文件系统) 的配置信息,如数据块的复制数量(dfs.replication)、数据节点的存储路径等。

<configuration>

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

<!-- 其他HDFS相关配置 -->

</configuration>

3)、mapred-site.xml

这个文件包含了 MapReduce 的配置信息,包括任务调度、作业跟踪等。

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<!-- 其他MapReduce相关配置 -->

</configuration>

4)、yarn-site.xml

这个文件包含了 YARN (Yet Another Resource Negotiator) 的配置信息,如资源管理器地址、节点管理器的配置等。

<configuration>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<!-- 其他YARN相关配置 -->

</configuration>

启动 Hadoop 服务

完成配置文件的修改后,可以通过以下命令重新启动 Hadoop 服务:

sbin/start-all.sh

可能遇到的问题:

ssh验证失败

解决方法:

1,将公钥添加到授权列表:

mkdir -p ~/.ssh
touch ~/.ssh/authorized_keys
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

2,设置文件权限:

chmod 700 ~/.ssh

chmod 600 ~/.ssh/authorized_keys

3,SSH 配置问题

确保 SSH 服务器的 SSH 配置允许使用密钥进行身份验证

更改了sshd_config文件的配置

PubkeyAuthentication yes 是否启用公钥验证

4,测试 SSH 登录:

ssh 主机名@localhost

SSH配置正确且成功连接

5,启动hadoop,启动失败

配置Hadoop环境变量

编辑 Hadoop 的配置文件 hadoop-env.sh,一般在安装目录/etc/hadoop/hadoop-env.sh,hadoopuser改为自己的主机名

export HDFS_NAMENODE_USER=hadoopuser

export HDFS_DATANODE_USER=hadoopuser

export HDFS_SECONDARYNAMENODE_USER=hadoopuser

export YARN_RESOURCEMANAGER_USER=hadoopuser

export YARN_NODEMANAGER_USER=hadoopuser

再次启动提示ssh认证问题

6,清理之前的进程,打开防火墙。

启动成功

验证Hadoop服务

使用jps查看进程

访问 Hadoop Web 界面

对hdfs进行文件操作

列出文件和目录:hadoop fs -ls /

创建目录:hadoop fs -mkdir /new_test

移动文件或目录:hadoop fs -mv /test /new_test

上传文件到 HDFS:hadoop fs -put Desktop/testFile.png /new_test/test

hadoop fs -ls /new_test/test

从 HDFS 下载文件到本地:hadoop fs -get /new_test/test/testFile.png local/test

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1950970.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构】栈(基于数组、链表实现 + GIF图解 + 原码)

Hi~&#xff01;这里是奋斗的明志&#xff0c;很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~~ &#x1f331;&#x1f331;个人主页&#xff1a;奋斗的明志 &#x1f331;&#x1f331;所属专栏&#xff1a;数据结构 &#x1f4da;本系列文章为个人学…

Linux--Socket 编程 UDP(简单的回显服务器和客户端代码)

目录 0.上篇文章 1.V1 版本 - echo server 1.1认识接口 1.2实现 V1 版本 - echo server&#xff08;细节&#xff09; 1.3添加的日志系统&#xff08;代码&#xff09; 1.4 解析网络地址 1.5 禁止拷贝逻辑&#xff08;基类&#xff09; 1.6 服务端逻辑 &#xff08;代码&…

Leetcode—769. 最多能完成排序的块【中等】

2024每日刷题&#xff08;149&#xff09; Leetcode—769. 最多能完成排序的块 实现代码 class Solution { public:int maxChunksToSorted(vector<int>& arr) {int ans 0;int mx INT_MIN;for(int i 0; i < arr.size(); i) {mx max(arr[i], mx);if(mx i) {a…

【C++】C++应用案例-旋转图像

旋转图像的需求&#xff0c;在图片处理的过程中非常常见。我们知道对于计算机而言&#xff0c;图像其实就是一组像素点的集合&#xff0c;所以图像旋转的问题&#xff0c;本质上就是一个二维数组的旋转问题。 我们可以给定一个二维数组&#xff0c;用来表示一个图像&#xff0c…

【C++】——红黑树(手撕红黑树,彻底弄懂红黑树)

目录 前言 一 红黑树简介 二 为什么需要红黑树 三 红黑树的特性 四 红黑树的操作 4.1 变色操作 4.2 旋转操作 4.3 插入操作 4.4 红黑树插入代码实现 4.5 红黑树的删除 五 红黑树迭代器实现 总结 前言 我们之前都学过ALV树&#xff0c;AVL树的本质就是一颗平…

Oracle对比两表数据的不一致

MINUS 基本语法如下 [SQL 语句 1] MINUS [SQL 语句 2];举个例子&#xff1a; select 1 from dual minus select 2 from dual--运行结果 1-------------------------------- select 2 from dual minus select 1 from dual--运行结果 2所以&#xff0c;如果想找所有不一致的&a…

软件测试---Linux

Linux命令使用&#xff1a;为了将来工作中与服务器设备进行交互而准备的技能&#xff08;远程连接/命令的使用&#xff09;数据库的使用&#xff1a;MySQL&#xff0c;除了查询动作需要重点掌握以外&#xff0c;其他操作了解即可什么是虚拟机 通过虚拟化技术&#xff0c;在电脑…

富芮坤FR800X系列之按键检测模块设计

FR800X系列按键检测模块 读者对象&#xff1a; 本文档主要适用以下工程师&#xff1a; 嵌入式系统工程师 单片机软件工程师 IOT固件工程师 BLE固件工程师 文章目录 1.概要2.用户如何设计按键检测模块2.1 GPIO初始化2.2按键模块初始化2.3设计中断函数&#xff1a;2.4循环…

【Python面试题收录】Python编程基础练习题①(数据类型+函数+文件操作)

本文所有代码打包在Gitee仓库中https://gitee.com/wx114/Python-Interview-Questions 一、数据类型 第一题&#xff08;str&#xff09; 请编写一个Python程序&#xff0c;完成以下任务&#xff1a; 去除字符串开头和结尾的空格。使用逗号&#xff08;","&#…

【数据库】Quartz2.3 框架 数据库设计说明书

1、 Quartz表说明 2、 quartz 的触发时间的配置 1、 cron 方式&#xff1a;采用cronExpression表达式配置时间。 2、 simple 方式&#xff1a;和JavaTimer差不多&#xff0c;可以指定一个开始时间和结束时间外加一个循环时间。 3、 calendars 方式&#xff1a;可以和cron配合使…

Java-----栈

目录 1.栈&#xff08;Stack&#xff09; 1.1概念 1.2栈的使用 1.3栈的模拟实现 1.4栈的应用场景 1.5栈、虚拟机栈、栈帧有什么区别呢 1.栈&#xff08;Stack&#xff09; 1.1概念 栈&#xff1a;一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操…

Centos8 yum 更换源以及安装内核头文件

文章目录 一、简介二、yum 更换源三、安装内核头文件 一、简介 CentOS 是一个开源项目&#xff0c;发布了两个不同的 Linux 发行版——CentOS Stream 和 CentOS Linux 。 CentOS Stream 是即将发布的红帽企业 Linux 产品的上游开发平台。 CentOS 项目将于 2024 年 6 月 30 日…

场外期权如何报价?名义本金是什么?

今天带你了解场外期权如何报价&#xff1f;名义本金是什么&#xff1f;投资者首先需要挑选自己想要进行期权交易的沪深上市公司股票。选出股票后&#xff0c;需要将股票信息、预期的操作时间&#xff08;如期限&#xff09;、看涨或看跌的选择以及预计的交易金额等信息报给场外…

商家虚假发货行为频发,电商平台如何通过物流轨迹来监管?(内附视频号、抖音、京东的发货规则)

近年来&#xff0c;“虚假发货”问题在电商行业中日益凸显。某投诉平台数据显示&#xff0c;截至2024年7月&#xff0c;搜索“虚假发货”显示的投诉高达19万条&#xff0c;如何有效监控卖家发货的合规性与及时性、打击虚假发货行为成为电商平台的重要议题。 为了维护消费者权益…

剧透:巴黎奥运会用上了AI转播

** AI增强技术&#xff0c;让比赛画面变成电影特效。 ** 巴黎奥运会即将开幕&#xff01; 阿里云在奥运转播中应用的AI增强技术 将让比赛画面变成电影特效&#xff01; 剧透如下 &#x1f447;&#x1f3fb; 阿里云为奥运转播提供的高自由度回放“子弹时间”&#xff0c;是…

[Mysql-DDL数据操作语句]

目录 DDL语句操作数据库 库&#xff1a; 查看&#xff1a;show 创建&#xff1a;creat 删除&#xff1a;drop 使用(切换)&#xff1a;use 表&#xff1a; 查看&#xff1a;desc show 创建&#xff1a;create 表结构修改 rename as add drop modify change rename as …

cesium海洋到站提示

项目地址:Every Admin: 用于快速搭建后台管理和其他页面的项目,组件化开发,以及大屏展示. <template> <div class"topbox"> xx海洋管理 </div> <div class"selectbox"> <div class"title"> 航线列表 </div>…

了解Java虚拟机(JVM)

前言&#x1f440;~ 上一章我们介绍网络原理相关的知识点&#xff0c;今天我们浅浅来了解一下java虚拟机JVM JVM&#xff08; Java Virtual Machine &#xff09; JVM内存区域划分 方法区/元数据区&#xff08;线程共享&#xff09; 堆&#xff08;线程共享&#xff09; 虚…

Nginx 配置与优化:常见问题全面解析

文章目录 Nginx 配置与优化:常见问题全面解析一、Nginx 安装与配置问题1.1 Nginx 安装失败问题描述解决方法1.2 Nginx 配置文件语法错误问题描述解决方法二、Nginx 服务启动与停止问题2.1 Nginx 无法启动问题描述解决方法2.2 Nginx 服务无法停止问题描述解决方法三、Nginx 性能…

尚硅谷vue全家桶(vue2+vue3)笔记

Vue2 一、Vue核心 01_简介 1.特点 采用组件化模式&#xff0c;提高代码复用率、且让代码更好维护。声明式编码&#xff0c;让编程人员无需直接操作DOM&#xff08;命令式编码&#xff09;&#xff0c;提高开发效率。使用虚拟DOM优秀的Diff算法&#xff0c;尽量复用DOM节点。…