03.hadoop上课笔记之hdfs环境的搭建和使用

news2024/10/6 4:01:49

1.启动网络
在windows任务管理器启动服务vm Dhcp
在这里插入图片描述

#由动态ip变为静态

  #启动网卡
  ifup ens33
  #修改网卡配置文件
  vi /etc/sysconfig/network-scripts/ifcfg-ens33
  BOOTSTRAP=static
  IPADDR=192.168.202.101
  NETMASK=255.255.255.0
  GATEWAY=192.168.202.2
  DNS1=192.168.202.2

#重启网络

  service  network restart 

2.安装mysql软件
1.二进制(要编译,难度高) rpm tar deb(yum 和rpm都要rpm包)

 red hat package manager
   rpm -ivh mysql*.rpm #有包依赖问题,需要其他包,自己要先下好rpm文件
   yum  search ifconfig           #解决包依赖  yellow dog updater,使用互联网
   yum install net-tools  #查到相关不同名的包
  #ftp下载多个connector包后
 rpm  -ivh  mysql*.rpm
  #mariadb与mysql冲突
  yum remove mariadb-libs
  msql -u root -p
 #修改密码
 set global validate_password_length=6;
   set password=password('123456')

3.设置仓库

   cd /etc/yum.repos.d/CentOsxxxx.repo
   #查看文件配置文件
    rpm  -qc

4.部署模式

1.独立模式
2.伪分布式(一台机器,分布式)
3.完全分布式(多台机器部署)

5.安装hadoop java环境
1.解压文件
2.配置java全局变量

 vi ~/.bashrc
 #写入
 export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
 export JRE_HOME=${JAVA_HOME}/jre
 export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
 export PATH=${JAVA_HOME}/bin:$PATH:/url/local/hadoop/bin
 #重新编译
 source ~/.bashrc

#hadoop的是 sbin 和bin
hadoop version
java -v
cat output/* #查看多个文件

6.安装伪分布式,与独立式区分,它在hdfs存储,配置文件为空为单机模式

1.core-site.xml 设置hdfs的访问路径和存储位置

      <property>
                <name>fs.defaultFS</name>
                <value>hdfs://localhost:9000</value>
        </property>
      <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/hadoop/tmp</value>
        </property>

2.#vim etc/hadoop/hdfs-site.xml 设置集群份数和nn和dn的存储位置

   <property>
            <name>dfs.replication</name> #集群数据复制的份数,高可用
            <value>1</value>
    </property>
    <property>
            <name>dfs.namenode.name.dir</name>
            <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
            <name>dfs.datanode.data.dir</name>
            <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
  3.格式化hdfs
  cd /usr/local/hadoop/
  ./bin/hdfs namenode  -format
  4.启动  
sudo systemctl stop firewalld
sudo setenforce 0
#访问http://192.168.202.100:9870/  hdfs的网络路径
#创建多层文件夹
./bin/hdfs dfs -mkdir -p /user/hadoop 
#创建文件夹
./bin/hdfs dfs -mkdir input
#放入本地文件到hdfs文件夹
 ./bin/hdfs dfs -put etc/hadoop/*.xml input
 #查看文件夹的文件和目录
  ./bin/hdfs dfs -ls input
  #运行hadoop自带的demo
 ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar  grep input output 'dfs[a-z.]+'
  ./bin/hdfs dfs -cat output/*  #查看结果
  ./bin/hdfs dfs -rm -r output  #删除结果

7.namenode存储数据 9000是内部进程通讯(多台机器一样配置文件) 9870对外端口 web-ui
请添加图片描述

8.完全分布式
#克隆机器即可,ssh…配置文件自己配
#master nodemanager namenode secondarynode historyxxx
#slaver 都是namenode
#黑客可以改C:/sys32/etc/hosts文件 导致我们访问钓鱼网站…
#vmware 编辑–>粘贴
#直接上传配置文件
#远程连接hadoop,修改配置文件为ip即可,涉及集群安全.客户端也可以删除

  cd /usr/local/hadoop/etc/hadoop/core-site.xml
  hdfs dfs - ls 
  hdfs dfs -cat output/*  

9.追加内容到文件

  echo "export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin">>.bashrc
                          
  source .bashrc

10.hdfs 高容错性(备份) 不可以修改(一次写入多次查询,不支持并发,不适合大量的小文件)(元数据太多了,内存不够用)(namenode配置文件的指定dir/current可以查看snn和nn)

  1. namenode: 文件名和文件夹下的文件的信息(块) 如果文件丢失不能启动
    1. fsimage(元数据镜像文件)(在内存中)(文件树,文件夹)
    2. editLog(操作的日志) 怕突然死机数据丢失,定期更新
      _inprogress文件是记录正在修改的信息

2.secondaryNameNode: (备份nn数据 fsimg 和editlog) 定期清除 fsimage和editlog(合并后到 主namenode) 默认1小时执行一次,startup progress可以看启动信息 如图h2

在这里插入图片描述

hdfs(原)元数据metadata: 像mysql元数据库的表保存了mysql表名用户名,可以实现sql注入
#ls -lh

11.hdfs数据块 block默认128m hdfs最小文件大小

master文件上传master文件都有存在块,
slave1上传slave1也存在块(因为slave1先存在本地,然后网络先发到cpu快,磁盘有多个节点时)

#删除目录
    hdfs dfs  -rm -r  mydir
#查看日志文件
    cd /usr/local/hadoop/tmp/dfs/name/current
    hdfs oev -i edits_inprogress  -o  xxx.xml -p XML 

cp与get的区别: get是服务器到本地,cp是服务器到服务器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/589335.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue动态路由在实际项目中的应用(包含前后台细节)

背景 近期做一个公司的门户网站&#xff0c;在产品和新闻这一块需要用到动态路由。本节博客以产品板块为例说一下动态路由的应用。 另外如果路由相关的基础知识有问题&#xff0c;可以查看我的这篇博客&#xff1a; Vue2路由的详细讲解 另外&#xff0c;这篇博客也会涉及到一…

macOS visual studio code 没有读写权限 检查更新报错

问题描述 visual studio code 检查更新&#xff0c;报错&#xff0c;visual studio code没有磁盘读写权限。&#xff08;可能会导致插件安装报错&#xff1f;&#xff09; 报错&#xff1a;The application is on a read-only volume. Please move the application and try a…

网络安全人员需要考的几本(含金量高)的证书!

网络安全行业含金量最高的当属CISSP——注册信息系统安全专家。但这个认证也是大家公认比较难考的证书. 含金量次之的CISP——国家注册信息安全专业人员&#xff0c;包含CISE&#xff08;工程师&#xff09;、CISO&#xff08;管理&#xff09;、CISA&#xff08;外审&#xf…

面试前15天刷完这个笔记,拿下字节测开岗offer....

面试&#xff0c;跳槽&#xff0c;每天都在发生&#xff0c;跳槽&#xff0c;更是很常见的&#xff0c;对于每个人来说&#xff0c;跳槽的意义也各不相同&#xff0c;可能是一个人更向往一个更大的平台&#xff0c;更好的地方&#xff0c;可以通过换一个环境改变自己的现状。而…

基于OpenCV [c++]——形态学操作(分析和应用)

摘要&#xff1a; 形态学一般指生物学中研究动物和植物结构的一个分支。用数学形态学&#xff08;也称图像代数&#xff09;表示以形态为基础对图像进行分析的数学工具。 基本思想是用具有一定形态的结构元素去度量和提取图像中的对应形状以达到对图像分析和识别的目的。 形…

这篇文章把MOS管的基础知识讲透了

MOS管&#xff08;Metal-Oxide-Semiconductor field-effect transistor&#xff09;是一种常见的半导体器件&#xff0c;它在数字电路、模拟电路、功率电子等领域都有广泛的应用。本文将从MOS管的基本结构、工作原理、参数特性等方面讲解MOS管的基础知识。 一、MOS管的基本结构…

MediaPlayer error(-38, 0) 异常处理

文章目录 1、参考资料2、业务背景3、解决方案 1、参考资料 Media Player called in state 0, error (-38,0) MediaPlayer的使用 2、业务背景 对时长超过 5s 的音频提供裁剪、试听功能&#xff0c;裁剪、试听最大时长均为 5s。当视频长度在 5s ~ 6s 之间&#xff0c;试听暂停…

Flink on yarn任务日志怎么看

1、jobmanager日志 在yarn上可以直接看 2、taskmanager日志 在flink的webui中可以看&#xff0c;但是flink任务失败后&#xff0c;webui就不存在了&#xff0c;那怎么看&#xff1f; 这是jobmanager的地址 hadoop02:19888/jobhistory/logs/hadoop02:45454/container_e03_16844…

Apache应用和配置

目录 构建虚拟 Web 主机基于域名的虚拟主机基于IP地址的虚拟主机基于端口的虚拟主机 Apache 连接保持构建Web虚拟目录与用户授权限制Apache 日志分割 构建虚拟 Web 主机 虚拟Web主机指的是在同一台服务器中运行多个Web站点&#xff0c;其中每一个站点实际上并不独立占用整个服务…

【发电机、输变电JDL-5400A 电流继电器 报警信号切除故障JOSEF约瑟】

名称&#xff1a;电流继电器&#xff1b;品牌&#xff1a;JOSEF约瑟&#xff1b;型号&#xff1a;JDL-5400A&#xff1b;触点容量&#xff1a;250V2A&#xff1b;返回时间&#xff1a;≤35ms&#xff1b;整定范围&#xff1a;0.03-19.9A&#xff1b;特点&#xff1a;返回系数高…

应用案例 | 升级OPC Classic到OPC UA,实现安全高效的数据通信

一 背景 OPC&#xff08;OLE for Process Control&#xff0c;用于过程控制的OLE&#xff09;是工业自动化领域中常见的通信协议。它提供了一种标准化的方式&#xff0c;使得不同厂商的设备和软件可互相通信和交换数据。OPC Classic是旧版OPC规范&#xff0c;通过使用COM&…

LabVIEWCompactRIO 开发指南第六章42

LabVIEWCompactRIO 开发指南第六章42 要使用用户控制的I/O示例方法进行编程&#xff0c;请按照以下步骤操作&#xff0c;这些步骤引用了图6.9中的示例程序。 初始化进程 1.调用重置I/O函数。此调用完成后&#xff0c;模块已准备好使用用户控制的I/O采样函数执行采集。必须首…

财务共享五大价值助力央企构建世界一流财务管理体系

如果说小微企业是我国市场经济的毛细血管的话&#xff0c;那么央企就是承载着我国市场发展的主动脉。以规模为导向来看&#xff0c;央企完成了第一次长征&#xff0c;但央企在盈利能力、市场份额、行业地位、专利技术与优势、品牌影响力、市值管理、标准和规则制定话语权等软实…

从1万张模板中找的运营知识图谱,超级牛!

运营现在是时下大家都很熟悉的一个行业&#xff0c;我们熟知的有内容运营、用户运营、产品运营、新媒体运营、活动运营 社群运营、电商运营、品牌运营等多种运营方式。 想要做好运营&#xff0c;其实是需要很丰富的知识体系的&#xff0c;今天就给大家分享一些厉害的运营图谱。…

英伟达曝光超级芯片 黄仁勋:AI已重塑计算机产业

5月29日&#xff0c;英伟达再曝新品“NVIDIA DGX™超级计算机”&#xff0c;为生成式AI语言应用、推荐系统和数据分析工作负载的巨型模型提供硬件支持。 该计算机的核心组件是已经全面投产的英伟达Grace Hopper超级芯片——2000 亿个晶体管&#xff0c;在同一封装内集成了72核…

TC-PERM系列 单/双通道消光比测试仪

单/双通道消光比测试仪可独立进行偏振消光比测试、光功率测试、数字调零、数字校准、手动或自动选择量程&#xff0c;配备 USB(RS232) 接口&#xff0c;上位机软件可自动进行数据测试、 记录、分析&#xff0c;可方便地组成自动测试系统。 广泛应用于光通信设备、光纤、光无源器…

Deep Frequency Filtering for Domain Generalization论文阅读笔记

这是CVPR2023的一篇论文&#xff0c;讲的是在频域做domain generalization&#xff0c;找到频域中generalizable的分量enhance它&#xff0c;suppress那些影响generalization的分量 DG是一个研究模型泛化性的领域&#xff0c;尝试通过各自方法使得模型在未见过的测试集上有良好…

zabbix监控山石防火墙

一、导入监控模板 <Template Net Hillstone StoneOS SNMPv2> 导入前请确保zabbix内置的模板Template Net Network Generic Device SNMPv2存在。 支持山石E系列和X系列防火墙 兼容Zabbix 4.x和5.x。 二、监控内容 SNMP状态和接口速率由Template Net Network Generic De…

2023年互联网Java工程师高级面试八股文汇总(1260道题目附解析)

今年的行情&#xff0c;让招聘面试变得雪上加霜。已经有不少大厂&#xff0c;如腾讯、字节跳动的招聘名额明显减少&#xff0c;面试门槛却一再拔高&#xff0c;如果不用心准备&#xff0c;很可能就被面试官怼得哑口无言&#xff0c;甚至失去了难得的机会。 现如今&#xff0c;情…

基于imx8m plus开发板全体系开发教程5:Cortex-M7开发

前言&#xff1a; i.MX8M Plus 开发板是一款拥有 4 个 Cortex-A53 核心&#xff0c;运行频率 1.8GHz;1 个 Cortex-M7 核心&#xff0c;运行频率 800MHz;此外还集成了一个 2.3 TOPS 的 NPU&#xff0c;大大加速机器学习推理。 全文所使用的开发平台均为与NXP官方合作的FS-IMX8…