Hadoop Java API操作 及读取序列化文件(04-05-06)

news2025/1/10 17:18:00

    针对于04-05-06班级整合。

1.创建java项目

2.修改pom.xml文件

添加依赖

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.1.4</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.12</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>1.7.30</version>
    </dependency>
</dependencies>

3.创建一个名为HdfsTest类,在类中编写单元测试代码测试API中的每个方法

(1)查看HDFS根目录下的文件或子目录,并将名称打印在控制台

//单元测试  每个操作放在一个测试方法中,  选中方法名---》右击  运行testList()
@Test
public void testList() throws Exception{

    //1.创建配置对象
    Configuration conf = new Configuration();
    //2.获取文件系统对象  yt启动集群的用户名
    // FileSystem fs = FileSystem.get(conf);
    FileSystem fs = FileSystem.get(new URI("hdfs://master:8020") ,conf,"yt");
    //3.获取HDFS根目录下的子目录和文件
    FileStatus  []files =fs.listStatus( new Path("/"));
    //4.循环所有的files
    for(FileStatus f:files){
        //判断是文件还是目录
        if(f.isFile()){
            System.out.println(  "f:  "+f.getPath().getName() );
        }else {
            System.out.println(" d:    "+f.getPath().getName());
        }
    }

    //关闭资源
    fs.close();

}

控制台输出的结果:

(2)创建目录

//创建目录
@Test
public void testMkdirs() throws Exception{

    //1.创建配置对象
    Configuration conf = new Configuration();
    //2.获取文件系统对象  yt启动集群的用户名
    FileSystem fs = FileSystem.get(new URI("hdfs://master:8020") ,conf,"yt");

    fs.mkdirs(new Path("/hdfs/2306"));


    //关闭资源
    fs.close();

}

测试结果:

(3)删除非空目录

//删除文件或目录
@Test
public void testDelete() throws Exception{

    //1.创建配置对象
    Configuration conf = new Configuration();
    //2.获取文件系统对象  yt启动集群的用户名
    FileSystem fs = FileSystem.get(new URI("hdfs://master:8020") ,conf,"yt");

    fs.delete(new Path("/output-2302-order"),true);


    //关闭资源
    fs.close();

}

(4)文件上传

//文件上传
@Test
public void testCopyFromLocalFile() throws Exception{

    //1.创建配置对象
    Configuration conf = new Configuration();
    //2.获取文件系统对象  yt启动集群的用户名
    FileSystem fs = FileSystem.get(new URI("hdfs://master:8020") ,conf,"yt");

    fs.copyFromLocalFile(new Path("D:\\software\\apache-maven-3.8.6.rar"),new Path("/hdfs/2306/"));
    //关闭资源
    fs.close();

}

(5)文件下载

//文件下载
@Test
public void testCopyToLocalFile() throws Exception{

    //1.创建配置对象
    Configuration conf = new Configuration();
    //2.获取文件系统对象  yt启动集群的用户名
    FileSystem fs = FileSystem.get(new URI("hdfs://master:8020") ,conf,"yt");

    fs.copyToLocalFile(new Path("/bigdata/order.txt"),new Path("D:\\software\\"));
    //关闭资源
    fs.close();

}

(6)读取HDFS上的序列化文件,将数据保存到D:\\software\\raceData.txt

//读取序列化文件中的数据保存到本次磁盘
@Test
public void testSequenceFileRead() throws Exception{

    //1.创建配置对象
    Configuration conf = new Configuration();
    //2.获取文件系统对象  yt启动集群的用户名
    FileSystem fs = FileSystem.get(new URI("hdfs://master:8020") ,conf,"yt");

    SequenceFile.Reader reader = new SequenceFile.Reader(fs,new Path("/ouput-2301-select/part-m-00000"),conf);
    //创建文件对象
    File file = new File("D:\\software\\raceData.txt");
    //创建字节流对象
    OutputStream  out = new FileOutputStream(file);
    //创建缓冲字符输出流对象
    BufferedWriter  bw =new BufferedWriter( new OutputStreamWriter(out) );
    Text key =new Text();
    Text val =new Text();
    while(  reader.next(key,val)   ){
        bw.write(  key.toString()+"\t" +val.toString()  );
        bw.newLine();
    }
    bw.flush();
    //关闭资源
    bw.close();
    out.close();
    fs.close();

}

代码中的part-m-0000文件,需要完成 --筛选日志并生成序列化文件
           https://blog.csdn.net/lydia88/article/details/138184788

才能得到日志化文件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1678729.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

react18【系列实用教程】memo —— 缓存组件 (2024最新版)

memo 的语法 如上图所示&#xff0c;在react中&#xff0c;当父组件重新渲染时&#xff0c;子组件也会重新渲染&#xff0c;即便子组件无任何变化&#xff0c;通过 memo 可以实现对组件的缓存&#xff0c;即当子组件无变化时&#xff0c;不再重新渲染子组件&#xff0c;核心代码…

leetcode刷题(6):二叉树的使用

文章目录 104. 二叉树的最大深度解题思路c 实现 94. 二叉树的中序遍历解题思路c 实现 101. 对称二叉树解题思路c 实现 96. 不同的二叉搜索树解题思路c 实现 102. 二叉树的层序遍历解题思路c 实现 104. 二叉树的最大深度 题目: 给定一个二叉树 root &#xff0c;返回其最大深度…

Git—安装及介绍

下载Git 官网地址&#xff1a;Git - Downloads (git-scm.com) 安装 双击安装包 点击 next 检查安装 桌面&#xff0c;右键鼠标&#xff0c;是否出现 Git GUI Here 和 Git Bash Here 打开Git Bash Here 输入命令 git --verison

LVS+Keepalived群集及搭建

LVSKeepalived群集及搭建 Keepalived 简介什么是Keepalived &#xff1f;Keepalived 的作用keepalived体系主要模块及作用Keepalived 选举策略选举策略priority 和 weight 的设定 Keepalived脑裂及解决方法部署LVSkeepalived高可用集群服务器准备配置NFS共享配置主DR服务器配置…

街道治安新利器:EasyCVR智能视频管理方案助力城市安全新高度

一、背景分析 随着城市化进程的加快和社会治安形势的日趋复杂&#xff0c;街道治安管理面临着前所未有的挑战。对于街道治安的管理&#xff0c;面临着街道上机动车、非机动车违停、游商摊贩、垃圾堆积、人员监管等问题&#xff0c;既影响市容市貌&#xff0c;又有安全隐患。传…

Python——Pandas的基本使用方法(1)

1.文件读写 图1-1 iris部分数据 图1-2 tips部分数据 图1-3 tips1部分数据 1.1 读取csv文件 —— read.csv() read.csv()部分参数的解释如下&#xff1a; 参数名称作用备注filepath_or_buffer要读取的文件路径或对象sep字段分隔符&#xff0c;默认为逗号delimiter字段分隔符与…

通过C++和libcurl下载网易云音乐音频文件的5个简单步骤

概述 在网络编程中&#xff0c;使用C和libcurl库下载文件是一项常见的任务。网易云音乐作为中国领先的在线音乐服务平台之一&#xff0c;以其丰富的音乐资源、优质的音质和智能推荐系统而广受欢迎。由于其平台提供了大量的正版音乐资源&#xff0c;用户在下载音频文件时可能会…

Pikachu 靶场 File Inclusion 通关解析

前言 Pikachu靶场是一种常见的网络安全训练平台&#xff0c;用于模拟真实世界中的网络攻击和防御场景。它提供了一系列的实验室环境&#xff0c;供安全专业人士、学生和爱好者练习和测试他们的技能。 Pikachu靶场的目的是帮助用户了解和掌握网络攻击的原理和技术&#xff0c;…

微信小程序的自定义组件

一、创建自定义组件 &#xff08;1&#xff09;定义&#xff1a; 把页面重复的代码部分封装成为一个自定义组件&#xff0c;以便在不同的页面中重复使用&#xff0c;有助于代码的维护。 &#xff08;2&#xff09;组成&#xff1a; 自定义组件的组成&#xff1a;json文件&a…

自学C语言能达到什么境界呢?

C 语言是一门广泛应用于系统软件、嵌入式系统、游戏开发等领域的编程语言。那么&#xff0c;通过自学 C 语言&#xff0c;能够达到什么样的境界呢&#xff1f; 就像学习小提琴一样&#xff0c;仅凭自学也可以达到一定的水平&#xff0c;能够自娱自乐&#xff0c;在亲友聚会时表…

python手写数字识别(PaddlePaddle框架、MNIST数据集)

python手写数字识别&#xff08;PaddlePaddle框架、MNIST数据集&#xff09; import paddle import paddle.nn.functional as F from paddle.vision.transforms import Compose, Normalizetransform Compose([Normalize(mean[127.5],std[127.5],data_formatCHW)]) # 使用tran…

软件确认测试详细介绍

在软件开发流程中&#xff0c;确认测试是一个至关重要的环节&#xff0c;它确保软件产品满足预定的需求、性能和质量标准。本文将详细介绍软件确认测试的概念、目的、方法、执行步骤以及其在软件开发周期中的重要性。   一、软件确认测试的概念   软件确认测试&#xff0c;…

SuperBox设计出图的效率提升!新增内门自动开孔和垫高支架图纸输出功能

越来越多的配电箱项目要求带内门&#xff0c;内门不仅可以有效减少外界灰尘、异物进入配电箱内部&#xff0c;保障配电箱正常运行&#xff0c;还能够隔离操作人员意外触摸导电部件&#xff0c;减少触电事故的发生。但是配电箱在配置内门后&#xff0c;会给设计带来更多的要求&a…

[图解]SysML和EA建模住宅安全系统-04

1 00:00:01,200 --> 00:00:04,710 我们首先来看一下需求图的一些要点 2 00:00:05,810 --> 00:00:07,080 需求图用来干什么 3 00:00:07,210 --> 00:00:12,080 用来记录文本形式的一些需求 4 00:00:12,090 --> 00:00:13,480 和需求的素材 5 00:00:14,540 --> …

【GESP】2023年12月图形化三级 -- 小杨做题

小杨做题 【题目描述】 为了准备考试,小杨每天都要做题。第 1 天,小杨做了 a a a 道题,第 2 天,小杨做了 b b b

GPT-4o: 从最难的“大海捞针”基准看起

大模型技术论文不断&#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读&#xff0c;主题还是围绕着行业实践和工程量产。若在阅读过程中有些知识点存在盲区&#xff0c;可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果…

高压无源探头能测整流桥电压吗?

高压无源探头是用于测量高电压电路中信号的一种工具&#xff0c;它不需要外部电源供电。然而&#xff0c;对于测量整流桥电压&#xff0c;需要考虑几个因素以确定是否可以使用高压无源探头。 首先&#xff0c;让我们了解一下整流桥的基本原理。整流桥是一种电路&#xff0c;用…

华为OD机试 - 反射计数 - 矩阵(Java 2024 C卷 200分)

华为OD机试 2024C卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;A卷B卷C卷&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;每一题都有详细的答题思路、详细的代码注释、样例测试…

人工智能领域向量化技术加速多模态大模型训练与应用

目录 前言1、TextIn文档解析技术1.1、文档解析技术1.2、目前存在的问题1.2.1、不规则的文档信息示例 1.3、合合信息的文档解析1.3.1、合合信息的TextIn文档解析技术架构1.3.2、版面分析关键技术 Layout-engine1.3.3、文档树提取关键技术 Catalog-engine1.3.4、双栏1.3.5、非对称…

【Java基础】集合(1) —— Collection

存储不同类型的对象: Object[] arrnew object[5];数组的长度是固定的, 添加或删除数据比较耗时 集合: Object[] toArray可以存储不同类型的对象随着存储的对象的增加&#xff0c;会自动的扩容集合提供了非常丰富的方法&#xff0c;便于操纵集合相当于容器&#xff0c;可以存储多…