前期Hadoop学习总结

news2025/1/15 20:39:45

前期Hadoop学习总结

1.Linux:操作系统

2.虚拟机:主机

3.SecureCRT (客户端):连接Linux 方便操作

4.Hadoop:软件 这个软件要装在Linux里面

5.Hadoop是干嘛的:

Hadoop是一个开源的分布式计算框架,主要用于存储和处理大规模数据集。它提供了一个可靠、可扩展的平台,能够在集群中运行大规模数据处理应用。

Hadoop的主要组件包括:

1) Hadoop分布式文件系统(HDFS):这是Hadoop的核心组件之一,用于存储大规模数据集。HDFS将数据分布式存储在集群的各个节点上,以保证数据的高可靠性和可扩展性。

2) MapReduce:MapReduce是Hadoop中用于并行处理大规模数据的编程模型和执行框架。它将数据处理任务分解成Map(映射)和Reduce(归约)两个阶段,可以在集群中并行执行,从而实现高效的数据处理。

3) YARN(Yet Another Resource Negotiator):YARN是Hadoop的资源管理器,负责集群资源的管理和任务调度。它允许多个数据处理应用同时在同一集群上运行,提高了集群资源的利用率。

4) Hadoop Common:这是Hadoop的公共库和工具集,包括一些基本的工具和实用程序,为其他Hadoop组件提供支持。

Hadoop的应用领域包括但不限于:

- 大数据分析:Hadoop可以处理大规模的结构化和非结构化数据,用于数据挖掘、机器学习、数据清洗等任务。

- 日志处理:许多公司和组织使用Hadoop来处理大量的日志数据,从中提取有用的信息和洞察。

- 实时数据处理:通过与其他技术(如Apache Spark、Apache Flink等)结合,Hadoop也可以用于实时数据处理和流式计算。

- 数据仓库:Hadoop可以作为数据仓库的一部分,用于存储和管理企业的大数据,支持企业决策和分析。

总之,Hadoop为处理大规模数据提供了强大的工具和平台,对于需要处理海量数据的企业和组织来说,是一种非常有价值的解决方案。

6.Hadoop安装

【Hadoop大数据处理技术-安装配置篇 -  CSDN App】http://t.csdnimg.cn/5cQWS

【Hadoop大数据处理技术-配置连接篇 -  CSDN App】http://t.csdnimg.cn/QiFcy

【Hadoop学习前jdk的配置 -  CSDN App】http://t.csdnimg.cn/noAKa

【Hadoop的安装及配置 -  CSDN App】http://t.csdnimg.cn/vkzsi

【Hadoop 启动! -  CSDN App】http://t.csdnimg.cn/CNFeM

7.start-dfs.sh

我们想要使用Hadoop做一些相关的数据存储 就要把相应的进程启动起来

8.start-yarn.sh

ResourceMan​ager:老大 负责调度

NodeManager​:小弟 数据在哪里 就用哪个NodeManager处理数据

9.上传数据:hadoop fs -put Linux路径 Hadoop路径

10.查看数据:hadoop fs -ls /

11.利用JavaAPI将数据传到Hadoop上

将d:/a.txt上传到hadoop中的/目录下package com.pracle.example;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import java.io.FileInputStream;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;public class Test2 {    public static void main(String[] args) throws URISyntaxException, IOException {        Configuration configuration=new Configuration();        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.67.90:9000"), configuration);        FSDataOutputStream out = fs.create(new Path("/c.txt"));        FileInputStream input=new FileInputStream("d:/a.txt");        byte[] b=new byte[1024];        while (true){            int r=input.read(b);            if(r==-1){                break;            }else{                out.write(r);            }        }    }}

查看证实

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1628672.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LLMOps】小白详细教程,在Dify中创建并使用自定义工具

文章目录 博客详细讲解视频点击查看高清脑图 1. 搭建天气查询http服务1.1. flask代码1.2. 接口优化方法 2. 生成openapi json schema2.1. 测试接口2.2. 生成openapi schema 3. 在dify中创建自定义工具3.1. 导入schema3.2. 设置工具认证信息3.3. 测试工具 4. 调用工具4.1. Agent…

Apache Seata的可观测实践

title: Seata的可观测实践 keywords: [Seata、分布式事务、数据一致性、微服务、可观测] description: 本文介绍Seata在可观测领域的探索和实践 author: 刘戎-Seata 本文来自 Apache Seata官方文档,欢迎访问官网,查看更多深度文章。 Seata简介 Seata的…

matplotlib 安装失败:Failed building wheel for matplotlib 解决方案

Python | Failed building wheel for matplotlib 朋友遇到 python 安装 matplotlib 时的问题,笔者帮忙远程调试(踩了不少坑)。网上的解决方案有很多无效,以此来记录以下个人解决方案。 在使用指令 pip install matplotlib出现如下报错: “…

机器学习理论基础—集成学习(1)

机器学习理论基础—集成学习 个体与集成 集成学习通过构建并结合多个学习器来完成学习任务,有时也称为多分类系统等。 分类: 根据集成学习中的个体学习器的不同可以分为同质集成(集成的学习器相同例如全部是决策树)&#xff0c…

目标检测——农作物杂草数据集

引言 亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 …

centos 安装配置文件中心 nacos2.2.3 稳定版

安装mysql 8 参考文章 centos7搭建mysql5.6 && mysql 8.0_centos7 mysql5.6-CSDN博客 安装 jdk 17 官网下载 对应的版本 Java Downloads | Oracle wget https://download.java.net/java/GA/jdk17.0.2/dfd4a8d0985749f896bed50d7138ee7f/8/GPL/openjdk-17.0.2_l…

15(第十四章,大数据和数据科学)

目录 概述 基本概念 数据仓库/传统商务智能与数据科学的比较 数据科学的过程 大数据 大数据来源 数据湖 机器学习 监督学习 无监督学习 强化学习 扩展 1、数据仓库(Data Warehouse) 2、数据湖(Data Lake) 3、大数据平台1.0 4、数据中台 …

Visual Studio中怎样更改Nuget程序包源

场景 Visual Studio 2019 在使用NuGet添加依赖包时,在预览中搜索不到程序包。 排查下NuGet的程序包源为本地。 将程序包源修改下。 实现 在解决方案上右击选择管理解决方案中的NuGet程序包(在 Visual Studio 中打开“工具”>“选项”>“NuGet 包管理器”…

vim 插件01:插件管理神器pathogen

1、pathogen简介 Vim 插件 pathogen 是一款历史比较悠久的 Vim 插件管理器。Pathogen 的主要功能是提供一种模块化的方式来管理和加载 Vim 插件。说人话:vim是一款管理各类插件的插卡,使用它会让插件的安装和使用非常方便。 以下是 Pathogen 的主要特点…

高级STM32应用开发:使用HAL库和RTOS

引言 STM32系列微控制器以其高性能、丰富的外设支持和低功耗特性,在工业、汽车及消费电子市场中占有显著地位。 下面我们旨在探讨STM32的高级开发技术,包括硬件抽象层(HAL)库的使用和实时操作系统(RTOS)的…

python之excel加工处理小案例一则

一、工具用途 工作中,需要对各类excel进行加工处理,当表和字段比较多时,关联条件又有多个,每次通过execl的vlookup之类的关联公式手工可以解决工作需求,但一般耗时较长,且人工统计匹配也存在出错的情况。 …

Kafka学习笔记01【2024最新版】

一、Kafka-课程介绍 官网地址:Apache KafkaApache Kafka: A Distributed Streaming Platform.https://kafka.apache.org/ kafka 3.6.1版本,作为经典分布式订阅、发布的消息传输中间件,kafka在实时数据处理、消息队列、流处理等领域具有广泛…

利用yakit实现csrf (lucy争夺最帅男银的csrf之旅)

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 csrf原理:【web安全】CSRF漏洞攻击与防御-CSDN博客 文章主要内容提炼 本文主要讲利用yakit实现csrf的过程。 用pikachu靶场和内网环境做案例。 如需漏洞原理请点击上面原理的导航。 (因为我觉得yak…

RFID技术引领3C手机镜头模组产线智能化转型

RFID技术引领3C手机镜头模组产线智能化转型 应用背景 随着智能手机市场的快速发展与技术创新,手机镜头模组作为影像功能的核心组件,其生产精度、效率及供应链管理的重要性日益凸显。面对复杂多变的市场需求、严格的品质要求以及激烈的市场竞争&#xf…

01.JAVAEE初阶之计算机如何工作

1.一台机器如何组成 冯诺依曼体系 CPU 中央处理器: 进行算术运算和逻辑判断.存储器: 分为外存和内存, 用于存储数据(使用二进制方式存储)输入设备: 用户给计算机发号施令的设备.输出设备: 计算机个用户汇报结果的设备. 针对存储空间 硬盘 > 内存 >> CPU针对数据访问…

NodeJs[黑马笔记简洁版]

是什么 怎么用 模块 模块化标准 CommonJs(标准语法)默认 ECMAscript 内置模块 fs模块 path模块 http模块 自定义模块 第三方包 包概念 npm 包管理器 总结

Vue 使用Canvas画布手写电子版签名 保存 上传服务端

电子版签名效果 定义画布 <canvas width"500"height"250"ref"cn"mousedown"cnMouseDown"mousemove"cnMouseMove"mouseup"cnMouseUp"style"width:500px;height: 250px;background-color:snow;padding: 10p…

Nginx:高性能Web服务器与反向代理的卓越之选

目录 一、Nginx概述 二、Nginx的特点 三、Nginx架构图 四、Nginx优势 五、正向代理与反向代理 正向代理&#xff1a; 反向代理&#xff1a; 一、Nginx概述 Nginx&#xff08;engine x&#xff09;是一个由俄罗斯人Igor Sysoev开发的高性能HTTP和反向代理服务器。其历史背…

MySQL 数据库远程访问问题

在默认的情况下&#xff0c;MySQL 是不能远程访问的&#xff0c;当我们修改了用户名可以接受远程访问后&#xff0c;还是没有办法接受远程访问。 还有一个配置的地方需要验证。 mysqld.cnf 配置文件 mysqld.cnf 配置文件对访问的地址可能会有限制。 配置文件的地址为&#…

YoloV9改进策略:注意力改进、Neck层改进_自研全新的Mamba注意力_即插即用,简单易懂_附结构图_检测、分割、关键点均适用(独家原创,全世界首发)

摘要 无Mamba不狂欢,本文打造基于Mamba的注意力机制。全世界首发基于Mamba的注意力啊!对Mamba感兴趣的朋友一定不要错过啊! 基于Mamba的高效注意力代码和结构图 import torch import torch.nn as nn # 导入自定义的Mamba模块 from mamba_ssm import Mamba class Eff…