DataWhale 大数据处理技术组队学习task1

news2024/11/26 3:11:43

DataWhale 大数据处理技术组队学习task1

一、大数据概述

1. 大数据时代(详细内容参考参考文章)

2. 大数据的概念(又或者是特点)

  • 4V
    • 数据量大(Volume)
      • 数据来源:可以是计算机、手机,也可以是其他联网设备(与物联网紧密结合)
    • 数据类型繁多(Variety)
      • 各行各业的数据量都在迅速增长
    • 处理速度快(Velocity)
      • 为了快速分析海量数据,一般采用集群处理和独特的内部设计
    • 价值密度低(Value)
      • 与传统数据不同,大数据时代有大量数据并不含有有效信息

3. 大数据的应用:

  • 主要是通过将数据与机器学习相结合从而将大数据变为知识或者生产力。大数据是机器学习的基础,机器学习是大数据转换为生产力的必由之路
  • 应用举例:信贷风险分析,商品精准推荐…

4. 大数据的关键技术

  • 按流程划分:
    • 数据采集
    • 数据存储和管理
    • 数据处理和分析
    • 数据安全和隐私保护
  • 大数据技术是许多技术的一个集合体,这些技术也并非全部都是新生事务,诸如关系数据库、数据仓库、数据仓库技术(ETL)、 联机分析处理(OLAP)、数据挖掘、数据隐私和安全、数据可视化等已经发展多年的技术。(大数据技术由多种新生技术与已存在的技术结合而成

二、大数据处理架构Hadoop

1. 概述

1.1 Hadoop简介

  • Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
  • 核心
    • 分布式文件系统HDFS(Hadoop Distributed File System)
    • MapReduce

1.2 特性

  • 高可靠性:采用冗余数据存储方式(同样的数据存储多份),即使一个副本发生故障,其他副本也可以保证正常对外提供服务
  • 高效性:采用分布式存储和分布式处理两大核心技术,同时能够在节点之间动态地移动数据,并保证各个节点的动态平衡
  • 高可扩展性:可以高效稳定地运行在廉价的计算机集群上
  • 高容错性:采用冗余存储同时可以自动将失败的任务重新分配
  • 成本低:可以高效稳定地运行在廉价的计算机上,同时开源导致项目的软件成本大大降低
  • 运行在Linux平台
  • 支持多种编程语言:可以使用其他编程语言编写

1.3 应用现状:

  • 国外:Yahoo以及facebook是主要用户
  • 国内:百度、阿里、腾讯、华为等企业也使用了Hadoop

2. Hadoop的项目架构

  • Common:主要包括FileSystem、RPC和串行化库,它们为在廉价的硬件上搭建云计算环境提供了基本的服务,并为运行在该平台上的软件开发提供了所需的API。

  • Avro:用于数据库序列化的系统,它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能

  • HDFS:它是针对谷歌文件系统(Google File System,GFS)的开源实现。HDFS具有处理超大数据、流式处理、可以运行在廉价商用服务器上等优点。它可以通过提供高吞吐率来访问应用程序的数据,适合那些具有超大数据集的应用程序,HDFS放宽了可移植操作系统接口的要求,这样可以通过流的形式访问文件系统中的数据,

  • HBase:是一个提供高可靠性、高性能、可伸缩、实时读写和分布式的列式数据库,一般采用HDFS作为其底层数据存储。与一般数据库存在些许不同。其一,HBase是一个适合于非结构化数据存储的数据库;其二,HBase是基于列而不是基于行的存储模式。HBase主要用于需要随机访问、实时读写的大数据(Big Data)

  • Pig:一种数据流语言和运行环境,适合于使用Hadoop和MapReduce的平台来查询大型半结构化数据集,为Hadoop应用程序提供了一种更加接近结构化查询语言(SQL)的接口。最突出的优势是它的结构能够经受住高度并行化的检验

  • Sqoop:可以改进数据的互操作性,主要用来在Hadoop和关系数据库之间交换数据。通过Sqoop,我们可以方便地将数据从MySQL、Oracle、PostgreSQL等关系数据库中导入Hadoop(可以导人 HDFS、HBase或 Hive)、或者将数据从Hadoop导出到关系数据库,使得两者之间的数据迁移变得非常方便。

  • Chukwa:开源的数据收集系统,用于监控和分析大型分布式系统的数据

  • Zookeeper:一个为分布式应用所涉及的开源协调服务,主要为用户提供同步、配置管理、分组和命名等服务,减轻分布式应用程序所承担的协调任务

3. Hadoop伪分布式安装

3.1 创建Hadoop用户

在这里插入图片描述

3.2 Java安装:

在这里插入图片描述

  • 报错:sudo: vim:找不到命令
  • 解决方案:sudo apt-get install vim
  • Java安装成功
    在这里插入图片描述

3.3 SSH登陆权限设置

在这里插入图片描述
在这里插入图片描述

  • 遇到问题:
    在这里插入图片描述
  • 解决方案:sudo apt-get install openssh-serve
    • 新的问题:用户不在sudoers中在这里插入图片描述
    • 解决方案:更换为root,并修改配置(详情参考自这个文件)
      • 新的问题:su root认证失败
      • 解决方案:更改密码,再重新改为root
        在这里插入图片描述

3.4 Hadoop单机版安装:

在这里插入图片描述

  • 实验结果:
    在这里插入图片描述

3.5 伪分布式安装

  • vim /opt/hadoop/etc/hadoop/core-site.xml
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>
  • vim /opt/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>
  • vim /opt/hadoop/etc/hadoop/mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>
  • vim /opt/hadoop/etc/hadoop/yarn-site.xml
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>
  • 格式化分布式文件系统
    • 切换至hadoop用户下(su datawhale)
    • 初始化文件系统(hdfs namenode -format)
      • 出现问题:Command ‘hdfs’ not found, did you mean
      • 原因:没有配置路径
      • 解决方案:
        • sudo vi /etc/profile
        • 在文件末尾添加路径:export PATH=/opt/hadoop/bin:$PATH # 路径为自己设备hadoop所在路径
        • source /etc/profile #更新环境
  • 启动Hadoop
    • /opt/hadoop/sbin/start-all.sh
      在这里插入图片描述
    • jps查看所有java进程
      在这里插入图片描述

3.6 测试HDFS集群以及MapReduce任务程序

  • 利用Hadoop自带的WordCount示例程序进行检查集群,并在主节点上进行如下操作,创建执行MapReduce任务所需的HDFS目录:

    hadoop fs -mkdir /user
    hadoop fs -mkdir /user/datawhale
    hadoop fs -mkdir /input
    
  • 创建测试文件,并输入Hello world!:

    vim /home/datawhale/test
    
  • 将测试文件上传到Hadoop HDFS集群目录

    hadoop fs -put /home/datawhale/test /input
    
  • 执行wordcount程序

    hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /input /out
    
  • 查看执行结果

    hadoop fs -ls /out
    

在这里插入图片描述

  • 查看具体的输出结果

    hadoop fs -text /out/part-r-00000
    

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8tgJfXl6-1676354427460)(C:\Users\zhaoyi\AppData\Roaming\Typora\typora-user-images\image-20230213175526551.png)]

4. 实验二:Hadoop3.3.1集群模式安装(需要多台虚拟机,配置问题暂未完成)

参考:文章主要参考Datawhale组队学习资料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/345917.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 常用命令——【 2.查看程序端口占用及网络连接 netstat 命令】

文章目录1. netstat 简介2.命令格式&#xff1a;3. 命令参数&#xff1a;4. 常用命令1. netstat 简介 netstat命令用于显示与IP、TCP、UDP和ICMP协议相关的统计数据&#xff0c;一般用于检验本机各端口的网络连接情况。netstat是在内核中访问网络及相关信息的程序&#xff0c;…

ACWING寒假每日一题python

ACWING寒假每日一题 一、孤独的照片 一个点一个点的来看&#xff0c;比如对于GHGHG中间的G&#xff0c;找到他的左边的G&#xff0c;以及右边的G的位置&#xff0c;l,r分别等于1&#xff0c;答案就要多加上11 但是如果对于 GHHGHHG 中间的G&#xff0c;我们可以看到l,r等于2&a…

【计算机网络期末复习】第六章 应用层

✍个人博客&#xff1a;https://blog.csdn.net/Newin2020?spm1011.2415.3001.5343 &#x1f4e3;专栏定位&#xff1a;为想复习学校计算机网络课程的同学提供重点大纲&#xff0c;帮助大家渡过期末考~ &#x1f4da;专栏地址&#xff1a; ❤️如果有收获的话&#xff0c;欢迎点…

Echarts 修改雷达图背景分割面,分割线颜色,设置数据线颜色

第016个点击查看专栏目录Echarts的雷达图背景可以是圆形的&#xff0c;也可以是多边形的&#xff0c;背景颜色&#xff0c;线条颜色都可以做个性化设置&#xff0c;这里是改变背景灰色&#xff0c;设置为浅红色。分割线也变成浅蓝色。同时数据线的颜色也变成了亮色。参考源代码…

【LeetCode】最大正方形 [M](动态规划)

221. 最大正方形 - 力扣&#xff08;LeetCode&#xff09; 一、题目 在一个由 0 和 1 组成的二维矩阵内&#xff0c;找到只包含 1 的最大正方形&#xff0c;并返回其面积。 示例 1&#xff1a; 输入&#xff1a;matrix [["1","0","1","0…

从零实现WebRTC(二):WebRTC的通信过程

文章目录一、WebRTC需要解决的问题二、ICE(Interactive Connectivity Establishment)三、ICE的详细步骤四、知识点四一、WebRTC需要解决的问题 WebRTC是由google提出的的一个用于端到端实现p2p音视频通信的框架。比起其他的hls, http-flv等直播方案&#xff0c;webrtc在公网的…

ChatGPT的来源-InstructGPT论文简要介绍

文章目录前言一、ChatGPT是什么&#xff1f;二、ChatGPT的前身InstructGPT论文解读论文下载地址&#xff1a;主要内容&#xff1a;模型训练数据类型结果效果示例总结前言 现在大火的ChatGPT功能十分强大&#xff0c;不仅可以回答用户问题&#xff0c;编写故事&#xff0c;甚至…

Spring Cloud Alibaba Sentinel 熔断降级与OpenFeign整合

熔断降级 概述 对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一。一个服务常常会调用别的模块&#xff0c;可能是另外的一个远程服务、数据库&#xff0c;或者第三方 API 等。例如&#xff0c;支付的时候&#xff0c;可能需要远程调用银联提供的 API&…

关于基线长度对双天线GNSS测姿精度的影响

文章目录一、GNSS测姿原理1. 载波相位双差求解基线向量2. GNSS姿态角表示二、基线长度对GNSS测姿精度的影响三、GNSS定向产品精度描述实例四、参考文献在GNSS定向模块或者板卡的指标参数中&#xff0c;我们一般会看到航向的测量精度和基线的长度相关。在实际使用&#xff0c;用…

Python if else条件语句详解

在刚学习 Python 的时候&#xff0c;我们看到的代码都是顺序执行的&#xff0c;也就是先执行第1条语句&#xff0c;然后是第2条、第3条……一直到最后一条语句&#xff0c;这称为顺序结构。 但是对于很多情况&#xff0c;顺序结构的代码是远远不够的&#xff0c;比如一个程序限…

BERT在CNN上也能用?看看这篇ICLR Spotlight论文丨已开源

如何在卷积神经网络上运行 BERT&#xff1f;你可以直接用 SparK —— 字节跳动技术团队提出的提出的稀疏层次化掩码建模 ( Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling )&#xff0c;近期已被人工智能顶会 ICLR 2023 收录为 Spotligh…

论文投稿指南——中文核心期刊推荐(植物保护)

【前言】 &#x1f680; 想发论文怎么办&#xff1f;手把手教你论文如何投稿&#xff01;那么&#xff0c;首先要搞懂投稿目标——论文期刊 &#x1f384; 在期刊论文的分布中&#xff0c;存在一种普遍现象&#xff1a;即对于某一特定的学科或专业来说&#xff0c;少数期刊所含…

JavaScript原型、原型链、原型方法

文章目录原型和原型链prototype、 __ proto __ 、constructor原型链原型方法instanceOfhasOwnPropertyObject.create()、new Object()总结原型和原型链 prototype、 __ proto __ 、constructor 首先我们看下面一段代码 // 构造函数Personfunction Person(name, age) {this.na…

无法访问org.springframework.boot.SpringApplication

问题 更新idea版本后使用过程中发生下面的错误 Error:(3, 32) java: 无法访问org.springframework.boot.SpringApplication 错误的类文件: D:\maven-repository\org\springframework\boot\spring-boot\3.0.0\spring-boot-3.0.0.jar(org/springframework/boot/SpringApplicati…

【ChatGPT】如何使用python调用ChatGPT API?

是什么ChatGPT&#xff1f; ChatGPT 是由 OpenAI 开发的一个语言模型。OpenAI 是一家领先的人工智能研究机构。ChatGPT 基于变换器架构&#xff0c;使用深度学习生成会话风格的文本。该模型在大量文本数据上进行训练&#xff0c;并可以针对特定任务进行微调。例如&#xff0c;它…

2023年,产业互联网八大趋势

从全世界的TO B发展线来看&#xff0c;中国的TO B企业不是脚步最快的&#xff0c;但它们却也正在通过汲取中国数字经济高速发展的养料不断成长&#xff0c;同时主动下沉&#xff0c;成为新的产业数字化的底盘&#xff0c;做撑举起未来数字中国的无名力量。 作者|皮爷 出品|…

UDS 诊断

UDS全称为Unified Diagnostic Services&#xff0c;统一的诊断服务。由ISO-14229系列标准定义。 诊断通信的过程从用户角度来看非常容易理解&#xff0c;诊断仪发送诊断请求(request)&#xff0c;ECU给出诊断响应&#xff08;response&#xff09;&#xff0c;而UDS就是为不同…

1.9实验9:配置虚链路

1.4.4实验9:配置虚链路 实验目的(1) 实现OSPF 虚链路的配置 (2) 描述虚链路的作用 实验拓扑配置虚链路实验拓扑如图1-19所示。[1] 图1-19 配置虚链路 实验步骤

第2集丨Java中的数据类型汇总

目录一、数据类型分类二、基本数据类型取值范围数据类型的转换byte和char的关系三、包装类一、数据类型分类 二、基本数据类型 取值范围 比特(bit位) : 数据运算得最小存储单位字节(byte) : 数据最小存储单位bit和byte可以互相转换得&#xff0c;1 byte 8 bit位默认情况下&am…

2023开学季哪款电容笔值得买?高品质电容笔品牌推荐

我们可以看出&#xff0c;原先的苹果电容笔的价格卖得非常昂贵。事实上&#xff0c;对于那些没有过多预算的人来说&#xff0c;平替电容笔是最好的选择。想象一下&#xff0c;一款原装的苹果电容笔&#xff0c;能够购买四款平替电容笔&#xff0c;而平替电容笔在性能上&#xf…