大数据学习第十二天(hadoop概念)

news2024/12/29 10:18:45

1、服务器之间数据文件传递

        1)服务器之间传递数据,依赖ssh协议

        2)http协议是web网站之间的通讯协议,用户可已通过http网址访问到对应网站数据

        3)ssh协议是服务器之间,或windos和服务器之间传递的数据的协议。支持shell指令的传输

        4)在linux中默认自带ssh客户端,可以使用ssh指令进行服务器连接

                ssh 用户@ip地址或域名

ssh免密登录

每次登录不需要再输入密码

分别在node1、node2、node3上执行如下命令

1)生成密钥

        ssh-keygen

2)分别拷贝密钥

        ssh-copy-id node1

        ssh-copy-id node2

        ssh-copy-id node3

3)基于ssh协议进行服务器之间的文件或者目录的传输

使用指令scp

        scp -r 本机文件或目录路径 目标服务器名:目标服务器路径

2、解压和压缩

        tar xvf 压缩包文件

        x 代表解压

        v 显示解压详情

        f 代表解压文件

        1)压缩

                tar cvf 压缩包名.tar.gz 文件或者目录

3、数据导论[了解]

日常生活中不断产生各类数据,通过对各类数据的分析,得到用户的行为习惯,发现用户的数据价值

4、大数据诞生[了解]

随着用户数据增多传统数据处理方式无法满足海量数据处理的需求,此时引入分布式技术

将海量数据进行分布式的存储,计算,资源调度

可以统一管理多台服务器进行存储和计算,把多台服务器当成一个整体

使用hadoop实现分布式存储,计算和资源调度

5、大数据概述[了解]

大数据主要解决海量数据的存储和计算

海量数据

excel KB MB 1MB=1024KB

mysql GB TB 1GB =1024 MB 1TB =1024GB

大数据 PB,EB(海量数据) 1PB=1024TB

KB < MB < GB < TB < PB < EB < ZB < YB

6、大数据的特点

  • 数据量大

  • 数据种类多

    • 结构化数据

    • 半结构化数据

      • xml

      • json

    • 非结构数据

      • 文本数据

  • 数据低价值密度

    • 分析用户的消费习惯

      • 用户注册基本信息 姓名,性别,年龄 1个

      • 用户的购买信息 订单数据 手机,2023-10-22 100个

      • 用户浏览信息 浏览哪些商品 100个

      • 用户访问信息 访问网站时间,地点,设备 100000条

      • 1000201条数 有价值的数据200条

  • 增长速度快

    • 每天都会产生大量数据

  • 数据结果质量高

    • 对海量数据结果更接近真实情况

7、大数据软件生态[了解]

存储:Apache Hadoop HDFS、Apache HBase、Apache Kudu、云平台

计算:Apache Hadoop MapReduce、Apache Spark、Apache Flink

传输:Apache Kafka、Apache Pulsar、Apache Flume、Apache Sqoop

8、Apache Hadoop概述[了解]

        1)Hadoop的功能组件

HDFS分布式文件存储系统: 负责海量数据的存储工作

MapReduce分布式计算框架: 负责海量数据的计算工作

Yarn分布式资源调度工具: 负责分布式集群的资源调度工作

        2)Hadoop发展

创始人: 道格·卡丁

Hadoop发行时间: 2008年

hadoop的发展受谷歌的三篇论文影响, 后被称为大数据发展的三驾马车

        3)Hadoop版本

社区版: 开源免费

  • 优点: 更新速度快,技术新

  • 缺点: 兼容性差不稳定

商业版: CDH 将所有大数据相关组件都重写了一遍并进行了精细测试解决了兼容性问题和稳定性问题

  • 优点: 兼容稳定性好

  • 确定: 技术旧,收费

注意: 在企业级开发中我们使用的大多是商业版hadoop, CDH版本Hadoop在6.2.4版本之前是不收费的.

9、为什么需要分布式存储[了解]

数据体量过大,存储在同一台服务器上空间不足,所以需要对于服务器进行扩展,多台服务共同存储超大文件

存储原理就是将大文件进行分割,分割后,将数据存储在不同的服务器内部

此时不仅可以提供多台服务器的存储空间,同时可以增加服务器的读写效率,cpu,内存,网络带宽等.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1564609.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32-03基于HAL库(CubeMX+MDK+Proteus)输入检测案例(按键控制LED)

文章目录 一、功能需求分析二、Proteus绘制电路原理图三、STMCubeMX 配置引脚及模式&#xff0c;生成代码四、MDK打开生成项目&#xff0c;编写HAL库的按键检测代码五、运行仿真程序&#xff0c;调试代码 一、功能需求分析 搭建完成开发STM32开发环境之后&#xff0c;开始GPIO…

OpenCv —— cv::VideoCapture设置摄像头图像格式为“MJPEG“

背景 今天恰巧同事有台USB摄像头,她想要在Windows系统下通过OpenCV读取该摄像头宽高为1080x768、帧率为60的视频,用来做图像算法处理。但无奈通过网上OpenCV教程 读取的视频对应尺寸的帧率仅为10帧左右,根本无法满足使用要求。于是作者通过本篇文章介绍如何解决,欢迎交流指…

0基础学习Mybatis系列数据库操作框架——多环境配置

大纲 配置代码参考资料 在实际开发中&#xff0c;我们往往会将开发环境分成&#xff1a;开发、测试、线上等环境。这些环境的数据源不一样&#xff0c;比如开发环境就不能访问线上环境&#xff0c;否则极容易出现线上数据污染等问题。Mybatis通过多环境配置分开定义来解决这个问…

python核心篇之网络通信

一. 发送请求 1. 发送get请求 2. 发送post请求 3. json数据与python数据的对应关系

WPF中继承ItemsControl子类控件数据模板获取选中属性

需求场景 列表类控件&#xff0c;如 ListBox、ListView、DataGrid等。显示的行数据中&#xff0c;部分内容依靠选中时触发控制&#xff0c;例如选中行时行记录复选&#xff0c;部分列内容控制显隐。 案例源码以ListView 为例。 Xaml 部分 <ListView ItemsSource"{Bi…

蓝桥杯—DS1302

目录 1.管脚 2.时序&官方提供的读写函数 3.如何使用读写函数 4.如何在数码管中显示在DS1302中读取出的数据&#xff1f; 1.管脚 2.时序&官方提供的读写函数 /* # DS1302代码片段说明1. 本文件夹中提供的驱动代码供参赛选手完成程序设计参考。2. 参赛选手可以自行…

C语言-------内存函数

前面向大家介绍了C语言中的字符函数和字符串函数&#xff0c;今天再向大家介绍一下类似的函数———— C语言中的内存函数。 1. memcpy函数的使用和模拟实现 memcoy函数是一种通过内存来复制内容的一种函数&#xff0c;以字节为基本单位进行&#xff0c;斌并且是一个可以复制…

Git分支提交时自动大写 fatal: the remote end hung up unexpectedly

先说结论&#xff1a; 进入 .git/refs/heads目录&#xff0c;会看到Feature文件夹&#xff0c;重命名为feature即可。 表现&#xff1a; 通过终端命令创建的分支 git checkout -b feature/name 使用git push后自动变成了Feature/name 并且有时候在本地创建feature/1234567…

etcdctl配置

下载etcdctl压缩文件 wget https://github.com/etcd-io/etcd/releases/download/v3.5.0/etcd-v3.5.0-linux-amd64.tar.gztar -xvf etcd-v3.5.0-linux-amd64.tar.gzsudo mv ./etcd-v3.5.0-linux-amd64/etcdctl /usr/local/bin/ chmod x /usr/local/bin/etcdctl 配置etcdctl 配…

6.8物联网RK3399项目开发实录-驱动开发之RTC实时时钟的使用(wulianjishu666)

90款行业常用传感器单片机程序及资料【stm32,stc89c52,arduino适用】 链接&#xff1a;https://pan.baidu.com/s/1M3u8lcznKuXfN8NRoLYtTA?pwdc53f RTC 使用 简介 AIO-3399J 开发板上有 一个集成于 RK808 上的RTC(Real Time Clock)&#xff0c;主要功能有时钟&#xff0c…

OpenHarmony实战:轻量系统芯片移植准备

由于OpenHarmony工程需要在Linux环境下进行编译&#xff0c;此章节将指导厂商搭建OpenHarmony的编译环境、获取OpenHarmony源码&#xff0c;并且创建厂商工作目录完成厂商芯片的编译框架适配。 搭建编译环境 开展移植前请参考开发环境准备完成环境搭建工作。 获取源码 获取…

非关系型数据库-----------探索 Redis高可用 与持久化

目录 一、Redis 高可用 1.1什么是高可用 1.2Redis的高可用技术 二、 Redis 持久化 2.1持久化的功能 2.2Redis 提供两种方式进行持久化 三、Redis 持久化之----------RDB 3.1触发条件 3.1.1手动触发 3.1.2自动触发 3.1.3其他自动触发机制 3.2执行流程 3.3启动时加载…

服务器远程桌面连接不上怎么办?

随着互联网的发展和远程办公的兴起&#xff0c;服务器远程桌面连接成为了许多企业和个人不可或缺的工具。偶尔我们可能会碰到服务器远程桌面连接不上的情况&#xff0c;这时候我们需要找到解决办法&#xff0c;确保高效地远程访问服务器。 天联组网——突破远程连接障碍 在我们…

Linux网络编程二(TCP图解三次握手及四次挥手、TCP滑动窗口、MSS、TCP状态转换、多进程/多线程服务器实现)

文章目录 1、TCP三次握手(1) 第一次握手(2) 第二次握手(3) 第三次握手 2、TCP四次挥手(1) 一次挥手(2) 二次挥手(3) 三次挥手(4) 四次挥手 3、TCP滑动窗口4、TCP状态时序图5、多进程并发服务器6、多线程并发服务器 1、TCP三次握手 TCP三次握手(TCP three-way handshake)是TCP协…

玩转ChatGPT:Kimi测评(科研写作)

一、写在前面 ChatGPT作为一款领先的语言模型&#xff0c;其强大的语言理解和生成能力&#xff0c;让无数用户惊叹不已。然而&#xff0c;使用的高门槛往往让国内普通用户望而却步。 最近&#xff0c;一款由月之暗面科技有限公司开发的智能助手——Kimi&#xff0c;很火爆哦。…

Vue3_2024_7天【回顾上篇watch常见的后两种场景】完

随笔&#xff1a;这年头工作不好找咯&#xff0c;大家有学历提升的赶快了&#xff0c;还有外出人多注意身体&#xff0c;没错我在深圳这边阳了&#xff0c;真的绝啊&#xff0c;最尴尬的还给朋友传染了&#xff01;&#xff01;&#xff01; 之前三种的监听情况&#xff0c;监听…

java发送请求-cookie有关代码

在初始化后添加cookie的代码 用这个httpclients类调custom方法&#xff0c;进行代码定制化 找和cookie有关的方法&#xff0c;设置默认的cookie存储信息 入参是接口 将入参粘贴后找方法&#xff0c;用new实现这个接口 这个方法是无参空构造&#xff0c;可以使用 设置了cookie …

Java项目:86 springboot电影评论网站系统设计与实现

作者主页&#xff1a;源码空间codegym 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 本电影评论网站管理员和用户。 管理员功能有个人中心&#xff0c;用户管理&#xff0c;电影类别管理&#xff0c;电影信息管理&#xff0c;留…

Linux系统---进程间通信与管道入门

顾得泉&#xff1a;个人主页 个人专栏&#xff1a;《Linux操作系统》 《C从入门到精通》 《LeedCode刷题》 键盘敲烂&#xff0c;年薪百万&#xff01; 一、进程间通信 1.进程间通信的目的 1.数据传输&#xff1a;一个进程需要把他的数据传给另外一个进程。 2.资源共享&…

idea开发 java web 酒店推荐系统bootstrap框架开发协同过滤算法web结构java编程计算机网页

一、源码特点 java 酒店推荐推荐系统是一套完善的完整信息系统&#xff0c;结合java web开发和bootstrap UI框架完成本系统 采用协同过滤算法进行推荐 &#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式…