目录
介绍
版本
优势
大数据技术生态体系
介绍
Hadoop
是一个由
Apache
基金会所开发的
分布式系统基础架构
。
解决 存储和分析计算
Google
在大数据方面的三篇论文
GFS --->HDFS
Map-Reduce --->MR
BigTable --->HBase
Hadoop
创始人
Doug Cutting
版本
Hadoop
三大发行版本:
Apache
、
Cloudera
、
Hortonworks
。
http://hadoop.apache.org
https://www.cloudera.com/downloads/cdh
https://hortonworks.com/products/data-center/hdp/
Apache
版本最原始(最基础)的版本,对于入门学习最好。
2006
Cloudera
内部集成了很多大数据框架,对应产品
CDH
。
2008
Hortonworks
文档较好,对应产品
HDP
。
2011
Hortonworks
现在已经被
Cloudera
公司收购,推出新的品牌
CDP
。
优势
高可靠性:
Hadoop
底层维护多个数据副本,所以即使
Hadoop
某个计算元
素或存储出现故障,也不会导致数据的丢失。
高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
高效性:在
MapReduce
的思想下,
Hadoop
是并行工作的,以加快任务处
理速度。
高容错性:能够自动将失败的任务重新分配。
组成
大数据技术生态体系
推荐系统
运行
关闭防火墙和开机自启
systemctl stop firewalld
systemctl disable firewalld.service
注意:在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安
全的防火墙
修改克隆虚拟机的静态IP
vim /etc/sysconfig/network-scripts/ifcfg-ens33
DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"
IPADDR=192.168.10.102
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2
修改虚拟网络编辑器
修改Windows
系统适配器
VMware Network Adapter VMnet8
的
IP
地址
修改主机名
修改主机名
vim /etc/hostname
配置主机映射hosts文件
vim /etc/hosts
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108
重启克隆机
reboot
修改windows
C:\Windows\System32\drivers\etc
hosts 文件
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108
如果操作系统是 window10,先拷贝出来,修改保存以后,再覆盖即可
安装
cd /opt/software/
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
sudo vim /etc/profile.d/my_env.sh
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
source /etc/profile
目录结构
bin
目录:存放对
Hadoop
相关服务(
hdfs
,
yarn
,
mapred
)进行操作的脚本
etc 目录:
Hadoop
的配置文件目录,存放
Hadoop
的配置文件
lib 目录:存放
Hadoop
的本地库(对数据进行压缩解压缩功能)
sbin 目录:存放启动或停止
Hadoop
相关服务的脚本
share 目录:存放
Hadoop
的依赖
jar
包、文档、和官方案例