大数据基础入门

news2025/10/22 14:43:23

大数据入门

认识大数据

1.1 Web 2.0造就大数据（Ajax）

1.2单服务器时代

1.3数据的价值

企业成长模式以及数据分析的重要性

技术 + 分析 + 售前

大数据开发技术与架构

2.1大数据生态圈

2.2大数据版图

2.3实际运行环境

2.4大数据与传统项目整合

第3节准备环境搭建

3.1Linux操作系统安装

新建虚拟机，选择核数、内存等；

使用NAT网络地址转换模式；
英文，不要使用键盘；
设置主机名：
纯净安装，不要选择额外软件；
超级管理员权限，root
修改字体大小：$ sudo dpkg-reconfigure console-setup
修改root密码：$ sudo passwd root & logout

3.2ssh连接控制

如果在你主机IP不固定的情况下，千万不要进行免登录配置。
$ apt-get update & apt-get install openssh-server
$ vi /etc/ssh/sshd_config

|-PermitRootLogin yes 这个时候就可以使用CRT、xshell登录

$ pkill -9 sshd & /etc/init.d/sshd start
$ ifconfig | more
$ apt-get remove iptables

3.3 配置环境

1）$ apt-get install ntp ntpdate1

2）时间同步服务器配置：

$ ntp-date -u 133.100.11.8

3）$ apt-get install gcc libpcre3 libpcrecpp* libpcre3-dev libssl-dev

3.4配置FTP服务

$ apt-get install vsftpd
$ passwd ftp “ftp@110”
$ chmod 755 /srv/ftp
$ vi /etc/vsftpd.conf

|-Write_enable=YES

|-Chroot_local_user=YES

|-Chroot_list_enable=YES

|-chroot_list_file=/etc/vsftpd.chroot_list

$ vim /etc/vsftpd.chroot_list

3.5JDK安装与配置

$ tar xzvf /srv/ftp/jdk-8u73-linux-x64.tar.gz -C /usr/local

2）创建软连接或重命名：ln -s 源文件 目标文件

$ ln -s jdk_1.8.0_73 jdk 或者重命名 mv jdk_1.8.0_73 jdk

3）$ vi /etc/profile

|-export JAVA_HOME=/usr/local/jdk

|-export PATH=$PATH:$JAVA_HOME/bin:

4）$ source /etc/profile

3.6MySQL安装配置

$ tar zxvf /srv/ftp/mysql-5.6.10-linux-glibc2.5-x86_64.tar.gz -C /usr/local
$ ln -s mysql-5.6.10 mysql 或者重命名mv mysql-5.6.10 mysql
vi /etc/profile

|-export MYSQL_HOME=/usr/local/mysql

|-export PATH=$PATH:$MYSQL_HIME/bin:

$ source /etc/profile

$ apt-get install libaiol libaio-dev
/usr/local/mysql/scripts/mysql_install_db --user=root --basedir=/usr/local/mysql --datadir=/usr/local/mysql/data
$ nohup mysqld_safe --user=root > /dev/null 2>&1 &
mysqladmin 查看mysql版本
$ mysql -uroot -p 直接回车（初始密码为空）

mysql>update mysql.user set password=PASSWORD(‘mysqladmin’) where user=’root’;

第4节认识Hadoop

4.1Hadoop简介

hadoop.apache.org
Map/Reduce HDFS YARN；重点Map/Reduce

4.2配置SSH连接

1）$ rm -f ~/.ssh

2）$ ssh-keygen -t rsa

3）$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

4）$ ssh root@hostname

4.3Hadoop安装

$ wget Apache Download Mirrors
$ tar zxvf /srv/ftp/hadoop-2.7.7.tar.gz -C /usr/local
$ ln -s hadoop-2.7.7 hadoop 或者 mv hadoop-2.7.7. hadoop
$ vi /etc/profile

|-Export HADOOP_HOME=/usr/local/hadoop

|-export PATH=$PATH:$HADOOP_HOME/sbin:

$ source /etc/profile

$ vi /usr/local/hadoop/etc/hadoop/hadoop-env.sh

|-export JAVA_HOME=/usr/local/jdk

$ mkdir -p /usr/test/hadoop/input

$ cp /usr/local/hadoop/*.txt /usr/local/test/hadoop/input

7）$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.7.7-sources.jar org.apache.hadoop.examples.WordCount /usr/test/hadoop/input /usr/test/hadoop/output

8）cat /usr/test/hadoop/output/part-000000

4.4Hadoop伪分布模式

$ ll /usr/local/hadoop/etc/hadoop

禁止配置hadoop.tmp.dir为“/tmp”，一旦被清理hadoop的配置就完了；
$ vi /usr/local/hadoop/etc/hadoop/core-site.xml

设置hadoop的临时目录；hdfs的默认文件系统的路径

$ mkdir -p /usr/data/hadoop/tmp（重新搭建hadoop需要清空该目录）

<name>fs.defaultFS</name>

<value>hdfs://hostname:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/usr/data/hadoop/tmp</value>

</property>

4）$ vi /usr/local/hadoop/etc/hadoop/hdfs-site.xml

新建namenode的保存目录：mkdir -p /usr/data/hadoop/hdfs/name（重新搭建hadoop需要清空该目录）

新建datanode的保存目录：mkdir -p /usr/data/hadoop/hdfs/data（重新搭建hadoop需要清空该目录）

“dfs.replication”：文件保存的副本数，副本保存在DataNode中，现在只有一个主机，所以只存1份

“dfs.namenode.name.dir”：保存namenode节点信息的相关操作；

“dfs.datanode.data.dir”：保存真实数据；

“dfs.namenode.http-address”：Hadoop启动之后会会自动启动一个HTTP服务，通过浏览器可以访问

“dfs.namenode.secondary.http-address”：SecondaryNameNode节点的HTTP服务

“dfs.permissions”：表示hdfs操作权限，设置false表示不验证

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:///usr/data/hadoop/hdfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:///usr/data/hadoop/hdfs/data</value>

</property>

<name>dfs.namenode.http-address</name>

<value>hostname:50070</value>

</property>

<name>dfs.namenode.secondary.http-address</name>

<value>hostname:50090</value>

</property>

<name>dfs.permissions</name>

<value>false</value>

</property>

5）$ vi /usr/local/hadoop/etc/hadoop/yarn-site.xml

所有的配置都可以从官网获得

<name>yarn.resourcemanager.admin.address</name>

<value>hostname::8033</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>hostname:8025</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>hostname:8030</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>hostname:8050</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>hostname:8088</value>

</property>

<name>yarn.resourcemanager.webapp.https.address</name>

<value>hostname:8090</value>

</property>

6）$ vi /usr/lcoal/hadoop/etc/hadoop/slaves

#如果有多台主机，需要编写多台主机的hostname

hostname

hadoop环境初始化

$ hdfs namenode -format

....

Exiting with status 0

hadoop启动，启动路径：/usr/local/hadoop/sbin

$ start-all.sh

...

启动完成后，可能启动失败会自己关闭服务，使用jps查看java进程

NameNode

DataNode

SecondaryNameNode

NodeManager

ResourceManager

使用浏览器查看http://hostname:50070

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1182788.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！