大数据基础入门

news2025/1/11 15:01:35

大数据入门

  1. 认识大数据

1.1 Web 2.0造就大数据(Ajax)

1.2单服务器时代

1.3数据的价值

企业成长模式以及数据分析的重要性

技术 + 分析 + 售前

  1. 大数据开发技术与架构

2.1大数据生态圈

2.2大数据版图

2.3实际运行环境

2.4大数据与传统项目整合

第3节 准备环境搭建

3.1Linux操作系统安装

  1. 新建虚拟机,选择核数、内存等;

  1. 使用NAT网络地址转换模式;
  2. 英文,不要使用键盘;
  3. 设置主机名:
  4. 纯净安装,不要选择额外软件;
  5. 超级管理员权限,root
  6. 修改字体大小:$ sudo dpkg-reconfigure console-setup
  7. 修改root密码:$ sudo passwd root & logout

3.2ssh连接控制

  1. 如果在你主机IP不固定的情况下,千万不要进行免登录配置。
  2. $ apt-get update & apt-get install openssh-server
  3. $ vi /etc/ssh/sshd_config

|-PermitRootLogin yes   这个时候就可以使用CRT、xshell登录

  1. $ pkill -9 sshd & /etc/init.d/sshd start
  2. $ ifconfig | more
  3. $ apt-get remove iptables

3.3 配置环境

1)$ apt-get install ntp ntpdate1

2)时间同步服务器配置:

$ ntp-date -u 133.100.11.8

3)$ apt-get install gcc libpcre3 libpcrecpp* libpcre3-dev libssl-dev

3.4配置FTP服务

  1. $ apt-get install vsftpd
  2. $ passwd ftp   “ftp@110”
  3. $ chmod 755 /srv/ftp
  4. $ vi /etc/vsftpd.conf

|-Write_enable=YES

|-Chroot_local_user=YES

|-Chroot_list_enable=YES

|-chroot_list_file=/etc/vsftpd.chroot_list

  1. $ vim /etc/vsftpd.chroot_list

3.5JDK安装与配置

  1. $ tar xzvf /srv/ftp/jdk-8u73-linux-x64.tar.gz -C /usr/local
2)创建软连接或重命名:ln -s 源文件 目标文件

$ ln -s jdk_1.8.0_73 jdk 或者重命名 mv jdk_1.8.0_73 jdk

3)$ vi /etc/profile

|-export JAVA_HOME=/usr/local/jdk

|-export PATH=$PATH:$JAVA_HOME/bin:

4)$ source /etc/profile

3.6MySQL安装配置

  1. $ tar zxvf /srv/ftp/mysql-5.6.10-linux-glibc2.5-x86_64.tar.gz -C /usr/local
  2. $ ln -s mysql-5.6.10 mysql 或者重命名mv mysql-5.6.10 mysql
  3. vi /etc/profile

|-export MYSQL_HOME=/usr/local/mysql

|-export PATH=$PATH:$MYSQL_HIME/bin:

$ source /etc/profile

  1. $ apt-get install libaiol libaio-dev
  2. /usr/local/mysql/scripts/mysql_install_db --user=root --basedir=/usr/local/mysql --datadir=/usr/local/mysql/data
  3. $ nohup mysqld_safe --user=root > /dev/null 2>&1 &
  4. mysqladmin  查看mysql版本
  5. $ mysql -uroot -p 直接回车(初始密码为空)

mysql>update mysql.user set password=PASSWORD(‘mysqladmin’) where user=’root’;

第4节 认识Hadoop

4.1Hadoop简介

  1. hadoop.apache.org
  2. Map/Reduce HDFS YARN;重点Map/Reduce

4.2配置SSH连接

1)$ rm -f ~/.ssh

2)$ ssh-keygen -t rsa

3)$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

4)$ ssh root@hostname

4.3Hadoop安装

  1. $ wget Apache Download Mirrors
  2. $ tar zxvf /srv/ftp/hadoop-2.7.7.tar.gz -C /usr/local
  3. $ ln -s hadoop-2.7.7 hadoop 或者 mv hadoop-2.7.7. hadoop
  4. $ vi /etc/profile

|-Export HADOOP_HOME=/usr/local/hadoop

|-export PATH=$PATH:$HADOOP_HOME/sbin:

$ source /etc/profile

  1. $ vi /usr/local/hadoop/etc/hadoop/hadoop-env.sh

|-export JAVA_HOME=/usr/local/jdk

  1. $ mkdir -p /usr/test/hadoop/input

$ cp /usr/local/hadoop/*.txt /usr/local/test/hadoop/input

7)$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.7.7-sources.jar org.apache.hadoop.examples.WordCount /usr/test/hadoop/input /usr/test/hadoop/output

8)cat /usr/test/hadoop/output/part-000000

4.4Hadoop伪分布模式

  1. hadoop配置文件目录:

$ ll /usr/local/hadoop/etc/hadoop

  1. 禁止配置hadoop.tmp.dir为“/tmp”,一旦被清理hadoop的配置就完了;
  2. $ vi /usr/local/hadoop/etc/hadoop/core-site.xml

设置hadoop的临时目录;hdfs的默认文件系统的路径

$ mkdir -p /usr/data/hadoop/tmp(重新搭建hadoop需要清空该目录)

<property>

<name>fs.defaultFS</name>

<value>hdfs://hostname:9000</value>

</property>

<property>

   <name>hadoop.tmp.dir</name>

    <value>/usr/data/hadoop/tmp</value>

  </property>

4)$ vi /usr/local/hadoop/etc/hadoop/hdfs-site.xml

新建namenode的保存目录:mkdir -p /usr/data/hadoop/hdfs/name(重新搭建hadoop需要清空该目录)

新建datanode的保存目录:mkdir -p /usr/data/hadoop/hdfs/data(重新搭建hadoop需要清空该目录)

“dfs.replication”:文件保存的副本数,副本保存在DataNode中,现在只有一个主机,所以只存1份

dfs.namenode.name.dir”:保存namenode节点信息的相关操作;

“dfs.datanode.data.dir”:保存真实数据;

“dfs.namenode.http-address”:Hadoop启动之后会会自动启动一个HTTP服务,通过浏览器可以访问

“dfs.namenode.secondary.http-address”:SecondaryNameNode节点的HTTP服务

“dfs.permissions”:表示hdfs操作权限,设置false表示不验证

<property>

   <name>dfs.replication</name>

   <value>1</value>

</property>

<property>

   <name>dfs.namenode.name.dir</name>

   <value>file:///usr/data/hadoop/hdfs/name</value>

</property>

<property>

   <name>dfs.datanode.data.dir</name>

   <value>file:///usr/data/hadoop/hdfs/data</value>

</property>

 <property>

   <name>dfs.namenode.http-address</name>

   <value>hostname:50070</value>

 </property>

<property>

   <name>dfs.namenode.secondary.http-address</name>

   <value>hostname:50090</value>

 </property>

 <property>

   <name>dfs.permissions</name>

   <value>false</value>

 </property>

5)$ vi /usr/local/hadoop/etc/hadoop/yarn-site.xml

所有的配置都可以从官网获得

 <property>

   <name>yarn.resourcemanager.admin.address</name>

   <value>hostname::8033</value>

 </property>

 <property>

   <name>yarn.nodemanager.aux-services</name>

   <value>mapreduce_shuffle</value>

 </property>

 <property>

   <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>

   <value>org.apache.hadoop.mapred.ShuffleHandler</value>

 </property>

 <property>

   <name>yarn.resourcemanager.resource-tracker.address</name>

   <value>hostname:8025</value>

 </property>

 <property>

   <name>yarn.resourcemanager.scheduler.address</name>

   <value>hostname:8030</value>

 </property>

 <property>

   <name>yarn.resourcemanager.address</name>

   <value>hostname:8050</value>

 </property>

 <property>

   <name>yarn.resourcemanager.webapp.address</name>

   <value>hostname:8088</value>

 </property>

 <property>

   <name>yarn.resourcemanager.webapp.https.address</name>

   <value>hostname:8090</value>

 </property>

6)$ vi /usr/lcoal/hadoop/etc/hadoop/slaves

#如果有多台主机,需要编写多台主机的hostname

hostname

  1. hadoop环境初始化

$ hdfs namenode -format

....

Exiting with status 0

  1. hadoop启动,启动路径:/usr/local/hadoop/sbin

$ start-all.sh

...

启动完成后,可能启动失败会自己关闭服务,使用jps查看java进程

NameNode

DataNode

SecondaryNameNode

NodeManager

ResourceManager

  1. 使用浏览器查看http://hostname:50070

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1182788.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C# OpenCvSharp 去除字母后面的杂线

效果 项目 代码 using OpenCvSharp; using System; using System.Drawing; using System.Windows.Forms;namespace OpenCvSharp_Demo {public partial class frmMain : Form{public frmMain(){InitializeComponent();}string image_path "";private void Form1_Loa…

Xilinx FPGA SPIx4 配置速度50M约束语句(Vivado开发环境)

qspi_50m.xdc文件&#xff1a; set_property BITSTREAM.GENERAL.COMPRESS TRUE [current_design] set_property BITSTREAM.CONFIG.SPI_BUSWIDTH 4 [current_design] set_property BITSTREAM.CONFIG.CONFIGRATE 50 [current_design] set_property CONFIG_VOLTAGE 3.3 [curren…

C++(Qt)软件调试---下载和安装最新版Windbg(16)

C(Qt)软件调试—下载和安装最新版Windbg&#xff08;16&#xff09; 文章目录 C(Qt)软件调试---下载和安装最新版Windbg&#xff08;16&#xff09;1、前言2、在线安装1.1 安装方法一1.2 安装方法二 3、离线安装 1、前言 Windbg是微软开发的一款强大的调试工具&#xff0c;它主…

Python--- lstrip()--删除字符串两边的空白字符、rstrip()--删除字符串左边的空白字符、strip()--删除字符串右边的空白字符

strip() 方法主要作用&#xff1a;删除字符串两边的空白字符&#xff08;如空格&#xff09; lstrip() 方法 left strip&#xff0c;作用&#xff1a;只删除字符串左边的空白字符 rstrip() 方法&#xff0c;作用&#xff1a;只删除字符串右边的空白字符 strip 英 /strɪp…

【公益案例展】火山引擎公益电子票据服务——连接善意,共创美好

‍ 火山引擎公益案例 本项目案例由火山引擎投递并参与数据猿与上海大数据联盟联合推出的 #榜样的力量# 《2023中国数据智能产业最具社会责任感企业》榜单/奖项”评选。 大数据产业创新服务媒体 ——聚焦数据 改变商业 捐赠票据是慈善组织接受捐赠后给捐赠方开具的重要凭证&…

网络安全-零基础小白自学要点

1.网络安全是什么 网络安全可以基于攻击和防御视角来分类&#xff0c;我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术&#xff0c;而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 2.网络安全市场 一、是市场需求量高&#xff1b; 二、则是发展相对成熟…

时序预测 | MATLAB实现WOA-CNN-BiLSTM-Attention时间序列预测(SE注意力机制)

时序预测 | MATLAB实现WOA-CNN-BiLSTM-Attention时间序列预测&#xff08;SE注意力机制&#xff09; 目录 时序预测 | MATLAB实现WOA-CNN-BiLSTM-Attention时间序列预测&#xff08;SE注意力机制&#xff09;预测效果基本描述模型描述程序设计参考资料 预测效果 基本描述 1.MAT…

如何开发一个求职招聘小程序?详细步骤解析与教程

一、确定需求和功能 在开发求职招聘小程序之前&#xff0c;需要明确需求和功能。通过对市场和用户需求的调研和分析&#xff0c;确定小程序需要具备哪些功能&#xff0c;如职位发布、简历投递、在线沟通、面试安排等。 二、选择开发方式 求职招聘小程序的开发方式有多种选择…

Quartz.Net定时执行CMD任务工具之C#

C#制作定时任务工具执行CMD命令 概要准备知识点实现原理thinkphp配置winform执行CMD命令读取ini配置文件定时任务Quartz.Net 完整代码Job.csIniFunc.csForm1.csconfig.ini简易定时任务工具雏形 概要 很多时候写接口上线后还会遇到很多修改&#xff0c;类似JAVA,C#,delphi制作的…

CocosCreator:背景滚动 、背景循环滚动

.CocosCretor版本3.2.1 编辑器VScode 制作游戏背景的循环滚动 import { _decorator, Component, Node } from cc; const { ccclass, property } _decorator;ccclass(MoveingSceneBg) export class MoveingSceneBg extends Component {property(Node)bg01: Node null!;proper…

第八章 查找【数据结构】【精致版】

第八章 查找【数据结构】【精致版】 前言版权第8章 查找8.1 概述8.2 基于线性表的查找8.2.1顺序查找**1-顺序查找.c** 8.2.2 折半查找**2-折半查找.c** 8.2.3 索引查找 8.3 基于树的查找8.3.1 二叉排序树**3-二叉排序树.c** 8.3.2 平衡二叉树8.3.3 B树和B树8.3.4伸展树8.3.5红黑…

【C++数据结构】异常简介与异常类的构建

文章目录 前言一、异常简介1.1 异常是什么1.2 为什么需要异常&#xff1f;1.3 异常使用示例 二、异常类族的构建2.1 为什么需要异常类族2.2 异常类族的好处2.3 如何设计异常类族 三、异常类族的实现3.1 顶层父类的实现为什么需要加init函数实现init函数实现构造函数拷贝构造和赋…

常见面试题-TCP三次握手四次挥手

TCP 三次握手/四次挥手 参数用途SYN用于启动和建立连接时&#xff0c;同步设备之间的序列号。0到2^32 - 1的随机数。ACK向另一端确认已经收到 SYN&#xff0c;数值为收到 SYN 增一。SYN-ACK确认之前收到了 SYN&#xff0c;数值为自定义值。FIN终止连接。RST重置连接。 三次握…

【vite】vite.defineConfig is not a function/npm无法安装第三方包问题

当使用vite命令 npm init vite-app 项目名称时配置 import vue from vitejs/plugin-vueexport default defineConfig({plugins: [vue()] })会报错vite.defineConfig is not a function 还有就是npm下载的时候也会报错 原因vite插件vitejs/plugin-vue和vite版本问题 解决 调…

现一个智能的SQL编辑器

补给资料 管注公众号&#xff1a;码农补给站 前言 目前我司的多个产品中都支持在线编辑 SQL 来生成对应的任务。为了优化用户体验&#xff0c;在使用 MonacoEditor 为编辑器的基础上&#xff0c;我们还支持了如下几个重要功能&#xff1a; 多种 SQL 的语法高亮多种 S…

Doris:MySQL数据同步到Doris的N种方式

目录 1.CSV文件方式 1.1 导出mysql数据 1.2 导入数据 2.JDBC 编码方式 3.JDBC Catalog 方式 3.1 上传mysql驱动包 3.2 创建mysql catalog 3.3. 插入数据 4.Binlog Load 方式 1.CSV文件方式 当mysql与doris服务之间无法通过网络互联时&#xff0c;可以通过将mysql数据导…

请按规范写Python

一、写在前面 代码被阅读的次数远多于编写的次数。 我们可能花费很多时间来编写一段代码&#xff0c;一旦完成后大概率就再不会重新写它。当这段代码不仅是自己用时&#xff0c;就得注意了&#xff0c;每次自己或其他人浏览&#xff0c;需要快速知道它的作用及编写它的原因&a…

集合框架:List系列集合:特点、方法、遍历方式、ArrayList,LinkList的底层原理

目录 List集合 特有方法 遍历方式 1. 使用普通 for 循环&#xff1a; 2. 使用增强型 for 循环&#xff08;foreach&#xff09;&#xff1a; 3. 使用迭代器&#xff08;Iterator&#xff09;&#xff1a; 4. 使用 Java 8 的流&#xff08;Stream&#xff09;API&#xff…

Sketch是什么软件,如何收费和获得免费版

Sketch软件为设计师构建了一个优秀的本地Mac应用程序。Sketch是整个设计过程的平台&#xff0c;通过基于Web的工具共享工作&#xff0c;获取反馈&#xff0c;测试原型&#xff0c;并将其移交给任何浏览器。Sketch软件的定价根据不同的许可类型和订阅计划而变化。本文从Sketch软…

微信小程序:怎么在一个js中修改另一个js的数据(这里通过缓存进行实现)

实例&#xff1a;现有两个页面index.js和category.js,我现在想在index.js中修改category.js的数据 初始数据 category [{name: 物流配送,list: [{id: 1,job: 外卖骑手,checked: true}, {id: 2,job: 快递员,checked: false}, {id: 3,job: 司机,checked: false}, {id: 4,job: …