【Python大数据笔记_day03_shell编程和大数据导论】

shell编程

一、shell简介

shell语言是一个C语言编写的脚本语言,它是用户与linux的桥梁

shell编程:通常指的是学习shell命令语法后,利用这套语法开发脚本程序,操作、访问内核服务。而不是使用C语言去编写一个shell程序。

shell解释器：unix默认sh，Linux的默认的是Bash shell，bash兼容sh，针对sh编写的shell代码可以不加修改地在bash中运行。

二、shell变量

shell中有3中变量：用户变量、环境变量、特殊变量

用户变量在编程过程中使用最多

环境变量主要是在程序运行时需要设置

特殊变量在对参数判断和命令返回值判断是会使用

变量的定义语法：变量名=变量值

变量的定义需要遵循的规则

1.变量名可以有字母、数字、下划线组成，但是不能以数字开头，不能使用关键字，严格区分大小写

2.在Bush中，变量的默认类型都是字符串型，如果进行数值运算，则必须要使用特殊命令

3.变量用等号“=”连接值，“=”左右两侧不能有空格。

4.变量值中如果有空格，则需要用单引号或者双引号包含，如 test=“hello world！”

5.在变量中，可以使用转义符“\”。

1.用户变量

定义普通变量：变量名=变量值注意：“=”左右两侧不能有空格！！！

定义只读变量：readonly 变量名=变量值注意：只读变量生命周期在窗口关闭或脚本执行后结束

获取变量值：$变量名或者 ${变量名} 建议使用${变量名}因为它标识变量的边界范围

删除普通变量:unset 变量名

修改普通变量值:已有变量名=新变量值

修改普通变量为只读变量:readonly 变量名

[root@cent1 test]# name = "张三"
bash: name: command not found...
[root@cent1 test]# name="张三"  
[root@cent1 test]# echo name
name
[root@cent1 test]# echo $name
张三
[root@cent1 test]# echo $name
张三
[root@cent1 test]# echo $name666

[root@cent1 test]# echo ${name}666
张三666
[root@cent1 test]# unset name
[root@cent1 test]# echo ${name}666
666
[root@cent1 test]# echo ${name}

[root@cent1 test]# readonly age=18
[root@cent1 test]# echo $age
18
[root@cent1 test]# unset age
-bash: unset: age: cannot unset: readonly variable

[root@cent1 ~]# exit
logout

Last login: Sat Mar 18 09:03:37 2023 from 192.168.88.1
[root@cent1 ~]# echo $age

2.环境变量

环境变量:值操作系统(Windows、Linux、Mac)在运行的时候，记录的一些关键信息，用以辅助系统运行。

注意：环境变量的名字习惯上用大写字母

查看系统记录的环境变量：env

常见的环境变量：HOSTNAME SHELL USER PATH...

自定义环境变量格式：export 变量名=变量值

临时设置：直接命令形式编写注意：窗口关闭就是失败

永久设置：在/etc/profile文件中编写注意:编写重新登录生效或者source /etc/profile

[root@cent1 test22]# env
HOSTNAME=cent1
SHELL=/bin/bash
USER=root
PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin
[root@cent1 test22]# echo $SHELL
/bin/bash
[root@cent1 test22]# echo $USER
root
[root@cent1 test22]# echo $HOSTNAME
cent1
[root@cent1 test22]# echo $PATH
/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin
[root@cent1 test22]# env | grep PATH
PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin

[root@cent1 ~]# export ITHEIMA=666
[root@cent1 ~]# echo $ITHEIMA

[root@cent1 ~]# vim /etc/profile
...
# 文件最后一行添加并保存
export BIGDATA=666888
[root@cent1 ~]# source /etc/profile
[root@cent1 ~]# exit
logout
login
[root@cent1 ~]# echo $BIGDATA
666888

3.特殊变量

我们可以在执行 Shell 脚本时，向脚本传递参数，这时候可以使用特殊变量来获取参数
在执行Shell程序脚本时，可以向shell脚本动态传递参数。好处是某些配置属性不用写死在脚本中。
动态传递参数的方式： sh shell脚本文件参数1 参数2 ...
Shell常用的特殊变量在shell脚本内部支持接收参数并使用:
$0: 获取当前脚本文件的名称
$n: 根据数字顺序获取对应的参数注意:n代表1,2,3,4,5...
$#: 获取参数的总个数
$*: 获取所有的参数内容

三、字符串数据类型

在Bush中，变量的默认数据类型都是字符串型

定义字符串：变量名=值变量名=‘值’ 变量名=“值”

建议：使用双引号定义字符串，因为单引号括起来内容都是普通字符，双引号括起来的内容会识别特殊含义，比如：$和``

[root@cent1 ~]# name=斌子
[root@cent1 ~]# age='18'
[root@cent1 ~]# gender="男人"
[root@cent1 ~]# echo $name $age $gender
斌子 28 男人
[root@cent1 ~]# echo '我的名字是${name} 年龄是${age} 性别是${gender}'
我的名字是${name} 年龄是${age} 性别是${gender}
[root@cent1 ~]# echo "我的名字是${name} 年龄是${age} 性别是${gender}" 
我的名字是斌子 年龄是28 性别是男人
[root@cent1 ~]# echo "${name} ${age} ${gender}"
斌子 28 男人


[root@cent1 ~]# date
Sat Mar 18 11:51:16 CST 2023
[root@cent1 ~]# echo date
date
[root@cent1 ~]# echo `date`
Sat Mar 18 11:51:29 CST 2023

[root@cent1 ~]# now1=date
[root@cent1 ~]# echo $now1
date
[root@cent1 ~]# now2=`date`
[root@cent1 ~]# echo $now2
Sat Mar 18 11:52:17 CST 2023

[root@cent1 ~]# echo '现在的日期是${now2}'
现在的日期是${now2}
[root@cent1 ~]# echo '现在的日期是date'   
现在的日期是date
[root@cent1 ~]# echo '现在的日期是`date`' 
现在的日期是`date`

[root@cent1 ~]# echo "现在的日期是${now2}"
现在的日期是Sat Mar 18 11:52:17 CST 2023
[root@cent1 ~]# echo "现在的日期是`date`" 
现在的日期是Sat Mar 18 11:56:58 CST 2023

四、shell命令和shell脚本

shell命令、shell脚本:本质上都是属于shell编程；
shell命令:倾向于在linux命令行中使用，适合逻辑简单场景；
shell脚本:倾向于在脚本文件中编写,适合复杂逻辑处理。
   注意: 1.shell脚本文件一般以.sh结尾 2.文件第一行一般为#!/bin/bash

shell脚本的执行方式:
方式一：sh在相对路径中执行
格式: sh 脚本
注意: 需要进入脚本的所在工作目录，然后使用对应的sh命令来执行脚本，
这种执行方式，脚本文件不需要具有可执行权限。

方式二：相对路径执行
格式: ./脚本
注意: 需要先进入到脚本所在的目录，然后使用 ./脚本方式执行，
这种执行方式，必须保证脚本文件具有可执行权限。

方式三：绝对路径执行
格式: /绝对路径/脚本
注意: 需要使用脚本的绝对路径中执行，指的是直接从根目录/到脚本目录的绝对路径，
这种执行方式，必须保证脚本文件具有可执行权限。

shell脚本也可以动态传参: sh 脚本参数1 参数2 ... 注意: 脚本内部可以使用特殊变量获取

案列1:脚本中变量操作

创建一个binzi1,sh脚本文件,要求此脚本内定义一个字符串变量str并赋值binzi666,然后打印该字符串

最后保存并执行脚本

注意:

①shell脚本后缀名没有要求,通常以.sh结尾

在shell中除了第一行的#表示特殊格式外,其他地方的#符号一般表示注释

②#!是一个约定的标记,它告诉系统这个脚本需要什么解释器来执行

③相对路径方式如果不加./直接执行脚本,默认去系统环境变量中去查找

[root@cent1 ~]# mkdir binzi
[root@cent1 ~]# cd binzi
[root@cent1 binzi]# ls
[root@cent1 binzi]# vim binzi1.sh
#!/bin/bash
str=binzi666
echo $str
# 注意保存内容                      
[root@cent1 binzi]# ls
binzi1.sh
[root@cent1 binzi]# sh binzi1.sh
binzi666

[root@cent1 binzi]# ./binzi1.sh
-bash: ./binzi1.sh: Permission denied
[root@cent1 binzi]# pwd
/root/binzi
[root@cent1 binzi]# /root/binzi/binzi1.sh
-bash: /root/binzi/binzi1.sh: Permission denied

[root@cent1 binzi]# chmod +x binzi1.sh
[root@cent1 binzi]# ls
binzi1.sh
[root@cent1 binzi]# ./binzi1.sh
binzi666
[root@cent1 binzi]# /root/binzi/binzi1.sh
binzi666

[root@cent1 binzi]# vi binzi1.sh
#!/bin/bash
#定义字符串
str=binzi666
#打印字符串
echo $str
[root@cent1 binzi]# ./binzi1.sh
binzi666

案列2:脚本中获取参数

1.编写一个脚本文件binzi2.sh,在里面使用之前学习的特殊变量分别获取当前脚本文件名称,传入参数个数并分别获取对应参数内容

2.执行binzi2.sh脚本文件,传入3个参数分别为:张三,18,男

3.使用sh命令方式执行binzi2.sh脚本文件

[root@cent1 binzi]# vi binzi2.sh
#!/bin/bash
echo "文件名称为:$0"
echo "第一个参数为:$1"
echo "第二个参数为:$2"
echo "第三个参数为:$3"
echo "参数个数为:$#"
echo "所有参数:$*"
"binzi2.sh" [New] 7L, 174C written
[root@cent1 binzi]# sh binzi2.sh
文件名称为:binzi2.sh
第一个参数为:
第二个参数为:
第三个参数为:
参数个数为:0
所有参数:
[root@cent1 binzi]# sh binzi2.sh 斌子 18 666
文件名称为:binzi2.sh
第一个参数为:斌子
第二个参数为:18
第三个参数为:666
参数个数为:3
所有参数:斌子 18 666

大数据导论

1.数据

大数据时代: 万物皆数据

数据概念: 人类的行为及产生的事件的一种记录称之为数据

数据价值: 对数据的内容进行深入分析，可以更好的帮助了解事和物在现实世界的运行规律

2.大数据的诞生

大数据的诞生: 跟随着互联网的发展的,当全球互联网逐步建成（2000年左右），各大企业或政府单位拥有了海量的数据亟待处理。基于这个前提逐步诞生了以分布式的形式（即多台服务器集群）完成海量数据处理的处理方式，并逐步发展成现代大数据体系。

分布式: 多台服务器互相配合协同处理同一个事情

Apache Hadoop对大数据体系的意义: 第一款获得业界普遍认可的企业级开源分布式解决方案, 一定程度上催生出了众多的大数据体系技术栈,从Hadoop开源开始（2008年左右）大数据开始蓬勃发展

3.大数据概述

什么是大数据?
狭义上: 对海量数据进行处理的软件技术体系
广义上: 数字化、信息化时代的基础支撑，以数据为生活赋能
狭义和广义联系: 学习狭义上的大数据软件技术体系,在工作中为广义上的数字化、信息化时代，添砖加瓦

大数据解决了什么问题?
问题1: 海量数据的存储
问题2: 海量数据的计算
问题3: 海量数据的传输

大数据的核心工作?
存储: 利用各类大数据技术栈,妥善保存海量待处理数据
计算: 利用各类大数据技术栈,完成海量数据的价值挖掘
传输: 利用各类大数据技术栈,协助各个环节的数据传输

4.大数据特点

5.大数据技术栈

==Apache软件基金会==（Apache Software Foundation，简称 [ASF]是专门为运作一个==开源软件==项目的 Apache 的团体提供支持的==非盈利性组织==，这个开源软件的项目就是 Apache 项目。

存储

Apache Hadoop-HDFS: HDFS是Apache Hadoop Core项目的一部分,(Hadoop Distributed File System) Hadoop分布式文件存储系统

Apache Hbase: HBase是Apache的Hadoop项目的子项目

Apache Kudu: 是由Cloudera开源的存储引擎,贡献给Apache基金组织

计算

Apache Hadoop-MapReduce: MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献

Apache Hive: Hive是一款以SQL为要开发语言的分布式计算框架。HiveSQL其底层翻译成了Hadoop的MapReduce程序去执行

Apache Spark: Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品

Apache Flink: Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算（流计算）领域占据了大多数的国内市场。

传输

Apache Sqoop: Sqoop是一款ETL工具，可以协助大数据体系(hdfs,hive)和关系型数据库(mysql)之间进行数据传输。

Apache Flume: Flume是一款流式数据采集工具，可以从非常多的数据源中完成数据采集传输的任务。

Apache Kafka: Kafka是一款分布式的消息系统，可以完成海量规模的数据传输工作。Apache Kafka在大数据领域也是明星产品

Apache Pulsar: Pulsar同样是一款分布式的消息系统。

6.Hadoop

Hadoop是开源的技术框架，提供分布式存储、计算、资源调度的解决方案

狭义上Hadoop: 包含HDFS,MapReduce,YARN三大组件的技术栈

广义上Hadoop: 整个Hadoop生态圈

Hadoop的创始人: Doug Cutting
Hadoop起源:于Apache Lucene子项目：Nutch ,Nutch的设计目标是构建一个大型的全网搜索引擎。
Hadoop启蒙: Google三篇著名的论文(也叫三驾马车)
《The Google file system》:谷歌分布式文件系统GFS
《MapReduce: Simpliﬁed Data Processing on Large Clusters》：谷歌分布式计算框架MapReduce
《Bigtable: A Distributed Storage System for Structured Data》：谷歌结构化数据存储系统

Hadoop的开源版本: Apache 开源社区版（原生版本）

Hadoop的商业版本: Cloudera等商业公司自行二次封装的商业版