大数据-学习实践-1相关Linux

news2024/9/21 22:22:01

大数据-学习实践-1相关Linux

(大数据系列)

文章目录

  • 大数据-学习实践-1相关Linux
    • 1知识点
    • 2具体内容
      • 2.1安装、使用
      • 2.2高级命令
        • 2.2.1文件
        • 2.2.2日期
        • 2.2.3进程
        • 2.2.4三剑客 (grep、sed、awk)
      • 2.3高级配置
        • 2.3.1分配IP:静态IP设置
        • 2.3.2起名(hostname):临时设置+永久设置
        • 2.3.3防火墙:临时关闭+永久关闭
        • 2.3.4Shell编程
      • 2.3.5 定时器crontab
      • 2.4与大数据
        • 2.4.1在Linux安装配置JDK
        • 2.4.2 linux 总结
        • 2.4.3 大数据是什么
        • 2.4.4 背景
        • 2.4.5 4V特征
        • 2.4.6 行业应用
    • 3待补充
    • 4Q&A
    • 5code
    • 6参考

1知识点

  • 安装
    • VMware安装配置
    • SecureCRT、Xshell、MobaXTerm连接
  • 高级命令
  • 高级配置
  • 与大数据

2具体内容

2.1安装、使用

  1. centos镜像安装
  2. 管理-克隆(完整)-进入
  3. SecureCRT连接ip
  4. 调整外观等配置

2.2高级命令

2.2.1文件

  • torch 创建文件

  • 1.vi

    • 编辑内容
    vi hello.txt
    #i:编辑模式
    #esc退出,进入命令模式
    #shift: 输入内容
    #:wq保存退出
    cat hello.txt
    
    • 查找字符串
    /hello(回车)
    #n向下查找
    
    • 查找某一行
    #Shift:set nu 显示行号
    :20
    
    • 复制粘贴
    #yy
    #p 粘贴一行
    
    
    • 删除
    #dd 删除当前行
    #999 dd 删除当前行及以下所有
    
    • 跳行
    #G 跳最后一行
    #gg 跳第一行
    
    • 异常关闭的vi编辑文件,会默认在文件同级目录下产生临时文件xxx.swp;再次修改该文件会出现提示信息,建议直接删除临时文件
    • 未保存的缓存文件,直接ll -a找到后删除
  • 2.wc 统计字数相关信息

    wc --help #查看说明
    wc -c h.txt #bytes  统计换行符
    wc -m h.txt #chars  统计换行符
    wc -l h.txt #lines 行数 --files0-frim=F 
    wc -L h.txt #最长行字符长度 不统计换行符
    wc -w h.txt #多少词
    
    

在这里插入图片描述

  • 3.more
    • 类似 cat ,不过会以一页一页的形式显示,更方便使用者逐页阅读
    • 按空白键(space)就往下一页显示
    • 按 b 键就会往回(back)一页显示
  • 4.sort 排序
sort num.txt #按个位、百位,各位置上数值排序
sort -n num.txt #按数值排序
sort -n -r num.txt #倒序,-n不
sort -n -k 2 num2.txt #按第二列(-k 2)排序
  • 5.uniq 检测重复行列
uniq hello.txt # 去重
uniq -c hello.txt #显示重复次数+内容
uniq -u hello.txt #返回不重复的内容

uniq test.txt #删除在一起的重复内容
sort test.txt | uniq test.txt #排序后,把相同内容放一起再uniq删除
  • 6.head 取前N条数据
head -2 num.txt
sort -nr num.txt | head -3 #倒序查前三个
cat num.txt | sort -nr | head -3

2.2.2日期

  • 7.data:获取当前时间
data + "%Y-%m-%d %H:%M:%S" #友好格式
data + %Y-%m-%d_%H:%M:%S
data + %s #时间戳s为单位
data + %s"000" #时间戳ms为单位
#计算两个事件时间间隔:1)获取2个时间时间戳2)算差值
data --date="2026-01-01 00:00:00"
data --date="2026-01-01 00:00:00" +%s

#获取昨天日期
data --data="1 days ago" + %Y-%m-%d
data %Y-%m-%d

#获取某年2月有多少天,取巧找3月1日前一天
data --date="2026-03-01 1 days ago" +%d

2.2.3进程

  • 8.ps进程信息
ps -ef #显示所有进程
ps -ef |grep java #过滤java相关进程
  • 9.netstat 端口信息
#需要安装
#yum install -y net-tools
netstat -anp
netstat -anp |grep 22 #22端口使用情况
  • 10.jps显示java进程信息

    • 当前用户启动的java进程信息(静态信息),进程号+command
    • 需要安装好java
  • 11.top动态监控进程信息

    • 动态显示系统消耗资源最多进程,进程号、内存占用、CPU占用
    • 同ps,top能动态显示进程信息
    • 按数字键1,显示cpu1的情况,默认cpu0
    • 按字母键Q,退出显示
  • 12.kill杀掉进程

kill PID  #找到PID,自杀
kill -9 PID   #强制杀

2.2.4三剑客 (grep、sed、awk)

  • 13.grep 查找文件中复合条件的字符串
    • -i忽略大小写
    • -n显示行号
    • -v忽略包含指定字符串内容
    • 与管道“|”结合,实现过滤查找
grep abc hello.txt  #查找abc
cat hello.txt |grep abc

grep ^a hello.txt  #支持正则
grep -i ABC hello.txt #忽略大小写
grep -i ABC -n hello.txt #显示行号

ps -ef | grep python
ps -ef | grep python| grep -v grep #去除grep本身,-v不显示过滤内容
  • 14.sed编辑,一个或多个文件、简化对文件的反复操作
    • a/i 增加
    • d 删除
    • s 替换
    • -i 修改源文件
sed '2a\haha' hello.txt #第2行后append,增加haha
sed '1i\hah' hello.txt #第1行前面inside,增加hah
sed '$i\hah' hello.txt #最后行前面inside,增加hah

sed '7d' hello.txt #删除第7行
sed '$d' hello.txt #删除最后一行

sed 's/l/a/1' hello.txt #修改文件内容,将第一个l换成a
#sed [address] s/pattern/replacement/flags
#address:指定要操作的具体行,可选
#s:替换
#2s:第二行内容进行操作
#pattern:待替换的内容
#replacement:要替换的新内容
#flags:多种用法:
#1)1-512间任意一个数字,表示指定要替换的字符串在这一行内出现第几次才替换
#2)直接表示为g,对每一行数据中所有匹配的内容全部替换
#3) flags位置的值为空,只会在第一次匹配成果时做替换操作,相当于写1

sed 's/l/a/2' hello.txt #将第2个l换成a
sed '2s/l/a/g' hello.txt

sed -i '61s/127.0.0.1/192.168.182.130/1' redis.conf #改
  • 15.awk分析
    • 处理文本语言,强大的文本分析工具
    • 以空为间隔符,对文件进行分析处理
    • awk [option] programe file
    • option 可选,指定分隔符
    • programe 处理方式
    • file 待处理文件
awk '{print $1}' hello.txt  #按第一列切割(第一个空格符),留下第一列
awk '{print $2}' hello.txt  #按第二列切割(第2个空格符),留下第2列
awk '{print $0}' hello.txt  #按第0列切割,留下完整列

awk -F: '{print $1}' /etc/passwd #按‘:’区分,第1列
awk -F: '{print $2}' /etc/passwd #按‘:’区分,第2列
awk '/world/{print $0}' hello.txt #找到含有world的内容,留下完整列
awk '($2 ~ /world/){print $0}' hello.txt #找到第二列含有world的内容,留下完整列
cat hello.txt |grep awk '($2 ~ /world/){print $0}' | wc -l

2.3高级配置

2.3.1分配IP:静态IP设置

  • 去虚拟机查看
  • service network restart 重启网络服务
  • ip addr

在这里插入图片描述

2.3.2起名(hostname):临时设置+永久设置

#临时
hostname bd01
#永久


vi /etc/hostname
#删掉默认
bd01 #写入,保存

2.3.3防火墙:临时关闭+永久关闭

#centos7
#临时
stop firewalld
status firewalld
#永久
systemctl disable firewalld
#查看
systemctl list-unit-files |grep firewalld 

2.3.4Shell编程

  • shell 用户与Linux沟通
  • shell编程:开发shell脚本
  • 后缀: .sh
  • 第一行内容: #!/bin/bash

1.shell基本

vi hello.sh
#新建脚本
#!/bin/bash
echo hello world!

#执行
#格式:
# bash hello.sh 或者 sh hello.sh
# ./hello.sh 或者 hello.sh
# bash -x: shell单步执行

bash hello.sh
chmod u+x hello.sh

./hello.sh

/root/shell/hello.sh

hello.sh #无法执行,修改$PATH
echo $PATH #没有当前路径./

vi etc/profile
#最后一行改:
export PATH = .:$PATH #拼接,留用原有值

source /etc/profile #重启
echo $PATH #查看

bash -x hello.txt #逐行执行

2.shell变量

  • 不需要声明,初始化不需要指定类型
  • 变量命名:数字、字母、下划线,不以数字开头
  • 变量赋值,“=”赋值,在变量、等号、值间不出现空格
echo $name
echo ${name}
echo ${name}hehe #如果直接增加,无空格,是一个整体,需要前面加空格中括号,否则报错,
echo $name hehe

3.变量分类

  • 本地变量
    • 格式:VAR_NAME=VALUE
    • 在shell脚本中定义临时变量时使用,对当前shell进程的子shell进程及其他shell进程无效
    • pstree
    • bash进入子进程,查不到本地变量
  • 位置变量
    • $0、$1。。。
    • location.sh abc xyz
    • 相当于java中main函数的args参数,可在shell脚本动态获取外部参数
  • 环境变量
    • export VAR_NAME=VALUE
    • 设置临时环境变量,对子shell进程有效,对其他shell进程无效
    • 设置永久环境变量,需要添加到配置文件/etc/profile中,执行source/etc/profile生效
  • 特殊变量
    • $?: 上一条命令的返回状态码,状态码在0~255之间
    • $#: 所有参数的个数
    • ‘’: 单引号不解析变量 echo ‘$name’
    • “”: 双引号解析变量 echo ‘$name’
    • ``:反引号执行并应用命令的执行结果 echo `KaTeX parse error: Expected group as argument to '\`' at position 7: name\` ̲ ̲;另一种写法,()
    • echo ’ “$name” ’ 不解析变量
    • echo " ‘$name’ " 解析变量

4.循环

  • for循环
for ((i=0;i<10;i++))
do
	...
done

for i in 1 2 3
do
	...
done
  • while循环
  • 适用于循环次数未知,或不便于使用for直接生成较大列表时
while 测试条件
do
循环体
done

#测试条件“真”进入循环,测试条件“假”退出循环 EXPR
  • 测试条件
    • test EXPR或[ EXPR ]中括号和表达式之间空格不能少,[]格式要增加空格,格式严格
    • 整型测试:-gt大于、-lt小于、-ge大于等于、-le小于等于、-eq等于、-ne不等于
    • 字符串测试:=等于、!=不等于
while test 2 -gt 1
do 
echo yes
sleep 1
done

while [ 2 -gt 1 ]#格式严格
do 
echo yes
sleep 1
done

5.判断

  • 单分支,传参正确执行否则不执行,不传参报错(抛异常)
if 测试条件
then 
	选择分支
fi
#!/bin/bash
if [ $# -lt 1 ]
then
	echo "not found param"
	exit 100
fi

flag = $1
if [ $flag -eq 1]
then 
	echo one
fi
  • 双分支
if 测试条件
then
	分支1
else 
	分支2
fi
#!/bin/bash
if [ $# -lt 1 ]
then
	echo "not found param"
	exit 100
fi

flag = $1
if [ $flag -eq 1]
then 
	echo one
else
	echo 'not support'
fi
  • 多分支
if 测试条件1
then
	分支1
elif 测试条件2
then
	分支2
...
else 
	分支2
fi
#!/bin/bash
if [ $# -lt 1 ]
then
	echo "not found param"
	exit 100
fi

flag = $1
if [ $flag -eq 1]
then 
	echo one
elif [ $flag -eq 2 ]
then 
	echo two
elif [ $flag -eq 3 ]
then 
	echo three
else
	echo 'not support'
fi

6.shell扩展

  • 后台执行
sh while2.sh & #会在当前界面打印结果,关闭后停止执行
nohup sh while2.sh & #关闭当前界面后不影响执行
#打印信息在当前路径nohup.out下,kill后停止执行
  • 后台模式运行脚本nohup xxx.sh &
  • 标准输出1,标准错误输出2,重定向(>或者>>)
  • 重定向(>或者>>(追加))把错误输出信息保存到文件
  • nohup hello.sh > /dev/null 2>&1 &把1/2标准输出都放入dev/null中
  • /dev/null是无底洞

2.3.5 定时器crontab

  • 作用于周期性被执行的命令
  • 格式:* * * * * command
    -- 操作:
#查看 
systemctl crond status 
#启动、停止
systemctl start/stop crond
#添加定时任务
vi /etc/crontab
#查看crontab执行日志
tail -f /var/log/cron
#每分钟打印当前时间
vi /etc/crontab

在这里插入图片描述

vi showTime.sh
#如下:
#!/bin/bash
showTime='data "+%Y-%m-%d %H:%M:%S"'
echo $showTime

在这里插入图片描述

tail -f showTime.log

#若设置没隔7分钟执行,它会在第0,7,14…开始执行,除不尽时它会在56分钟执行后,下一个小时的0再执行
在这里插入图片描述

2.4与大数据

2.4.1在Linux安装配置JDK

  • 在/data/soft下放入安装文件
  • 修改配置文件
    在这里插入图片描述
  • 激活,验证安装成功
source /etc/profile
java -version

2.4.2 linux 总结

2.4.3 大数据是什么

海量数据

  • 百度地图实时路况
    • 足够多的用户,实时上传位置信息,后台实时计算路况信息
  • 今日头条个性化推荐
    • 基于海量数据,推测兴趣
  • 买披萨

2.4.4 背景

  • 信息技术进步
  • 云计算技术兴起
  • 数据资源化趋势

2.4.5 4V特征

  • Volume 量大,存储+计算
  • Variety 多样,来源多+格式多
  • Valocity 快速,数据增长速度快,处理速度要求快
  • Value 价值,价值密度低

2.4.6 行业应用

  • 医疗
  • 金融
  • 零售
  • 电商
  • 交通
  • 。。。
  • 天猫大屏,实时计算
  • 出行运营车辆调度。。。

3待补充

4Q&A

5code

6参考

  • 大数据课程资料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/343339.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

工程经验:残差连接对网络训练的巨大影响

文章目录1、没有使用残差连接的网络难以训练2、loss 不下降的原因3、使用了残差连接的网络可以高效训练1、没有使用残差连接的网络难以训练 经典的 SegNet 网络结构如下&#xff1a; 在使用上图所示的 SegNet 作为噪声预测网络训练扩散模型&#xff08;DDPM&#xff09;时&…

Elasticsearch汉字补全和智能纠错使用详解

1 使用ES实现的效果 汉字补全 拼写纠错

Python自动化测试【软件测试最全教程(附笔记、学习路线)】,看完即就业

最近看到很多粉丝在后台私信我&#xff0c;叫我做一期Python自动化测试的教程&#xff0c;其实关于这个问题&#xff0c;我也早就在着手准备了&#xff0c;我录制了一整套完整的Python自动化测试的教程&#xff0c;上传到网盘里了&#xff0c;大家有兴趣的可以去文末交流群免费…

[架构之路-107]-《软考-系统架构设计师》-0-系统分析师与系统架构设计师简介与官网介绍

官网链接&#xff1a;https://www.ruankao.org.cn/index/ind计算机技术与软件专业技术资格&#xff08;水平&#xff09;考试简介计算机技术与软件专业技术资格&#xff08;水平&#xff09;考试&#xff08;以下简称计算机软件资格考试&#xff09;是原中国计算机软件专业技术…

化学试剂Glutaric Acid-PEG-Glutaric Acid,GA-PEG-GA,戊二酸-聚乙二醇-戊二酸

一&#xff1a;产品描述 1、名称 英文&#xff1a;Glutaric Acid-PEG-Glutaric Acid&#xff0c;GA-PEG-GA 中文&#xff1a;戊二酸-聚乙二醇-戊二酸 2、CAS编号&#xff1a;N/A 3、所属分类&#xff1a;Carboxylic acid PEG 4、分子量&#xff1a;可定制&#xff0c; 戊…

如果网站的 Cookie 特别多特别大,会发生什么(一)

有没有想过&#xff0c;如果网站的 Cookie 特别多特别大&#xff0c;会发生什么情况&#xff1f; 不多说&#xff0c;马上来试验一下&#xff1a; for (i 0; i < 20; i) document.cookie i X.repeat(2000) 什么&#xff0c;网站居然报错了&#xff1f; 众所周知&am…

【Unity VR开发】结合VRTK4.0:自身移动(滑动)

语录&#xff1a; 依山傍水房树间&#xff0c;行也安然&#xff0c;住也安然&#xff1b; 一条耕牛半顷田&#xff0c;收也凭天&#xff0c;荒也凭天&#xff1b; 雨过天晴驾小船&#xff0c;鱼在一边&#xff0c;酒在一边&#xff1b; 夜晚妻子话灯前&#xff0c;今也谈谈…

考研复试机试 | C++

目录1.盛水最多的容器<11>题目代码&#xff1a;2.整数转罗马数字题目&#xff1a;代码&#xff1a;3. 清华大学机试题 abc题目题解4.清华大学机试题 反序数题目描述代码对称平方数题目代码&#xff1a;5. 杭电上机题 叠筐题目&#xff1a;代码pass&#xff1a;关于清华大…

Windows server——部署DNS服务(3)

作者简介&#xff1a;一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a;网络豆的主页​​​​​​ 目录 前言 一.管理DNS服务 1.子域 案例 2. 委派 案例 1&#xff09;添加主机记录 …

替代AG9300|替代NCS8823|CS5260 Type-C转VGA视频转换方案

替代AG9300|替代NCS8823|CS5260 Type-C转VGA视频转换方案 CS5260是一款是一款实现USB TYPE-C到VGA视频转换的单片机解决方案转换器。CS5260支持USB Type-C显示端口交替模式&#xff0c;CS5260可以将视频和音频流从USB Type-C接口传输到VGA端口。在CS5260芯片中&#xff0c;显示…

01设计模式相关理论

设计模式git代码地址 设计模式分类 创建型模式 用于描述“怎样创建对象”&#xff0c;它的主要特点是“将对象的创建与使用分离”。GoF&#xff08;四人组&#xff09;书中提供了单例、原型、工厂方法、抽象工厂、建造者等 5 种创建型模式。结构型模式 用于描述如何将类或对象…

SQL注入Getshell的奇思妙想(下)

前言 由于笔者发现大量的hr面试官都喜欢从SQL注入开始询问&#xff0c;所以留心了一下关于SQL注入的问题的频率。结果非常amazing啊&#xff01;不出意外的是–os- shell名列榜首。 但是啊由于我们不能被面试官所引导&#xff0c;这样太被动啦&#xff01;我们应该引导hr问我们…

某财税集团:使用进步的技术,对业务降本提效

文 / OceanBase解决方案架构师 韩冰 该企业成立于 1999 年&#xff0c;是国内领先的财税信息化综合服务提供商&#xff0c;主要为税务机关提供税务系统开发与运维&#xff0c;为纳税企业和财税中介提供互联网财税综合服务。 经过多年发展&#xff0c;为了更好地支撑用户业务需…

10- SVM支持向量机 (SVC) (机器学习)

支持向量机&#xff08;support vector machines,SVM&#xff09;是一种二分类算法&#xff0c;它的目的是寻找一个超平面来对样本进行分割&#xff0c;分割的原则是间隔最大化&#xff0c;如果对应的样本特征少&#xff0c;一个普通的 SVM 就是一条线将样本分隔开&#xff0c;…

小红书穿搭博主推广费用是多少?

小红书作为一个种草属性非常强的平台&#xff0c;商业价值是有目共睹的。很多爱美的女性都会在小红书上被种草某个商品&#xff0c;所以很多服装品牌都会在小红书上布局推广。 穿搭作为小红书的顶梁柱类目&#xff0c;刷小红书就能总是看到好看的穿搭博主分享美美的衣服&#…

【优化】Nginx设置浏览器缓存

【优化】Nginx设置浏览器缓存 设置缓存 d代表天 h代表小时 -1代表不设置缓存 location ^~ / {root /www/wwwroot/com;index index.html index.htm;location ~ .*\.(gif|jpg|jpeg|png|bmp|swf|svg)${expires 30d;error_log /dev/null;access_log /dev/null;}if ($…

【成为架构师课程系列】怎样进行概念架构(Conceptual Architecture)?

目录 前言 什么是概念架构 概念架构阶段的3个步骤 初步设计 高层分割 分层式概念服务架构 Layer:逻辑层 Tier: 物理层 按通用性分层 技术堆叠 考虑非功能需求 【禅与计算机程序设计艺术&#xff1a;更多阅读】 前言 胜兵先胜而后求战&#xff0c;败兵先站而后求胜。…

HTTPSHandler SSL Error

我在服务器ubuntu中&#xff0c;尝试使用pip3&#xff0c;但是出现下面的报错 ImportError: cannot import name HTTPSHandler 通过查询资料&#xff0c;发现报错的原因是&#xff0c;该pip3.5中没有安装好openssl. 我尝试在python3.5中使用import ssl, 确实是会显示下面的报错…

推广传单制作工具

临近节日如何制作推广活动呢&#xff1f;没有素材制作满减活动宣传单怎么办&#xff1f;小编教你如何使用在线设计工具乔拓云&#xff0c;轻松设计商品的专属满减活动宣传单&#xff0c;不仅设计简单&#xff0c;还能自动生成活动分享链接&#xff0c;只需跟着小编下面的设计步…

动态规划,这将是你见过最详细的讲解

文章目录一、为什么要讲动态规划呢&#xff1f;二、什么是动态规划三、感受一下递归算法、备忘录算法、动态规划递归算法带备忘录的递归解法&#xff08;自定向下&#xff09;自底向上的动态规划四、动态规划的解题套路1. 穷举分析2. 确定边界3. 确定最优子结构4. 写出状态转移…