1.分布式与集群
hosts文件: 域名映射文件
2.Linux常用命令
- ls -a:查看当前目录下所有文件
- mkdir -p:如果没有对应的父文件夹,会自动创建
- rm -rf:-f:强制删除 -r:递归删除
- cp -r:复制文件或目录
- mv:重命名或移动
- cat:打印,适合小文件
- more:类似cat,但是一页一页的展示,适合大文件。按space键翻下一页,b往回上一页
- tail:用于查看文件的结尾部分
- -n:显示行数,默认10
- -f:用于实时显示文件动态追加的内容,并且不断刷新
- echo:将内容输出到console控制台上
- > :输出重定向(覆盖)命令、
- >>:输出重定向(追加)命令
- tar:用于备份文件,即打包/解包文件
- -c:建立新的备份文件(create),即打包
- -x:从备份文件钟还原文件(extract),即解包
- -v:显示指令执行过程(verbose)
- -f <备份文件>:指定备份文件
- 一般常用-cvf或-xvf
- -z:在打包或解包过程中使用压缩算法(–gzip或–ungzip)
- 解压缩: tar -zxvf xxxx.tar.gz -C xxx(-C指定解压缩目录)
- 压缩: tar -zcvf xxxx.tar.gz 1.txt 2.txt(打包文件)
- date:时间查看,可以设定格式如:date+“%Y-%m-%d %H:%M:%S”
- cal:日历查看
- free:显示内存状态,显示内存的使用情况,一般加-h(–human)人性化查看
- df:disk free命令,显示linux上的文件系统磁盘使用情况,一般关注挂载点为根目录 / 的
- ps:进程查看,用于显示当前进程的状态(process status)
- 常用ps -ef | grep 进程名:用于查询某个进程
- kill:杀死某个进程 kill -进程ID
- jps:JDK自带的命令,用于查看本机运行的java进程情况
3.Vim的三种工作模式
- 命令模式(Command mode)
- 输入模式(Insert mode)
- 底线命令模式(Last line mode)
光标移动(命令模式):
- 行首(home, 0) 行尾(end $)
- 跳到文件最后一行:G
- 跳到文件的第一行:gg
4.Hadoop核心组件
- HDFS(分布式文件存储系统):解决海量数据的存储问题
- YARN(集群资源管理和任务调度框架):解决资源任务调度
- MapReduce(分布式计算框架):解决海量数据计算
5.Hadoop优点
6.Hadoop集群整体介绍
两个集群逻辑上分离:是独立的,互相不影响对方的运行
物理上在一起:某些角色进程往往部署在同一台物理服务器上
7.Hadoop源码编译
8.分布式存储系统的核心属性
9.HDFS应用场景
10.HDFS特性
NameNode管理元数据,还有抽象目录树
NameNode的Name就是namespace(层次型文件组织结构)