[Hadoop]大数据导论与Linux基础

news2025/1/13 15:43:23

目录

大数据导论

企业数据分析方向

数据分析基本步骤

大数据时代

分布式与集群

Linux操作系统概述

操作系统概念与分类

Linux起源与发展

Linux内核与发行版本

VMware Workstation虚拟机使用

VMware虚拟机概念

VMware虚拟机常规使用

Linux常用基础命令

Linux文件系统基础知识

Linux常用操作命令

Linux常用系统命令

vi/vim文本编辑器

vim编辑器介绍、3种工作模式

vim基本操作命令

大数据导论

企业数据分析方向

数据分析在企业日常经营分析中主要有三大方向:

  • 现状分析:实时分析,面向当下,分析实时产生的数据,所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。

  • 原因分析:离线分析,面向过去,分析已有的数据。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。

  • 预测分析:机器学习,基于历史数据和当下产生的实时数据预测未来发生的事情。侧重于数学算法的运用。

数据分析基本步骤

  1. 明确分析的目的和思路

  2. 数据收集

  3. 数据(预)处理

  4. 数据分析

  5. 数据展现(数据可视化)

  6. 报告撰写

一切围绕着数据,通俗描述:数据从哪里来、数据到哪里去。

大数据时代

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

大数据5V特征

  • Volume数据体量大

    • 采集数据量大

    • 存储数据量大

    • 计算数据量大

    • TB、PB起步。

  • Variety种类、来源多样化

    • 种类:结构化、半结构化、非结构化

    • 来源:日志文件、图片、音频、视频

  • Value低价值密度

    • 信息海量但是价值密度低

    • 深度复杂的挖掘分析需要机器学习参与

  • Velocity速度快

    • 数据增长速度快

    • 获取数据速度快

    • 数据处理速度快

  • Veracity数据的质量

    • 数据的准确性

    • 数据的可信赖度

应用场景

  • 抖音:推荐的都是你喜欢的视频

  • 电商站内广告推荐:给用户推荐可能喜欢的商品

  • 零售:纸尿布+啤酒

  • 物流存储

  • ......

分布式与集群

分布式:多台机器,每台机器上部署不同组件。

集群:多台机器,每台机器上部署相同组件。

应用

数据大爆炸,海量数据处理场景面临问题。

存储:单机存储有瓶颈,多台机器分布式存储。

计算:单机计算能力有限,多台机器分布式计算。

Linux操作系统概述

操作系统概念与分类

操作系统概念

  • 操作系统(OS)是管理计算机硬件与软件资源的程序。

  • 没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。

  • 操作系统也提供一个用户与系统交互的操作界面。

操作系统分类

  • 桌面操作系统:桌面指的是图形化操作页面。Mac os(Apple)、Window(Microsoft)、Linux三足鼎立。

  • 嵌入式操作系统:单片机。

  • 服务器操作系统:一般指的是安装在大型计算机上的操作系统。主要分为四大流派:Unix、Linux、Windows Server和Netware。

  • 移动设备操作系统:主要应用在智能手机、平板等智能设备上。主要有:iOS(苹果)、Android(谷歌)、Harmony(华为鸿蒙)

Linux起源与发展

  • Unix系统较早被广泛使用的计算机操作系统之一,因版权、开源等问题,延伸出不同Unix版本。

  • Linus Torvalds发布Linux系统的第一版本,遵循GPL协议(通用公共许可证),开源免费。

  • Linux是一个类似Unix的操作系统,并在功能和用户体验上进行优化,Linux并没有抄袭Unix的源码,只是外观类似。

Linux内核与发行版本

Linux内核(Kernel)

  • 操作系统的核心部分简称内核,Linux第一版独立内核由Linus Torvalds开发实现,约10000行代码。

  • 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写。

  • Linux操作系统=Linux Kernel+GNU软件及系统软件+必要的应用程序。

Linux发行版本

  • Linux发行版可分为个人桌面版和企业服务器版。

  • 个人桌面版中,Ubuntu成熟度颇高较受欢迎,而Redhat(红帽系列)及其延申版本(Centos)凭借稳定的性能在服务器中占比很大。

 

VMware Workstation虚拟机使用

VMware虚拟机概念

它是一款虚拟机软件,允许用户将Linux、Windows等多个操作系统作为虚拟机在单台PC上运行。

最好将软件安装到一个没有中文、没有空格的目录下。

VMware虚拟机常规使用

快照使用:

  • VMware虚拟机软件提供了快捷功能,用于记录某一时间点的状态,用户备份恢复;

  • 拍好快照之后,可以在任何时间恢复到指定的快照时间点。

  • 如果需要快照跳转恢复,3台虚拟机必须要同时进行恢复,避免彼此之间时间状态不同步。

  • 在Linux中,SSH的主要用途有:用户加密实现远程登录、服务器之间的免密登录。

Linux常用基础命令

Linux文件系统基础知识

Linux文件系统概念

  • 操作系统中负责管理和存储文件信息的软件称为文件管理系统,简称文件系统。

  • 文件系统的结构通常叫做目录树结构,以/root开始。

  • Linux号称“万物皆文件”,意味着针对Linux的操作,大多数时间是在针对Linux文件系统操作。

 

文件系统通用特征

  • 大部分文件系统都以/root开始。

  • 目录树中节点分为两个种类:目录、文件

  • 从根目录开始,路径具有唯一性。

  • 只有在目录下才可以继续创建下一级目录。

易混概念

  • 当前路径:也叫当前工作目录,当下用户所属的位置。查看用pwd。

  • 相对路径:相对当前工作目录开始的路径,会随着当前路径变化而变化。

  • 绝对路径:不管工作目录在哪,绝对路径都以/开始,唯一不重复。

 

特殊符号

  • . 目录或者文件名字以.开始表示是隐藏的文件,如果路径以.开始表示当前路径

  • .. 当前目录的上一级目录

  • ~ 当前用户的home目录,比如root用户的home目录是/root

  • / 根目录

 

Linux常用操作命令

  • Tab键可以实现自动补全和提示功能,要合理使用。

  • history命令可以显示历史执行记录,或者使用方向键来切换前后执行过的命令。

显示目录内容

ls命令:

  • ls -a 显示所有文件及目录(隐藏文件也会显示)

  • ls -l 或 ll 将文件信息详细列出

切换目录

cd命令:切换的路径可以是绝对路径或相对路径。若路径省略,则变换至使用者的home目录。

  • cd ~ 切换至家目录

  • cd . 表示目前所在的目录

  • cd .. 切换至当前目录的上一级目录

创建、删除

  • mkdir命令:用于创建目录

    • mkdir a 表示在当前目录下创建a文件,不能创建 /a/b

    • mkdir -p /a/b 表示在当前目录下创建/a/b

  • touch命令:创建一个空文件,无任何内容

  • rm命令:用于删除一个文件或目录

    • rm -rf aaa 将aaa文件强制删除,以及aaa的子文件也强制删除

复制、移动

  • cp命令:用于复制文件或目录

    • cp -r aaa/ bbb/ 将aaa递归复制到bbb下

  • mv命令:用来为文件或目录改名、或将文件或目录移入到其他位置。

    • mv aaa(文件) ccc(文件) 将aaa改为ccc

    • mv aaa(文件) ccc(目录) 将aaa文件移动到ccc目录下

文件内容查看

  • cat命令:适合小文件内容的查看,直接输出到控制台。

    • cat 1.txt

  • more命令:类似cat,不过会以一页一页的形式显示,翻页结束自动退出,适合大文件的查看。按space键翻下一页,按b翻上一页。

  • tail:用于查看文件的结尾部分的内容。

其他

  • | 管道命令: 命令1|命令2 可以将命令1的结果通过命令2做进一步的处理

  • echo命令:将内容输出到控制台上。

    • echo 111

  • > 输出重定向(覆盖)命令

  • >> 输出重定向(追加)命令

 

打包、解包

tar 命令:常用于备份文件。

  • tar -cvf test.tar 1.txt 2.txt 将1.txt和2.txt打包到test.tar中

  • tar xvf test.tar -C /aaa/ 将test.tar中的文件解包到 aaa目录下

解压缩命令

  • tar zcvf test.tar.gz 1.txt 2.txt 将1.txt和2.txt压缩到test.tar.gz

  • tar zxvf test.tar.gz -C /aaa/ 将test.tar.gz解压到aaa目录下

Linux常用系统命令

时间、日期查看

  • date命令:用来显示或设定系统的日期与时间

  • cla命令:用于显示当前或者指定日期的公历

内存、磁盘使用率查看

  • free -h:用于显示内存状态

  • df -h:用于显示Linux系统上的文件系统磁盘使用情况统计

进程查看

  • ps命令:用于显示当前进程的状态,类似于windows的任务管理器

    • ps -ef :查看所有进程

    • kill -9 进程号:杀死进程

  • jps命令:这是JDK自带的命令,专门用于查看本机运行的java进程情况,必须在安装好JDK之后才可以使用

vi/vim文本编辑器

vim编辑器介绍、3种工作模式

vim编辑器简介

  • vim是从vi发展出来的一个文本编辑器,可以理解为vi编辑器的增强版。

  • 万物皆命令。

 

vim /path/file

  • 如果打开的文件不存在,此时就是新建文件

  • 如果打开的文件已存在,进入命令模式

vim编辑器的3种工作模式

 

在命令模式下:按shift+zz,可以实现快速的保存退出

vim基本操作命令

光标移动

  • 方向控制键

  • 翻页 pageup pagedown

  • 行首 (0) 行尾 ($)

  • 跳到文件的最后一行 G

  • 跳到文件的第一行 gg

复制粘贴

  • 复制

    • yy 复制光标当前所在行内容

    • nyy复制当前行往下n行

  • 粘贴

    • p 当前行的下一行粘贴

    • P 当前行的上一行粘贴

删除、撤销操作

  • 删除命令

    • dd 删除光标所在当前行的内容

    • ndd 删除当前行往下n行

  • 撤销、反撤销

    • u 撤销上一步的操作(后悔药)

    • ctrl+r 反撤销

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/541044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Boot单元测试

什么是单元测试? 单元测试(unit testing),是指对软件中的最小可测试单元进行检查和验证的过程就叫单元测试。 单元测试是开发人员编写的一小段代码,用于检验被测代码的一个很小的、很明确的(代码) 功能是否正确。执行单元测试就是为了证明某…

Java面试知识点(全)- Java并发- Java并发基础一

Java面试知识点(全) 导航: https://nanxiang.blog.csdn.net/article/details/130640392 注:随时更新 多线程解决什么问题 CPU、内存、I/O 设备的速度是有极大差异的,为了合理利用 CPU 的高性能,平衡这三者的速度差异&#xff0c…

PMP课堂模拟题目及解析(第11期)

101. 一家咨询公司的负责人启动一个项目来扩大公司提供的服务数量,这公司具有竞争优势、出色的企业知识以及卓越的声誉,高管团队担心与增加新服务相关的负面业务结果的可能性。若要评估负面业务结果的可能性和影响,项目经理应该使用什么&…

matlab写入txt文件进行自动化测试总结:fopen、fclose和fprintf的用法

前言 日常学习的过程中使用了matlab读写txt文件,记录一下基本函数的使用,本文主要介绍了fopen、fclose和fprintf几个函数,这些主要是面向txt格式的文件保存数据。还有其他几个函数,比如fread和fwrite,用过但是他们是针…

【dcdc】AP2813 DCDC降压恒流芯片 两路输出 一路恒流 一路瀑闪 电动摩托汽车灯方案

1,方案来源:深圳市世微半导体有限公司 汤巧 2,产品描述 AP2813 是一款双路降压恒流驱动器,高效率、外围简单、内置功率管,适用于 5-80V 输入的高精度降压 LED 恒流驱动芯片。内置功率管输出最大功率可达12W,最大电流…

图神经网络+强化学习

访问【WRITE-BUG数字空间】_[内附完整源码和文档] 车辆路径规划问题(VRP)是运筹优化领域最经典的优化问题之一。在此问题中,有若干个客户对某种货物有一定量的需求,车辆可以从仓库取货之后配送到客户手中。客户点与仓库点组成了一…

DSP_TMS320F28377D_一键烧写多核程序

以前在开发和调试TMS320F28377D的双核程序的时候,总是在烧写CPU1程序时,自动把CPU2的程序也烧写了,但往CPU2里面烧写的是CPU1的程序,烧写完进入在线仿真模式的时候,还需要手动重新选择CPU2要烧写的程序,重新…

谈谈Netty线程模型

大家好,我是易安! Netty是一个高性能网络应用框架,应用非常普遍,目前在Java领域里,Netty基本上成为网络程序的标配了。Netty框架功能丰富,也非常复杂,今天我们主要分析Netty框架中的线程模型&am…

【数据分享】2014-2023年全国监测站点的逐年空气质量数据(15个指标\shp\excel格式)

空气质量的好坏反映了空气的污染程度,在各项涉及城市环境的研究中,空气质量都是一个十分重要的指标。空气质量是依据空气中污染物浓度的高低来判断的。 我们发现学者王晓磊在自己的主页里面分享了2014年5月以来的全国范围的到站点的逐时空气质量数据&am…

网络安全--红队资源大合集

红队攻击的生命周期,整个生命周期包括: 信息收集、攻击尝试获得权限、持久性控制、权限提升、网络信息收集、横向移动、数据分析(在这个基础上再做持久化控制)、在所有攻击结束之后清理并退出战场。 重点提醒:本项目…

JVM内存区域(一)

运行时数据区域 ** 线程私有的: 程序计数器虚拟机栈本地方法栈线程共享的: 线程共享的: 堆方法区直接内存 (非运行时数据区的一部分) 程序计数器 程序计数器是一块较小的内存空间,可以看作是当前线程所执行的字节码的行号指示…

15-02 身份安全

身份安全——认证 目录管理系统 身份认证 你知道什么:密码、PIN、密码短语你拥有什么:硬令牌、智能卡、USB卡、手机APP指纹、声纹、脸纹、虹膜 授权和访问控制 访问控制 访问控制原则 最小特权:安全管理员禁止访问任何资源默认拒绝&…

【005】C++数据类型之实型(浮点数)、有符号数以及无符号数

C数据类型之实型、有符号数以及无符号数 引言一、实型(浮点数)1.1、实型常量1.2、实型变量 二、有符号数三、无符号数总结 引言 💡 作者简介:专注于C/C高性能程序设计和开发,理论与代码实践结合,让世界没有…

Eolink 出席 QECon 深圳站,共同探讨软件质量和效能发展

5月12日至13日,由 QECon 组委会和深圳市软件行业协会联合主办的「QECon全球软件质量&效能大会」成功召开,作为国内 API 全生命周期解决方案的领军者,Eolink 受邀参加此次大会。 大会中,Eolink SaaS 产品负责人崔嘉杰、高级售…

《思考致富》不应该指望不经历“暂时的失败”便能发财

目录 作者简介 经典摘录 机遇有个狡猾的习惯,喜欢从后门悄悄溜进来,往往还喜欢以灾难或暂时失败的方式乔装露面 离金矿仅有三英尺远 欲望:成就一切的起点(通往致富之路的第一步) 信念:在脑海里目睹并坚…

网络安全萌新先学什么?后学什么?

在选择网络安全行业之前,我们要弄清楚,要问一下自己的内心,自己为什么要进入这个行业?每个人的答案肯定是不一样的。 肯定有人会说:这个行业比很多其他行业更赚钱 有人会说:对网络安全技术非常感兴趣 有人会…

Web3和低代码开发:下一代Web应用开发的合作与创新

Web3作为区块链技术的一部分,被认为是下一代互联网技术的主要方向。与此同时,低代码开发作为快捷而高效的软件创建工具,也一直得到广泛关注。那么,Web3和低代码开发如何合作,激发出下一代Web应用开发的新生力量呢&…

前端性能优化:如何提高页面加载速度和用户体验

第一章:介绍 当今互联网时代,网站的性能对于用户体验至关重要。一个快速加载的网页不仅能提高用户的满意度,还能增加页面的转化率。而在前端开发中,性能优化是一个永恒的话题。本篇博客将为大家分享一些关于前端性能优化的技巧和…

红色元宇宙数字展厅:三维构建身临其境的红色历史之旅

导语:红色,是中国革命的象征,是我们历史中最为壮丽的篇章之一。然而,随着时间的推移,许多珍贵的红色记忆逐渐模糊,年轻一代对于红色历史的认知也渐行渐远。 红色元宇宙数字展厅,作为一种全新的互…

2023年软件测试前景?自动化测试的未来?我的测试之路高歌猛进...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 Python自动化测试&…