[学习笔记]黑马程序员-Hadoop入门视频教程

news2025/2/25 2:17:25

文章目录

  • 参考资料
  • 大数据导论
    • 企业数据分析方向
    • 数据分析基本流程步骤
      • 明确分析的目的和思路
      • 数据收集
      • 数据处理
      • 数据分析
      • 数据展现
      • 报告攥写
    • 大数据时代
      • 大数据定义
      • 大数据的5V特征

参考资料

黑马程序员大数据Hadoop入门视频教程,适合零基础自学的大数据Hadoop教程

目录
大数据导论与Linux基础
大数据导论
Linux操作系统概述
VMware Workstation虚拟机使用
Linux常用基础命令
Linux常用系统命令
vi/vim文本编辑器基础使用

学习目标
1.理解大数据基本概念
2.掌握数据分析基本步骤
3.理解分布式、集群概念
4.学会VMware虚拟机的导入与使用
5.掌握Linux常用操作命令使用
6.掌握vi/vim编辑器基础使用

大数据导论

企业数据分析方向

数据分析是为了把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析在”企业日常经营“分析中主要有三大方向:现状分析->原因分析->预测分析

  • 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动
  • 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做成调整优化
  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势

离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理
在这里插入图片描述
实时分析(Real Time Processing | Streaming)
面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析与数据应用的时间间隔很短,可细分秒级、毫秒级。实时分析又称为流式处理(Streaming)。
在这里插入图片描述
机器学习(Machine Learning)
基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。
在这里插入图片描述

数据分析基本流程步骤

数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;
张文霖老师在《数据分析六部曲》中提到,典型的数据分析应该包含以下几个步骤:
明确分析目的和思路->数据收集->数据处理->数据分析->数据展现->报告攥写

明确分析的目的和思路

  • 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
  • 思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;
  • 数据分析方法论是一些营销管理相关理论,比如用户行为理论、PEST分析法、5W2H分析法等

数据收集

  • 数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
  • 数据传输搬运的过程:比如采集数据库数据到数据分析平台

常见的数据源和种类:

  • 业务数据(RDBMS)
  • 日志数据(服务器、应用日志)
  • 爬虫数据(爬虫数据库)
  • 互联网公开数据(行业、政府网站)

数据处理

  • 准确来说,应该称之为数据预处理
  • 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗数据转化数据提取数据计算
  • 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据

思考:

  1. 当下的企业中用于分析的数据是侧重文本数据多一些,还是侧重于图片、视频数据多一些?
    答案:文本数据多一点
  2. 什么叫干净规整的结构化数据?有非结构化数据?
    答案:结构化数据,专业来说就是二维表的数据,行列对应

数据分析

  • 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
  • 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;

数据展现

  • 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
  • 数据可视化(Data Visualization)属于数据应用的一种;
  • 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。

报告攥写

  • 数据分析报告是对整个数据分析结过程的一个总结与呈现
  • 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
  • 需要有明确的结论,最好有建议或解决方案

大数据时代

大数据定义

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特征

5个V开头的单词,从5个方面准确、生动、形象地介绍了大数据特征。

  • Volume:数据体量大
    采集数据量大;存储数据量大;计算数据量大;TB、PB级别起步
  • Variety:种类、来源多样化
    种类:结构化、半结构化、非结构化
    来源:日志文本、图片、音频、视频
  • Value:低价值密度
    信息海量但是价值密度低
    深度复杂的挖掘分析需要机器学习参数
  • Velocity:速度快
    数据增长速度快
    获取数据速度快
    数据处理速度快

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/197951.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++ 面试题-设计模式类问题(万余字总结)

C 面试题-设计模式类问题1 、说说什么是单例设计模式,如何实现2、 简述一下单例设计模式的懒汉式和饿汉式,如何保证线程安全3、 请说说工厂设计模式,如何实现,以及它的优点4 、请说说装饰器计模式,以及它的优缺点5 、请…

数据挖掘,计算机网络、操作系统刷题笔记40

数据挖掘,计算机网络、操作系统刷题笔记40 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,orac…

TCP协议面试灵魂12 问(三)

等待2MSL的意义 如果不等待会怎样? 如果不等待,客户端直接跑路,当服务端还有很多数据包要给客户端发,且还在路上的时候,若客户端的端口此时刚好被新的应用占用,那么就接收到了无用数据包,造成…

C++高级教程——C++ 异常处理

C 异常处理C 异常处理抛出异常捕获异常C 标准的异常定义新的异常C 异常处理 异常是程序在执行期间产生的问题。C 异常是指在程序运行时发生的特殊情况,比如尝试除以零的操作。 异常提供了一种转移程序控制权的方式。C 异常处理涉及到三个关键字:try、c…

【Linux】gdb的使用

文章目录🎪 Linux下gdb的使用🚀1.gdb调试准备🚀2.gdb指令集🚀3.gdb指令演示⭐3.1 展示源文件代码⭐3.2 断点与多步调试操作⭐3.3 常用操作指令🎪 Linux下gdb的使用 GDB 全称“GNU symbolic debugger”,是一…

dp(十)* 0-1背包与完全背包的组合数问题 搞清组合数与排列数

目录 兑换零钱(二)_牛客题霸_牛客网(完全背包) 494. 目标和(0-1背包) 分割等和子集_牛客题霸_牛客网 兑换零钱(二)_牛客题霸_牛客网(完全背包) 描述 给定一个整数数组 nums 表示不同数额的硬币和一个正…

拉伯证券|社会消费复苏将是2023年主旋律

安排指出,兔年新年黄金周社会消费平稳复苏。全国范围看,依据国家税务总局增值税发票数据,2023年新年黄金周(1月21日-27日,阴历岁除至正月初六),全国消费相关工作销售收入同比2022年新年假日添加…

Qt 进程(基本用法)

进程的使用情况: 运行的当前的应用中调用外部程序来实现功时调使用到进程。 比如:在你的运行程序中,开启迅雷或开启其他程序QProcess类用来 启动一个外部程序并与之通信QProcess类 常用一些函数: start()…

Pycharm 中Torch安装方法

1.使用自带工具安装依次打开菜单:File->Setting点击号,搜索torch选择1.13.0版本安装安装错误:具体包含很长一段错误记录,如下:Collecting torch1.13.0Downloading https://files.pythonhosted.org/packages/ec/5e/8…

网络协议栈简单设计(tcp)

网络协议栈简单设计(tcp) 接着这篇文章写的 TCP相对于Udp,分为两个部分:连接(三次握手、四次挥手)、交互(数据传输) 三次握手 tcp包结构体定义 依照tcp包头字段定义就行: 注意,…

jenkins配置

ssh配置 选择Manager Jenkins 选择Configure System,进入页面一直拉到底 Remote Directory:是你需要从jenkins服务拷贝到远程应用服务指定的目录 高级:可以配置ssh密码 配置maven,git,jdk 选择 Global Tool Configur…

dpdk无锁队列rte_ring实现分析

1. 概述 rte_ring(以下简称ring)是一个高效率的无锁环形队列,它具有以下特点: FIFO队列长度是固定的,所有指针存放在数组中无锁实现(lockless)多消费者或单消费者出队多生产者或单消费者入队批量(bulk)出队 - 出队N个对象,否则失…

05.抽象工厂模式

05.抽象工厂模式 概念 抽象工厂模式:提供一个创建一系列相关或相互依赖对象的接口,而无须指定他们具体的类。抽象工厂又称为Kit模式,属于对象创建型模式。 抽象工厂可以将统一产品族的单独工厂封装起来,在正常使用中&#xff0…

08.适配器模式

08.适配器模式 概念: 将一个类的接口转化成用户需要的另外一个接口。适配器模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。 适配器模式可以分为类适配器和对象适配器两种,区别在于适配器角色对应被适配角色的适配是通过继承还是组合…

单月涨粉30w+,他们掌握引流法宝,小红书1月创作趋势是什么?

新年来到,在刚过去的1月,小红书平台涌现出哪些黑马博主?品牌在投放种草方面有何亮眼表现?为洞察小红书平台的内容创作趋势及品牌营销策略,新红推出1月月度榜单,从创作者及品牌两方面入手,解析月…

计算机网络-I/O多路复用机制

I/O多路复用机制 I/O多路复用(multiplexing)的本质是通过一种机制(系统内核缓冲I/O数据),让单个进程可以监视多个文件描述符(File descriptor是计算机科学中的一个术语,是一个用于表述指向文件的…

2.11 PID控制算法(四)补充

文章目录 1、理论1、代码3、分析3.1 比例项:3.2 比例+积分3.3 比例+积分+微分1、理论 1、代码 typedef struct {s32 Uplimit; //输出限幅s32 Downlimit; //输出限幅s32 target; // 目标输出量s3

leveldb源码解析二——SSTable

本章解析leveldb的基本组件——SSTable,SSTable一旦形成,就不会被改变,SSTable的操作有以下2种: 1、构建SSTable,在minor compaction和major compaction时,会构建SSTable,其中minor compaction是…

Opencv DNN C++ CPU 平台编译配置过程

Opencv DNN C CPU 平台编译配置过程 以下内容基于 windows 平台,实际上不同平台在基础工具齐全的情况下,编译过程差异并不大。 opencv 随着版本的更新,对于不同算子的支持也会逐步完善,所以尽量使用新的版本。 同时也可以把对应…

TCP滑动窗口协议与流量控制

谈到TCP的滑动窗口协议与流量控制,便会想起2006年去华为-3COM(现H3C公司时)面试时的场景。 当年毕业后,刚刚学了一点TCP的皮毛,仅仅是知道了TCP是面向连接的协议,以对每个报文都进行确认超时重传的机制来保…