Seal^_^【送书活动第3期】——《Hadoop大数据分析技术》

news2024/10/6 22:21:28

Seal^_^【送书活动第3期】——《Hadoop大数据分析技术》

  • 一、参与方式
  • 二、作者荐语
  • 三、图书简介
  • 四、本期推荐图书
    • 4.1 前 言
    • 4.2 本书内容
    • 4.3 本书目的
    • 4.4 本书适合的读者
    • 4.5 配套源码、PPT课件等资源下载
  • 五、目 录
  • 六、🛒 链接直达

在这里插入图片描述

Hadoop框架入门书,可当教材。配套PPT课件、源码,可做教材。书中包括两个大数据分析综合案例,可用于专科本科毕业论文。

一、参与方式

1、关注博主的账号。
2、点赞、收藏、评论博主的文章。
3、在文章下留下评论,每位参与者最多可以评论三次。
4、加入粉丝群,通过小程序自动抽奖。

📚 本次抽奖将 送出1至3本 书籍。

🕚 活动截止时间为 2024年5月12日晚上8点整


注意: 活动结束后,请留意查看您的私信消息。

加入粉丝群,通过小程序自动抽奖。

在这里插入图片描述

二、作者荐语

迟殿委,计算机软件与理论专业硕士,毕业于南昌大学,系统架构设计师。有多年企业软件研发经验和丰富的JavaEE培训经验,熟练掌握JavaEE全栈技术框架,对Java核心编程技术有深刻理解。主要擅长JavaEE系统架构设计、大数据分析与挖掘。

本书系统讲解Hadoop生态圈各组件的核心知识、操作方法和分析技术,并通过两个综合实战项目——影评大数据分析、旅游酒店评价大数据分析,来贯穿Hadoop大数据分析的完整流程。

三、图书简介

伴随Hadoop的成长,Hadoop不再是一个简单的数据分布式存储平台和工具,已经成长为一个完整的生态圈。本书采用Hadoop 3.2.2版本,系统讲解Hadoop生态系统主流的大数据分析技术。本书配套示例源码、PPT课件、教学大纲与编程环境。

本书共分11章。内容包括Hadoop概述与大数据环境准备、Hadoop伪分布式集群搭建、HDFS分布式存储实战、MapReduce实战、ZooKeeper与高可用集群实战、Hive数据仓库实战、HBase数据库实战、Flume数据采集实战、Kafka实战、影评大数据分析项目实战、旅游酒店评价大数据分析项目实战。

本书可作为Hadoop大数据技术初学者的入门书,也可作为Hadoop大数据分析工程师的指导手册,还可作为高等院校或者高职高专大数据专业的教材或教学参考书。

四、本期推荐图书

在这里插入图片描述

4.1 前 言

国家提出要加快 5G 网络和数据中心等新型基础设施建设(简称新基建)的进度。其中,信息化新型基础设施包含云计算、大数据、人工智能、区块链、5G 等内容。大数据是指具有海量(volume)、多模态(variety)、变化速度快(velocity)、蕴含价值高(value)和真实性(veracity)“5V”特征的数据,使得传统的数据存储、管理、分析技术已经无法满足大数据的处理要求。大数据给传统的数据处理和数据分析带来巨大的挑战,已引起学术界和工业界的高度关注。Hadoop正是在这种背景下产生的一个大数据开源平台。许多大型互联网公司,如谷歌、阿里巴巴、百度、京东等互联网公司都急需掌握Hadoop大数据技术的人才,而目前人才市场上大数据技术相关人才由于种种原因存在供不应求的状况,本书在这个背景下创作而成。

4.2 本书内容

本书是一本关于Hadoop 3.2.2大数据平台搭建和数据分析、生态体系主要组件的应用和开发方面的实战书籍,涉及的知识面比较广,涵盖了当前整个Hadoop生态系统主流的大数据开发技术。本书从实践操作与开发讲起,在基本操作已经掌握以后,再回过头来讲解理论知识。所以,本书是先实践再理论,方便读者快速掌握Hadoop大数据分析技术。

全书共分11章,第1章讲解Hadoop框架简介及新版本特性,并详细介绍大数据环境的准备工作,包括Linux操作系统的安装、SSH工具使用和配置等;第2章讲解Hadoop伪分布式的安装和开发体验,使读者熟悉Hadoop大数据开发两大核心组件,即HDFS和MapReduce;第39章讲解Hadoop生态系统各框架HDFS、MapReduce、输入/输出、Hadoop集群配置、ZooKeeper、HBase、Hive、Flume数据采集系统、Kafka等,并通过实际案例加深对各个框架的理解与应用。第1011章分别通过影评大数据分析项目实战和旅游酒店评价大数据分析项目实战,使读者了解完整的大数据项目开发过程,并巩固所学的知识,使之掌握的内容更加系统、全面。

4.3 本书目的

通过本书的学习,读者可以对照书中的步骤成功搭建属于自己的Hadoop大数据集群,并掌握基于Hadoop的大数据分析与开发技术,最终能够独立完成Hadoop大数据分析与开发项目。

4.4 本书适合的读者

本书可作为Hadoop框架初学者的入门书以及大数据分析人员的参考手册,也可作为高校开设大数据平台搭建或大数据开发课程的参考教材。学习本书要求读者有一定的Java编程基础并了解Linux系统的基础知识。本书每一个章节的实践操作内容都有详细清晰的步骤讲解,即使读者没有任何大数据基础,也可以对照书中的步骤成功搭建属于自己的大数据集群,本书是一本真正提高读者动手能力、以实操为主的入门书籍。通过本书的学习,结合每章配套的源代码,读者能够迅速理解与掌握Hadoop大数据相关技术框架,并可以熟练使用Hadoop集成环境进行大数据项目的开发。

4.5 配套源码、PPT课件等资源下载

本书配套源码、PPT课件、教学大纲与编程环境,需要用微信扫描下边二维码获取,可按扫描后的页面提示填写你的邮箱,把下载链接转发到邮箱中下载。

五、目 录

1章  Hadoop概述与大数据环境准备 1

1.1  大数据定义 2

1.2  Hadoop生态介绍 2

1.2.1  Hadoop简介 2

1.2.2  Hadoop版本简介 4

1.2.3  Hadoop生态系统和组件介绍 6

1.3  Hadoop 3新特性 7

1.4  虚拟机安装 9

1.5  安装Linux操作系统 10

1.6  SSH工具与使用 15

1.7  Linux统一设置 16

1.8  小结 182章  Hadoop伪分布式集群搭建 19

2.1  安装独立运行的Hadoop 19

2.2  Hadoop伪分布式环境准备 22

2.3  Hadoop伪分布式安装 26

2.4  HDFS操作命令 31

2.5  Java项目访问HDFS 33

2.5.1  创建Maven项目 34

2.5.2  HDFS操作示例 36

2.6  winutils 38

2.7  快速MapReduce程序示例 39

2.8  小结 423章  HDFS分布式存储实战 43

3.1  HDFS的体系结构 43

3.2  NameNode的工作 44

3.2.1  查看镜像文件 45

3.2.2  查看日志文件 46

3.2.3  日志文件和镜像文件的操作过程 47

3.3  SecondaryNameNode 49

3.4  DataNode 50

3.5  HDFS的命令 50

3.6  远程过程调用 51

3.7  小结 534章  MapReduce实战 55

4.1  MapReduce的运算过程 55

4.2  WordCount示例 57

4.3  自定义Writable 60

4.4  Partitioner分区编程 64

4.5  自定义排序 66

4.6  Combiner编程 67

4.7  默认Mapper和默认Reducer 68

4.8  倒排索引 69

4.9  Shuffle 73

4.10  小结 775章  ZooKeeper与高可用集群实战 79

5.1  ZooKeeper简介 79

5.1.1  Zxid 80

5.1.2  版本号 81

5.2  单一节点安装ZooKeeper 82

5.3  基本客户端命令 83

5.4  Java代码操作ZooKeeper 86

5.5  ZooKeeper集群安装 91

5.6  znode节点类型 92

5.7  观察节点 93

5.8  配置Hadoop高可用集群 93

5.9  用Java代码操作集群 102

5.10  小结 1046章  Hive数据仓库实战 105

6.1  Hive3的安装配置 107

6.2  Hive的命令 110

6.3  Hive内部表 114

6.4  Hive外部表 116

6.5  Hive表分区 117

6.5.1  分区技术细节 117

6.5.2  分区示例 119

6.6  查询示例汇总 121

6.7  Hive函数 122

6.8  Hive自定义函数 128

6.9  Hive视图 132

6.10  hiveserver2 132

6.11  使用JDBC连接hiveserver2 134

6.12  小结 1357章  HBase数据库实战 136

7.1  HBase的特点 136

7.2  HBase安装 139

7.2.1  HBase的单节点安装 140

7.2.2  HBase的伪分布式安装 142

7.2.3  Java客户端代码 144

7.3  HBase集群安装 150

7.4  HBase Shell操作 153

7.4.1  数据模型定义 154

7.4.2  数据基本操作 156

7.5  协处理器 160

7.6  Phoenix 162

7.7  小结 1688章  Flume数据采集实战 169

8.1  Flume的安装与配置 170

8.2  快速示例 171

8.3  在ZooKeeper中保存Flume的配置文件 172

8.4  Flume的更多Source 176

8.4.1  Avro Source 176

8.4.2  Thrift Source和Thrift Sink 180

8.4.3  Exec Source 183

8.4.4  Spool Source 184

8.4.5  HDFS Sinks 184

8.5  小结 1859章  Kafka实战 186

9.1  Kafka的特点 187

9.2  Kafka术语 188

9.3  Kafka安装与部署 189

9.3.1  单机部署 189

9.3.2  集群部署 195

9.4  小结 19810章  影评大数据分析项目实战 199

10.1  项目介绍 199

10.2  项目需求分析 199

10.3  项目详细实现 203

10.3.1  搭建项目环境 203

10.3.2  编写爬虫类 206

10.3.3  编写分词类 207

10.3.4  第一个job的Map阶段实现 210

10.3.5  第一个job的Reducer阶段实现 210

10.3.6  第二个job的Map阶段实现 211

10.3.7  第二个job的自定义排序类阶段的实现 211

10.3.8  第二个job的自定义分区阶段实现 212

10.3.9  第二个job的Reduce阶段实现 212

10.3.10  Run程序主类实现 213

10.3.11  编写词云类 214

10.3.12  效果测试 21511章  旅游酒店评价大数据分析项目实战 216

11.1  项目介绍 216

11.2  项目需求分析 217

11.2.1  数据集需求 217

11.2.2  功能需求 217

11.3  项目详细实现 218

11.3.1  数据集上传到HDFS 219

11.3.2  Hadoop数据清洗 221

11.3.3  构建Hive数据仓库表 225

11.3.4  Sqoop数据导入与导出 230

11.3.5  数据可视化开发 232

六、🛒 链接直达

在这里插入图片描述

有兴趣的朋友可以前往查看。 JD搜索关键词:

✨ Hadoop大数据分析技术,Hadoop ✨

🛒 链接直达: https://item.jd.com/13536921.html)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1652708.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Redis7】10大数据类型之Zset类型

文章目录 1.Zset类型2.常用命令3.示例3.1 ZADD,ZRANGE和ZREVRANGE3.2 ZSCORE,ZCARD和ZREM3.3 ZRANGEBYSCORE和ZCOUNT3.4 ZRANK和ZREVRANK3.5 Redis7新命令ZMPOP 1.Zset类型 Redis的Zset(Sorted Set,有序集合)是一种特殊的数据结构&#xff0…

市场公关人的日常工作是什么?

作为一个从事多年的市场公关人,每到别人放假的时候就是我们最忙的时候,手上几个KOL项目安排探店,同时还要筹备品牌VIP活动。扎堆的事情每天忙得睁眼就是工作。 基本上来说,公关人是挺苦逼的,并没有大家看上去那么光鲜…

国内免费AI聊天机器人(ChatGPT)推荐(下)含ChatGPT4.0版本

作者主页:点击! 国内免费AI推荐专栏:点击! 创作时间:2024年5月7日10点39分 现在,国内各种免费AI聊天机器人(ChatGPT)层出不穷,功能强大、玩法多样,可以满足你的不同需求。 今天&a…

Linux环境Redis部署

Redis部署 Redis是一个高性能的开源键值存储系统,它主要基于内存操作,但也支持数据的持久化。与其他数据库相比,Redis的主要优势在于它的高性能、丰富的数据结构和原生的持久化能力。Redis不仅提供了类似的功能,还增加了持久化和更多高级功能,如事务处理。这使得Redis能够…

【Git】Git学习-17:git rebase,且解决合并冲突

学习视频链接:【GeekHour】一小时Git教程_哔哩哔哩_bilibili​编辑https://www.bilibili.com/video/BV1HM411377j/?vd_source95dda35ac10d1ae6785cc7006f365780 理论 git rebase 目标分支:把当前分支的提交,从与目标分支的共同主祖先处断开…

数据结构(四)—— 堆和二叉树(上)

制作不易,三连支持一下呗!!! 文章目录 前言一、树的概念及结构二、二叉树的概念及结构总结 前言 这篇博客我们将进行更加复杂的一种数据结构的学习——树形结构。 一、树的概念及结构 树是一种非线性的数据结构,它是…

API攻击为啥盛行,企业应该如何防范

一.API接口到底是什么 API,中文名称叫应用程序编程接口,是现代移动、SaaS 和 Web应用程序的一个关键组成部分。听起来很晦涩难懂,但其实我们每个人的生活都会接触 API:早上出门,打开手机看看天气,天气APP需要通过 API 提取数据;到了公司,被安排出差,赶紧上网查票,购票网站更新…

Windows 虚机扩容C盘

Windows 虚机扩容C盘 操作思路1、新增磁盘容量2、划分磁盘空间3、扩容对应盘 操作步骤 操作思路 1、新增磁盘容量 2、划分磁盘空间 3、扩容对应盘 操作步骤 1、虚机新增磁盘空间 先确认宿主机是否有足够空间,有足够空间后,编辑虚机,增加…

深入探索Android应用数据共享之ContentProvider

本文将深入探讨Android开发中非常重要的数据共享机制 - ContentProvider。 主要内容包括: ContentProvider的基本定义及特点如何实现一个自定义的ContentProviderContentProvider对外提供的功能以及对外部应用的权限控制对ContentProvider的一些常见使用场景使用ContentProvi…

探索网站支付系统的奥秘,从Vue3和Spring Boot开始(入门级项目实战+在线教程)附赠项目源码!

你是否曾经在购物时,对着电脑屏幕前的“支付成功”四个字感到好奇?这背后的秘密究竟是什么? 今天,让我们一起揭开支付系统的神秘面纱,探索其背后的技术实现。 在这个基于Vue3和Spring Boot的支付项目实战中&#xff…

Docker 容器中 PHP 使用 Curl 访问本地服务异常

在 Docker 环境中,将应用程序和服务容器化是常见的做法,但是有时会遇到一些网络通信方面的问题。其中一个常见的问题是 PHP 容器无法使用 Curl 访问本地服务,这可能导致开发和调试过程中的困扰。 问题描述 通常情况下,我们会将 …

为什么Qt这么强大却不受欢迎?

在开始前我有一些资料,是我根据网友给的问题精心整理了一份「Qt的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!虽然这个问题并不被广泛讨论,但我根…

Vue3基础(API风格、监听、生命周期、toRefs、组件通信、插槽、axios,Promise)

Vue3基础(API风格、监听、生命周期、toRefs、组件通信、插槽、axios,Promise) 目录 Vue3基础(API风格、监听、生命周期、toRefs、组件通信、插槽、axios,Promise)API 风格选项式API组合式API混合式 事件监听…

第二证券|1.73万亿“聪明钱”A股扫货买了什么?

跟着A股上市公司一季报披露收官,备受商场重视的险资、社保基金和QFII等各大组织持仓数据浮出水面。 Wind计算数据显现,719家A股上市公司的十大流通股股东有QFII身影,险资和社保基金分别现身754只和659只个股的前十大流通股股东,Q…

ECC 号码总结

1、问题背景 在手机开发过程中,经常遇见各种紧急号码问题,在此特意总结下紧急号码相关知识。 2、紧急号码来源 在MTK RILD EccNumberSource.h中,定义了如下几种紧急号码来源。 按优先级排序介绍如下 2.1、SOURCE_NETWORK 网络下发&#xff…

MinimogWP WordPress 主题下载——优雅至上,功能无限

无论你是个人博客写手、创意工作者还是企业站点的管理员,MinimogWP 都将成为你在 WordPress 平台上的理想之选。以其优雅、灵活和功能丰富而闻名,MinimogWP 不仅提供了令人惊叹的外观,还为你的网站带来了无限的创作和定制可能性。 无与伦比的…

CentOS 7 :虚拟机网络环境配置+ 安装gcc(新手进)

虚拟机安装完centos的系统却发现无法正常联网,咋破! 几个简单的步骤: 一、检查和设置虚拟机网络适配器 这里笔者使用的桥接模式,朋友们可以有不同的选项设置 二、查看宿主机的网络 以笔者的为例,宿主机采用wlan上网模…

Could not resolve placeholder ‘xx.xxx.host’ in value “xxx“问题解决

Could not resolve placeholder ‘xx.xxx.host’ in value "xxx"问题解决 众多原因其中之一 springboot 项目,idea 配置apollo 时,运行指定了配置文件 uat 所以使用本地配置文件启动 时,一直去找uat 配置文件,结果自…

CSS引用

CSS定义 层叠样式表:(Cascading Style Sheets,缩写为css),是一种样式表语言,用来描述HTML文档的呈现(美化内容) 书写位置:title标签下方添加style双标签,style标签里写入CSS代码 在s…

LVS 集群

一、集群和分布式 系统性能扩展方式: Scale UP:垂直扩展,向上扩展,增强,性能更强的计算机运行同样的服务 Scale Out:水平扩展,向外扩展,增加设备,并行地运行多个服务调度分配问题,…