系列文章目录
作者:i阿极
作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页
😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍
📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪
文章目录
- 系列文章目录
- 1、好书推荐
- 2、内容简介
- 3、目录
- 4、章节介绍
- 5、活动
1、好书推荐
2、内容简介
本书由浅入深地介绍了Hadoop技术生态的重要组件,让读者能够系统地了解大数据相关技术。第1章主要从整体上介绍了Hadoop大数据技术,并搭建Hadoop运行环境。第2~5章着重介绍了Hadoop核心技术,包括Hadoop分布式文件系统(HDFS)、Hadoop资源管理系统(YARN)、Hadoop分布式计算框架(MapReduce)以及ZooKeeper分布式协调服务。第6章重点介绍了Hadoop分布式集群的搭建以及集群的运维与管理。第7~8章详细介绍了Hive数据仓库和HBase分布式数据库等Hadoop的上层技术组件。第9章介绍了
Hadoop生态圈其他常用开发技术。第10~11章是项目实战,分别介绍了互联网金融项目离线分析、互联网直播项目实时分析。
本书采用理论知识和实战项目相结合的方式,突出实战,非常适合Hadoop 初学者及开发者阅读。本书既可以作为高等院校数据科学与大数据技术及相关专业的教材,也可以作为大数据工程师的必备开发手册。
3、目录
前言
第1章 Hadoop技术概述1
1.1 Hadoop的前世今生1
1.1.1 Hadoop概述1
1.1.2 Hadoop项目起源1
1.1.3 Hadoop发展历程2
1.1.4 Hadoop名字起源2
1.2 Hadoop生态系统简介2
1.3 Hadoop的优势及应用领域4
1.3.1 Hadoop的优势4
1.3.2 Hadoop的应用领域4
1.4 Hadoop与云计算5
1.4.1 云计算的概念及特点5
1.4.2 Hadoop与云计算的关系6
1.5 Hadoop与Spark6
1.5.1 Spark的概念及特点6
1.5.2 Hadoop与Spark的关系7
1.6 Hadoop与传统关系型数据库7
1.6.1 RDBMS的概念及特点7
1.6.2 Hadoop与RDBMS的关系8
1.7 案例实践:搭建Hadoop运行环境8
1.7.1 搭建IDEA开发环境9
1.7.2 搭建Linux虚拟机11
1.7.3 搭建Hadoop伪分布式集群环境15
1.8 本章小结21
1.9 习题21
…
第11章 项目实战—互联网直播项目实时分析248
11.1 项目需求分析248
11.2 系统架构设计248
11.3 数据流程设计249
11.4 系统集群规划249
11.5 项目开发步骤250
11.5.1 模拟实时产生数据250
11.5.2 MySQL建表存储统计结果252
11.5.3 Flink Streaming业务代码实现252
11.5.4 打通互联网直播项目整个流程254
11.5.5 Davinci数据可视化分析256
11.6 本章小结256
参考文献257
4、章节介绍
本书共11章。
- 第1章是Hadoop技术概述,首先介绍了Hadoop的前世今生、Hadoop生态系统、Hadoop的优势及应用领域、Hadoop技术与其他技术之间的关系,让读者对Hadoop大数据技术有个整体的认识。然后详细介绍了如何搭建Hadoop运行环境,为后续章节的学习做好铺垫。
- 第2章是Hadoop分布式文件系统(HDFS),首先介绍了HDFS的架构设计与工作原理、高可用、联邦机制以及Shell操作,然后通过一个案例实践详细介绍了如何将文件定时上传至HDFS。
- 第3章是Hadoop资源管理系统(YARN),首先介绍了YARN的架构设计与工作原理、MapReduce On YARN的工作流程以及YARN的容错性、高可用与调度器,然后通过一个案例实践详细介绍了YARN调度器的配置与使用。
- 第4章是Hadoop分布式计算框架(MapReduce),首先介绍了MapReduce的设计思想、优缺点等,然后重点介绍了MapReduce的编程模型与运行机制,最后以气象大数据离线分析项目为例详细介绍了MapReduce项目的完整开发流程。
- 第5章是ZooKeeper分布式协调服务,首先介绍了ZooKeeper架构设计与工作原理、集群安装部署以及Shell操作,然后以爬虫项目为例详细介绍了ZooKeeper对分布式应用的监控。
- 第6章是Hadoop分布式集群搭建与管理,首先介绍了集群规划、HDFS和YARN的分布式
集群搭建,然后介绍了Hadoop集群的管理经验及运维技巧,最后通过案例实践介绍了Hadoop集群动态扩缩容。- 第7章是Hive数据仓库工具,首先介绍了Hive原理及架构、安装部署以及详细使用,然后以B站用户行为大数据项目为例详细介绍了如何使用Hive进行离线分析。
- 第8章是HBase分布式数据库,首先介绍了HBase模型及架构、分布式集群安装部署、Shell操作以及Java客户端,最后通过一个案例实践详细介绍了MapReduce批量写入 HBase。
- 第9章是Hadoop生态圈其他常用开发技术,首先介绍了Sqoop和Flume数据采集技术,然后介绍了Kafka数据存储与交换技术,接着介绍了Spark和Flink数据处理技术,最后介绍了Davinci可视化技术。每种技术都结合了具体案例实践来介绍,让读者掌握技术理论的同时,更注重项目实践能力。
- 第10章是项目实战—互联网金融项目离线分析,首先介绍了项目需求、系统架构设计、数据流程设计、系统集群规划,然后按照大数据离线项目流程详细介绍了互联网金融项目的完整开发过程;实现从数据采集到数据可视化这种端到端的项目开发流程,使读者真正掌握大数据技术组件在离线项目中的应用。
- 第11章是项目实战—互联网直播项目实时分析,首先介绍了项目需求、系统架构设计、数据流程设计、系统集群规划,然后按照大数据实时项目流程详细介绍了互联网直播项目的完整开发过程;实现从数据采集到数据可视化这种端到端的项目开发流程,使读者真正掌握大数据技术组件在实时项目中的应用。
5、活动
🎉本次送 3本书 ,评论区抽3位小伙伴送书
🎉活动时间:截止到 2023-06-09 14:00:00
🎉抽奖方式:利用爬虫进行随机抽奖。
🎉参与方式:关注博主、点赞、收藏,评论区评论 “一天当两天卷!”
ps:一定要关注博主,不然中奖后将无效
🎉通知方式:通过动态与私信与本文最后同时公布
🎉感兴趣的小伙伴也可以访问下面的链接了解详情:
618京东【7.9折】https://item.jd.com/13427329.html