1.1 大数据简介-hadoop-最全最完整的保姆级的java大数据学习资料

news2024/12/26 0:51:46

文章目录

  • 1 hadoop-最全最完整的保姆级的java大数据学习资料
    • 1.1 大数据简介
      • 1.1.1 大数据的定义
      • 1.1.2 大数据的特点
      • 1.1.3 大数据的应用场景
      • 1.1.4 大数据的发展趋势及职业路线
        • 1.4.4.1 大数据发展趋势
        • 1.4.4.2 大数据职业发展路线

1 hadoop-最全最完整的保姆级的java大数据学习资料

大数据技术解决的是什么问题?
大数据技术解决的主要是海量数据的存储和计算。
Hadoop的广义和狭义之分
狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:HDFS:分布式文件系统–> 存储; MapReduce:分布式离线计算框架–>计算;Yarn:资源调度框架
广义的Hadoop:广义Hadoop是不仅仅包含Hadoop框架,除了Hadoop框架之外还有一些辅助框 架。Flume:日志数据采集,Sqoop:关系型数据库数据的采集;
Hive:深度依赖Hadoop框架完成计算(sql),Hbase:大数据领域的数据库(mysql)
Sqoop:数据的导出
广义Hadoop指的是一个生态圈。

主要学习内容

第一部分:大数据简介(定义,特点,应用场景,发展趋势,职业发展路线)
第二部分:Hadoop简介(历史,发展路线-版本变更,发行版(CDH))
第三部分:Hadoop的重要组成(hdfs,mapreduce,yarn)
第四部分:Apache Hadoop 完全分布式集群搭建
第五部分:HDFS 分布式文件系统(架构,原理,常用api, 元数据管理,权限,日志采集的综合案例)
第六部分:MapReduce分布式计算框架 (原理,常用的编程规范等,大量案例练习-分区,排序-快 排-归并排序,压缩,自定义组件,综合案例)
第七部分:Yarn 资源调度框架(架构,原理,三种资源调度策略)
第八部分:Apche Hadoop核心源码剖析(nn,dn启动流程源码分析,nn高并发的支撑原理, hadoop3.0新特性)
第九部分: 调优及二次开发示例(hdfs,mr,yarn调优,nn常见GC问题,完成二次开发编译源码)

1.1 大数据简介

1.1.1 大数据的定义

​ 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处 理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

1.1.2 大数据的特点

大数据的特点可以用 IBM 曾经提出的 “5V” 来描述,如下:

在这里插入图片描述

  • 大量

    采集、存储和计算的数据量都非常大。

    计算机存储单位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB来表示, 它们之间的关系是
    1GB = 1024 MB
    1TB = 1024 GB
    1PB = 1024 TB
    1EB = 1024 PB
    1ZB = 1024 EB
    1YB = 1024 ZB
    1BB = 1024 YB
    1NB = 1024 BB
    1DB = 1024 NB

    以PB为例,PB级数据量有多大?是怎样的一个概念?

    假如手机播放MP3的速度为平均每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB存量的歌曲可以连续播放2000年。

    1PB 也相当于50%的全美学术研究图书馆藏书咨询内容。

    (1)1986年,全球只有0.02EB也就是约21000TB的数据量
    (2)2007年,全球就是280EB也就是约300000000TB的数据量,翻了14000倍
    (3)近些年,由于移动互联网及物联网的出现,各种终端设备的接入,各种业务形式的普 及,平均每40个月,全球的数据量就会翻倍!2012年,每天会产生2.5EB的数据量
    (4)基于IDC的报告预测,从2013年到2020年,全球数据量会从4.4ZB猛增到44ZB!而到了 2025年,全球会有163ZB的数据量!

    全球的数据量已经大到爆了!而传统的关系型数据库根本处理不了如此海量的数据!

  • 高速

    在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。

  • 多样

    数据形式和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音 频、视频、图片、地理位置信息等等,多类型的数据对数据的处 理能力提出了更高的要求。

  • 真实

    确保数据的真实性,才能保证数据分析的正确性

  • 低价值

    数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。互联网发展催生了大量数据,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题,也是一个有难度的课题。

1.1.3 大数据的应用场景

随着大数据的发展,大数据技术已经广泛应用在众多行业,比如仓储物流、电商零售、汽车、电信、生物医学、人工智能、智慧城市等等领域,包括在疫情防控战中,大数据技术也发挥了重要的作用。

  • 仓储物流
    大数据技术驱动了仓储物流领域的智能化发展,以苏宁为例,苏宁物流可在全国的各级仓库间实现 智能分仓、就近备货和预测式调拨,实现”客户需要的商品就在离客户最近的配送中心“。

在这里插入图片描述

  • 电商零售

    • 零售业 ” 啤酒+纸尿裤 “ 案例

在这里插入图片描述

  • 个性推荐
    在这里插入图片描述

  • ” 双11购物节 “ 实时销售额大屏
    在这里插入图片描述

  • 汽车

    利用了大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活

在这里插入图片描述

  • 电信
    移动联通根据用户年龄、职业、消费情况,分析统计哪种套餐适合哪类人群,对市场人群精准定制。

在这里插入图片描述

  • 生物医学

    大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。比如影像大数据支撑下的早期肺癌支撑平台,基于大量病例数据样本,制定早期肺癌高危人群预警指标。
    在这里插入图片描述

  • 人工智能

在这里插入图片描述

  • 智慧城市

    大数据有效支撑智慧城市发展,成为城市的”数据大脑“。比如,在智慧城市建设上,杭州始终走在全国前列。如覆盖面广的移动支付、新颖的在线医疗模式、创新的物流运输模式,都受到较大关注。2016年,杭州被《中国新型智慧城市》白皮书评为“中国最智慧的城市”。

在这里插入图片描述

大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。

1.1.4 大数据的发展趋势及职业路线

1.4.4.1 大数据发展趋势

  1. 2015年党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇

  2. 2017年十九大报告明确 “推动互联网、大数据、人工智能和实体经济深度融合”

  3. 2020年全国政协十三届三次会议新闻发布会上,更进一步强调:大数据、人工智能、5G是引领 未来发展的战略性技术

    显然,发展大数据是我国的战略性决策,前景自然不言而喻

  4. 2017年北京大学、中国人民大学、北京邮电大学等25所高校成功申请开设大数据课程

  5. 大数据属于高新技术,大牛少,升职竞争小

  6. 2020年5月6日,人力资源和社会保障部发布《新职业—大数据工程技术人员就业景气现状分析报告》,报告显示:预计2020年中国大数据行业人才需求规模将达210万,2025年前大数据人才需求仍将保持30%~40%的增速,需求总量在2000万人左右

  7. 在北京大数据开发工程师的平均薪水已经超越 1.5w 直逼2w,而且目前还保持强劲的发展势头

1.4.4.2 大数据职业发展路线

​ 目前大数据高、中、低三个档次的人才都很缺。现在我们谈大数据,就像当年谈电商一样,未来前景已经很明确,接下来就是优胜劣汰,竞争上岗。不想当架构师的程序员不是好架构师!但是,大数据发展到现阶段,涉及大数据相关的职业岗位也越来越精细。

​ 从职业发展来看,由大数据开发、挖掘、算法、到架构。从级别来看,从工程师、高级工程师,再到架构师,甚至到科学家。而且,契合不同的行业领域,又有专属于这些行业的岗位衍生,如涉及金融领域的数据分析师等。大数据的相关工作岗位有很多,有数据分析师、数据挖掘工程师、大数据开发工程师、大数据产品经理、可视化工程师、爬虫工程师、大数据运营经理、大数据架构师、数据科学家等等。

​ 从事岗位:ETL工程师,数据仓库工程师,实时流处理工程师,用户画像工程师,数据挖掘,算法工程师,推荐系统工程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/55855.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

同事老是吐槽我的接口性能差,原来真凶就在这里!

V-xin:ruyuanhadeng获得600页原创精品文章汇总PDF 一、前情回顾 上篇文章:《为什么每个程序员都必须坚持写博客?这篇文章教你怎么写!》聊了一下系统架构中,百亿流量级别高并发写入场景下,如何承载这种高并…

Kotlin高仿微信-第37篇-拍照

Kotlin高仿微信-项目实践58篇详细讲解了各个功能点,包括:注册、登录、主页、单聊(文本、表情、语音、图片、小视频、视频通话、语音通话、红包、转账)、群聊、个人信息、朋友圈、支付服务、扫一扫、搜索好友、添加好友、开通VIP等众多功能。 Kotlin高仿…

ZPL II 语言编程基础

ZPL II 语言概述 ZPL语言是一种script语言,分为ZPL语言和ZPL II 语言Zebra打印机支持最广泛的一种语言 ZPL II语言支持复杂标签格式,如文字,图片,条形码,序列号打印等等 ZPL II文件可以通过以下两种方式实现 纯文本编…

java字符编码总结

一、字符集(Charcater Set)与字符编码(Encoding) 字符集(Charcater Set 或 Charset):是一个系统支持的所有抽象字符的集合,也就是一系列字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。常见的字符集有…

记录--从AI到美颜全流程讲解

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 美颜和短视频 美颜相关APP可以说是现在手机上的必备的软件,例如抖音,快手,拍出的“照骗”和视频不加美颜效果,估计没有人敢传到网上。很多人一直好奇美颜…

力扣hot100——第3天:11盛最多水的容器、15三数之和、17电话号码的字母组合

文章目录1.11盛最多水的容器1.1.题目1.2.解答1.2.1.题解1.2.2.自己对参考题解的进一步解释2.15三数之和【代码随想录已刷】3.17电话号码的字母组合【代码随想录已刷】1.11盛最多水的容器 参考:力扣题目链接;题解 1.1.题目 1.2.解答 1.2.1.题解 这道题…

Mybatis-多表联查

多表联查一、步骤一:创建pojo实体类二、步骤二:明确两个实体类之间的关系三、步骤三:修改pojo实体类四、步骤四:编写Mapper接口五、步骤五:编写Mapper映射文件题目1:通过订单id查询订单详情以及所属用户题目2:通过用户…

OpenCV入门(C++/Python)- 使用OpenCV读取、显示和写入图像(一)

使用OpenCV读取、显示和写入图像1.imread()读取图像imread()函数2.imshow()在窗口中显示图像waitKey()destoryAllWindows()3.imwrite()将图像写入文件目录读取、显示和写入图像是图像处理和计算机视觉的基础。即使裁剪、调整大小、旋转或应用不同的过滤器来处理图像&#xff0c…

C. Carrying Conundrum(思维 + 奇偶数位)

Problem - 1567C - Codeforces 爱丽丝刚刚学会了加法。但是,她还没有完全学会 "携带 "的概念--她不是携带到下一列,而是携带到左边两列的列。 例如,评估20392976这个和的常规方法是如图所示。 然而,爱丽丝是按照图中的…

【在SpringBoot项目中使用Validation框架检查数据格式-常用的检查注解】

常用的检查注解 使用Validation框架检查数据格式时,常用的检查注解有: NotNull:不允许为null值 可用于任何类型的参数NotEmpty:不允许为空字符串,即长度为0的字符串 仅用于检查字符串类型的参数NotBlank:不…

【D3.js】1.17-给 D3 元素添加标签

title: 【D3.js】1.17-给 D3 元素添加标签 date: 2022-12-02 14:35 tags: [JavaScript,CSS,HTML,D3.js,SVG] 为了让图更易懂,我们给每一个rect添加上标签。 一、学习目标 如何添加text元素? .append(“text”) 如何设置text元素的值? .attr(…

[附源码]计算机毕业设计在线图书销售系统Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

IPWorks macOS Edition通信组件

IPWorks macOS Edition通信组件 用于Internet通信的一整套组件。 IPWorks是一个用于Internet开发的综合框架,它消除了Internet开发的复杂性,提供了可编程的、支持SSL的组件,以便于执行诸如确保安全、发送电子邮件、传输文件、管理网络、浏览W…

物联网 MQTT 协议

MQTT官网:MQTT - The Standard for IoT Messaging MQTT中文网(全是广告):首页 | MQTT中文网 物联网百科 物联网(Internet of Things,简称IoT)是指通过各种信息传感器、射频识别技术、全球定位…

在线编程教学技术解决方案,覆盖所有授课场景需求

在线编程教学是一种应用较为广泛的远程教学形式,例如:互动体验,音视频技术的普及,对线上教学的质量与学习效率带来了很大的提升。在线编程教学可以让教师对学生进行在线编程教学,以一对多小班教学为主。那么在线编程教…

线上项目源码安全性处理方案

场景: 最近项目提出要对线上代码进行安全性处理,防止客户直接通过反编译工具将代码反编译出来 方案: 第一种方案使用的是代码混淆 第二种方案使用的是代码加密 方案比较 方案一:采用的proguard-maven-plugin插件 方案二&#xf…

要花多少亿美元,HPE才能买下超融合鼻祖Nu­t­a­n­ix?

【全球存储观察 | 热点关注】据报道,慧与科技HPE在近几个月与超融合提供商Nutanix就收购进行了谈判。 在这之前的2017年2月,HPE以6.5亿美元收购了超融合全球老二SimpliVity,后来整合成了HPE重要的超融合产品线,并进一步丰富了整体…

Seal库官方示例(五):ckks_basics.cpp解析

这个代码计算的是πx30.4x1\pi \times x^30.4 \times x 1πx30.4x1。 代码解析 方案选择 首先照例是方案选择 EncryptionParameters parms(scheme_type::ckks);参数设置 CKKS方案中使用rescale方法来控制膨胀的密文规模和噪声,这个和modulus switching有点类似…

[激光原理与应用-28]:《激光原理与技术》-14- 激光产生技术 - 激光的主要参数与指标

目录 1、 激光器的门限电流与功率输出 2、激光器的调制增益 3、功率/能量密度 6、额定功耗 7、转换效率 8、光斑大小 9、线宽 10、激光器的谱线宽度。 11、激光器的相对强度噪声RIN。 12、激光器的线性范围。 13、带内平坦度 14、激光器的温度特性 15、激光器的交…

基于PHP+MySQL信息技术学习网站设计与实现

智多在线网络学习平台为学习各种技术查看资料的用户提供一个准确、最新的技术与相关文档,浏览目前流行教学的新闻,提出技术上遇到的难点及问题,帮助其他用户回答所提出的问题,上传想要分享的资源,下载要获取的相关技术…