走近大数据——什么是大数据、计算架构的发展

news2024/11/19 11:31:05

文章目录

  • 一、什么是大数据
  • 二、大数据计算架构的发展
    • 1.RDBMS阶段
    • 2.Hadoop Map-Reduce阶段
    • 3.Spark阶段
    • 4.Flink阶段
  • 参考

一、什么是大数据

大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。

  • 大数据的特点:
    海量化:数据量规模巨大
    多样性:数据源和数据种类具有多样性
    快速化:数据产生和处理的速度很快
    价值化:数据的价值密度低,但整体价值高

  • 大数据体系:

在这里插入图片描述

  • 流式处理、批式处理、实时处理:
    批处理: 静态数据集、离线计算、非实时、小时/天等周期性计算。批处理系统可以存取已经入库的所有数据,人们可以对数据进行复杂深入的分析,分析处理的延迟以分钟或者小时计。批处理是最通用的数据处理模式。传统的关系数据库系统、Hadoop以及Spark大数据处理平台等,都采用了这样的数据处理模式,或者以该处理模式为主。由于需要完整地保存整个数据集,并且在上面进行分析处理,比起流式数据处理系统,人们需要投入更多的硬件资源。
    流处理: 动态数据集、可看作实时计算、7*24小时不断运行、流批一体。数据持续到达,系统及时处理新到达的数据,并不断产生输出。处理过的数据一般丢弃掉,当然也可以保存起来。流式数据处理模式强调数据处理的速度。完成分析处理的时间,需要达到实时或者接近实时的响应时间要求。
    实时处理: 在数据生成或收到后立即进行处理的过程。在这种处理方式中,数据处理的延迟非常低,以便及时作出响应。

二、大数据计算架构的发展

在这里插入图片描述

1.RDBMS阶段

在最早期,关系型数据库(RDBMS)能解决一切问题,这些数据库集数据计算、数据存储于一体。使用者只需要将原始数据保存到一张数据源表中,后续再根据自己的业务需求写SQL将结果再次保存到另一张表中就可以了,这是传统数据库最常见的数据处理模型。
特点: 这种架构方式简单易用,但是这种单机的、一体的架构方式效率低下,而且一旦其中某一个环节出错,就会导致整个系统崩溃。

2.Hadoop Map-Reduce阶段

Hadoop不是某个单一技术的软件,它是一个大数据处理系统和生态的总称,Hadoop最初出现在大众视野中时,指的是:HDFS文件系统 + Map-Reduce计算引擎 + HBASE数据库(BigTable 原理)。

  • Hadoop特点:
    解耦: 从HDFS读取原始数据,再用MapReduce计算引擎进行计算,最后用HBASE来存储计算后的结果。
    分布式: 数据从HDFS读取是分治的——同时存储在多台机器上;通过MapReduce计算引擎来计算是分治的——多台机器一起计算,每台机器计算一小部分;最后将结果保存到HBASE也是分治的——结果会分布存储到多台机器中。
    低成本: 软件低成本——开源使用;硬件低成本——几乎适配所有操作系统。

  • Hadoop生态系统:

在这里插入图片描述

3.Spark阶段

  • Hadoop MapRedcue 缺点:
    延迟过高,无法胜任实时、快速计算需求的问题,使得需要进行多路计算和迭代算法的用例的作业过程不够高效。

Spark 基于MapReduce技术,继承了 Hadoop MapReduce 其分布式并行计算的优点,并改进了 MapReduce 明显的缺陷,基于内存迭代计算,可以融入Hadoop生态系统。

Spark基于 微批量处理 ,把流数据看成是一个个小的批处理数据块分别处理,所以延迟性能做到秒级。

4.Flink阶段

Flink是一个流式计算框架,实效性达到了实时级别。

  • Hadoop Map-Reduce、Spark、Flink区别:
    在这里插入图片描述

参考

blog1
blog2
blog3
blog4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/492219.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

少年不懂孔乙己,读懂已是书中人

文章目录 前言梗从何来互联网文学背后的焦虑给学弟学妹的建议 前言 《孔乙己》是近代文学巨匠鲁迅所著的短篇小说。 大概故事讲的是孔乙己是站着喝酒而穿长衫的(那时候穿长衫的人代表着有知识)唯一人,穿的虽然是长衫,可是又脏又破…

SpringMVC概述

SpringMVC概述 1. SpringMVC概述1.1 SpringMVC概述 2. 入门案例【重点】2.1 实现步骤2.2 代码实现【第一步】创建web工程(Maven结构)【第二步】设置tomcat服务器,加载web工程【第三步】导入坐标(SpringMVCServlet)【第…

璞华助力“数字人社”,为成都市人社数字化建设提供多方位的产品与技术支持!

新的时期,人力资源和社会保障事业进入新一轮的制度创新和加快发展阶段。把对各项人力资源和社会保障业务的支持和服务纳入信息化建设,通过 “数字人社”信息化建设项目,是充分利用新一代信息技术,有效整合各类信息资源&#xff0c…

ChatGPT背后的打工人:你不干,有的是AI干

AI“出圈” 如今,数字技术发展速度惊人,AI提高了社会生产效率,更真切地冲击到原有的生产秩序。 年初AI技术的爆发,让国内看到了进一步降本增效的希望。 国内多家互联网企业相继推出类ChatGPT产品,复旦大学邱锡鹏教授…

清洁赛道新势力,米博凭“减法”突围?

在五四青年节这个特殊的日子,方太旗下的高端智能清洁品牌“米博”发布了新一代无滚布洗地机7系列。 5月4日晚,米博以“减法生活,净请7代”为主题,举办了新品发布会。在发布会上,从小红书翻红的董洁作为方太集团米博产…

持之以恒奖牌来啦,带你提前看~

加油,让我们继续持之以恒吧!

Flutter 中使用 dart:html 的条件导入

Flutter 中使用 dart:html 的条件导入 Flutter 是一个跨平台的 UI 框架,可以让你用一套代码开发 Android、iOS、Web 和桌面应用。但是,不同的平台有不同的特性和限制,所以有时候你可能需要根据平台来导入不同的库或代码。这时候,…

社交“搭子”火了!小红书数据分析,品牌正用“陪伴”种草?

找搭子,年轻人在搞一种很新的社交 朋友,你找搭子了吗?近期,“搭子”这种新型社交关系走红,饭搭子、奶茶搭子、厕所搭子、旅游搭子……遍布于各式各样的场景中,主打的就是一个垂直细分领域的精准陪伴。“搭子…

数字化转型:制造业企业,如何创新技术并借力发展?

数字中国峰会刚刚拉开帷幕,紧跟一波潮流。 在这个数字技术全面升级的关口,企业如何进更时代步伐,更好完成数字化转型和升级? 到底什么是数字化转型? 我们当下所看到的很多对“数字化”的理解,依然是“信…

【c++修行之路】模板

模板 一般我们在实现一个函数的时候,都会使用模板,因为如果将类型写死,下次再使用的时候就要新写一个函数,尽管重载可以让名字方便,但每重载都要自己去写一个函数,这样非常麻烦,所以模板就是让…

025 - C++ 接口(纯虚函数)

上一期我们学习了虚函数,本期我们学习一种特殊的虚函数,纯虚函数。 C 纯虚函数本质上与其他语言中的抽象方法或接口相同,基本上,纯虚函数允许我们在基类中定义一个没有实现的函数,然后强制子类去实现该函数。 我们可…

uni-app获取手机号

登录微信公众平台拿到自己的AppID(小程序ID)和AppSecret(小程序密钥) 微信公众平台 1.获取手机号首先要先登录拿到code,用code去获取session_key 2.获取 code需要知道自己的AppID(小程序ID)和AppSecret(小程序密钥) 3.解密 uni.login({success: (loginRes) > {…

提取Windows中系统自带的图标资源

写应用程序,如果想使用Windows下的图标,可以使用Visual Studio中的图标,比如VS2008的ImageLibrary(笔者已经打包上传到CSDN),也可以使用Windows系统自带的图标。 Windows系统自带了不少高质量的图标资源&a…

2019临沂中考数学解析

一、选择 考点: 绝对值:数轴上某个数与原点的距离叫做这个数的绝对值。 其中距离一定是非负的,即大于等于0 考点: 两直线平行,同位角相等邻补角: 指两条直线相交后所得的有一个公共顶点且有一条公共边的两…

一篇SEO指南:新手如何从零开始优化自己的网站

在如今的数字时代,拥有一个优化良好的网站对于任何企业或个人来说都是至关重要的。但是,对于SEO新手来说,如何从零开始优化自己的网站可能是一项看似艰巨的任务。在本文中,我们将为您提供一份SEO指南,帮助您了解从零开…

C++之STL顺序容器

目录 一、STL容器简介 二、顺序容器 一、STL容器简介 STL容器是一个通用的数据结构,可以处理不同数据类型,包含基本的数据结构如链表、堆栈、队列等。可以分为顺序容器、关联容器、 容器适配器、特殊容器。本篇博客将简要介绍一下STL容器中的顺序容器…

Mysql 学习(八)单表查询方法 一

单表访问方法 前面几节我们了解 innodb 的底层数据结构的设计,究其本源我们其实是为了更好的理解如何查询,并且如何使得查询语句更加快速的问题,这节我们就来好好讲一讲首先我们先来创建一个表 CREATE TABLE index_value_table (id INT NOT…

Redis --- 哨兵、分片集群

一、Redis哨兵 Redis提供了哨兵(Sentinel)机制来实现主从集群的自动故障恢复。 1.1、哨兵原理 集群结构和作用 哨兵的结构如图: 哨兵的作用如下: 监控:Sentinel 会不断检查您的master和slave是否按预期工作 自动故障…

mysql 排名与排序

MySQL 8.0 版本新增 两个排名函数 分别是 ROW_NUMBER() 与 RANK() 用法 SELECT ROW_NUMBER() OVER(ORDER BY id) AS rowNo, name FROM users; SELECT RANK() OVER(ORDER BY score DESC) AS rankNo, name, score FROM students;后面跟 OVER()括号里…

惠普星 TP01-055ccn电脑重装系统步骤

如果你的惠普星 TP01-055ccn电脑出现了系统问题,或者你想更换一个全新的微软操作系统,自己有不清楚相关的重装系统步骤怎么办?别担心,你可以参考以下的惠普星 TP01-055ccn电脑重装系统步骤来执行。 ​ 惠普星 TP01-055ccn电脑怎…