大数据技术为何诞生,它究竟解决了哪些问题?

news2024/9/27 9:20:01

大数据诞生背景与基本概念

    • 大数据为什么会诞生?以及它解决了哪些问题?
      • 1.大数据诞生之前的数据处理模式
      • 2.结构化数据在传统处理方式下的瓶颈
      • 3.非结构化与半结构化数据在传统处理方式下的瓶颈
      • 4.大数据诞生的初衷与定义
    • 大数据场景特征

大数据为什么会诞生?以及它解决了哪些问题?

1.大数据诞生之前的数据处理模式

大数据是什么?其实大数据是满足数据达到海量这个规模以后,对这部分数据要完成存储包括计算的一种技术。

但在数据没有达到海量规模之前,我们是不是有传统的数据处理架构去帮我们完成这部分数据的一个处理?

首先从数据类型来说,我们处理的有结构化的、非结构化和半结构化的数据。

结构化数据的话一般是存在关系型数据库里面的数据,它们都是结构化的。因为它有严格的字段的限制,每个字段有各自的数据类型。

这种数据,数据库或者数据仓库就能满足我们存储以及计算的一个需要。

半结构化数据一般是指像日志、json这种数据。它虽然有相应的字段,也有数据类型,但是它并不严格。

比如说json,它某一行数据可能少几个字段,某一行数据可能多几个字段,这个是没有关系的。

对于非结构化就完全没有结构,你比如说图片、视频、音频都属于非结构化数据。

非结构化半结构化数据,一般我们存在NOSQL数据库里面,但是NOSQL数据库它只管存储,一般来说它不管计算的。我们要对这部分数据进行计算的时候,需要编写一些并发程序从NOSQL数据库里面把数据读出来之后,再进行相关的处理。

所以你发现中小规模的数据,现在是有非常成熟的技术可以帮助我们完成存储与计算任务的。

但是一旦数据达到海量这个级别,比如说达到100TB、50个PB,甚至更高的规模。这个时候我们发现传统的数据处理架构,产生了一些瓶颈。

2.结构化数据在传统处理方式下的瓶颈

对于结构化数据而言,它一般存在单机数据库里面。数据量暴增以后,单机数据库能不能存储的下,这是一个问题。再一个即使能够满足存储,它的处理与计算速度也很慢。

这个时候有的同学说了,现在单机数据库是不是可以组成集群?由几十个数据库组成一个规模比较大的集群来统一进行数据存储与计算。这个问题是不是解决了?

多节点数据库

其实并没有,多节点共同处理的这种架构我们叫MPP架构。但是这种MPP架构它存在扩展性的一个问题。

因为它是单机数据库发展过来的,基于单机数据库缝缝补补,实现了这样一套架构。所以它的扩展性能还是相对有限的。

你比如说像Oracle,它扩展到30台以后就没办法再进行扩展了。当然这里例子不太恰当,因为Oracle RAC严格来说不是MPP。但所有的MPP架构产品,都是到了一个节点数量之后就会达到上限。达到上限之后,数据规模超过存储容量后就没办法完成存储了。

再一个它也存在热点问题,它比较热的数据可能会存在某个节点上。那这个节点就承载了更多的压力,它就容易挂掉,对我们的系统就会产生一定的影响。

3.非结构化与半结构化数据在传统处理方式下的瓶颈

对于非结构化半结构化数据,它更明显。因为它们的数据是存在NOSQL数据库里的,NOSQL数据库一般来说它的扩展性能是非常好的,但是NOSQL数据库它只负责存储,一般来说它不负责计算。

NOSQL数据库

计算的时候,我们需要编写计算任务,让它从各个数据库中进行数据读取,跨网络把数据拉取到计算节点以后再进行计算。计算完成后,把计算结果做一个输出。

NOSQL数据库,它做存储是没有问题的。但是数据规模较大后,跨网络进行拉取,这个时候就会造成网络上的开销。比如说100TB的数据,走网络可以想象,它的开销是很大的。

而且我们计算任务在进行计算的时候,它的效率也是很低的。

4.大数据诞生的初衷与定义

这个时候有没有存在一整套的解决方案,能够帮我们存储这种海量的结构化、半结构化以及非结构化数据。即使规模再大,都能完成存储。存储之后基于海量的数据进行计算时,它的效率也很高,并且能够有很强的扩展性。

有没有这样一套方案呢?当然有,这就是大数据技术生态。

对于大数据,有一个比较长的、比较权威的定义。

大数据是指超出传统数据库工具收集、存储、管理和分析能力的数据集。与此同时,及时采集、存储、聚合、管理数据,以及对数据深度分析的新技术和新能力,正在快速增长,就像预测计算芯片增长速度的摩尔定律一样。
 — McKinsey Global Institute

但是总结起来,其实大数据技术可以一句话概括。它专门是为了满足数据达到海量规模以后,对它进行存储与计算的这样的一种技术或者架构。这是大数据的一个基本定义。

大数据场景特征

在大数据的场景下,它包含一些基本特征。或者说,满足这些特征的场景就称为大数据场景。

大数据4V特征

1、数据量大(Volume)

一般来说大数据场景,它第一个特征就是数据规模巨大。比如说达到了10个PB,50个PB这样的数据规模。数据是海量的。

2、速度快(Velocity)

数据的生成和处理速度快。比如说17年的时候携程,它每天的数据增量是100tb,而且当时平台已经有50Pb的数据储备。所以数据的生成速度是非常快的。

每天生成了这么多数据,这部分数据也要快速的处理完成。所以也就对它的处理速度也产生了一个要求。

这是它第二个特征:速度,包含两个维度,数据生成速度与处理速度。

3、多样性(Variety)

大数据这一块它要处理的数据包括结构化、非结构化、半结构化数据。

而且在互联网时代,其实非结构化和半结构化数据它的占比是更高的。比如说日志、json,这都是很有价值的数据。图片、视频、音频,它单个文件就很大,产生的数据量一定也是非常庞大的。

所以不光是结构化数据,非结构化半结构数据也要满足它的存储与计算。这个时候体现了它的数据多样性。

4、价值(Value)

一般来说大数据场景下,当数据达到海量之后,基于这部分数据挖掘出来的价值一定是更高的,从数据里能够挖掘出一些潜在的规律以解决复杂的问题。

而且大数据和人工智能结合,带来的价值一定是巨大的。

但是它的价值密度是比较低的,因为密度等于总的价值除以数据量。总价值虽然很高,但是你数据量也增大了,而且达到了海量的一个规模。分母一大相当于做了一个稀释,它的价值密度反而下降了。

所以一般说,满足这4个特征的场景,我们叫大数据场景。

这4个特征用英文翻译过来,都是以4个以V开头的单词(数据量Volume、速度Velocity、多样性Variety、价值Value),所以我们也称为它是大数据的4V特性或者4V特征。

OK,大数据的诞生背景以及它的基本概念就分享到这里,配套视频讲解,可以在B站【数舟】中观看,B站传送门:https://www.bilibili.com/video/BV1QM4y1Z7jz/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/367005.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

day19_Set

今日内容 上课同步视频:CuteN饕餮的个人空间_哔哩哔哩_bilibili 同步笔记沐沐霸的博客_CSDN博客-Java2301 零、 复习昨日 一、作业 二、Set 三、HashSet 四、LinkedHashSet 五、TreeSet 六、Collections 零、 复习昨日 提问过了… 一、作业 见代码… 二、Set Set集合是Collecti…

Mybatis源码笔记

String resource "mybatis-config.xml";Reader reader;try {//将XML配置文件构建为Configuration配置类reader Resources.getResourceAsReader(resource);// 通过加载配置文件流构建一个SqlSessionFactory DefaultSqlSessionFactorySqlSessionFactory sqlMapper …

多点电容触摸屏实验

目录 一、简介 二、硬件原理 ​编辑1、CT_INT 2、I2C2_SCL和I2C2_SDA 3、RESET复位引脚 三、FT54x6/FT52x6电容触摸芯片 四、代码编写 1、编写ft5426.h 2、编写ft5426.c 3、main函数 一、简介 电容屏只需要手指轻触即可,而电阻屏是需要手指给予一定的压力才…

Elasticsearch7.8.0版本进阶——动态更新索引

目录一、如何在保留不变性的前提下实现倒排索引的更新二、按段搜索执行流程三、按段搜索的文档查询四、按段搜索的文档删除五、按段搜索的文档更新一、如何在保留不变性的前提下实现倒排索引的更新 用更多的索引。通过增加新的补充索引来反映最近的修改,而不是直接…

【华为OD机试模拟题】用 C++ 实现 - 整理扑克牌(2023.Q1)

最近更新的博客 华为OD机试 - 入栈出栈(C++) | 附带编码思路 【2023】 华为OD机试 - 箱子之形摆放(C++) | 附带编码思路 【2023】 华为OD机试 - 简易内存池 2(C++) | 附带编码思路 【2023】 华为OD机试 - 第 N 个排列(C++) | 附带编码思路 【2023】 华为OD机试 - 考古…

[Flink]部署模式(看pdf上的放上面)

运行一个wordcountval dataStream: DataStream[String] environment.socketTextStream("hadoop1", 7777) //流式数据不能进行groupBy,流式数据要来一条处理一次.0表示第一个元素,1表示第二个元素 //keyBy(0)根据第一个元素进行分组 val out: DataStream[(String, In…

Spring Boot中使用Sa-Token实现轻量级登录与鉴权

1. Sa-Token 介绍 Sa-Token 是一个轻量级 Java 权限认证框架,主要解决:登录认证、权限认证、单点登录、OAuth2.0、分布式Session会话、微服务网关鉴权 等一系列权限相关问题。 功能结构图 2. 登录认证 对于一些登录之后才能访问的接口(例如&…

Graph Embedding基础 图表示学习 什么是Graph Embedding

本文包括 DeepWalk LINE SDNE Node2vec Struc2vec等几个重要的Graph Embedding 方法 先说下不同embedding的区别是什么: DeepWalk:采用随机游走,形成序列,采用skip-gram方式生成节点embedding。node2vec:不同的随机游…

[游戏开发][Unity]Assetbundle打包篇(4)开始打包

上一篇文章讲了如何收集打包资源&#xff0c;得到了一个List<AssetInfo>下面正式进入打包流程&#xff0c;调用PostAssetBuild方法即可开始正式打包流程public void PostAssetBuild() {Debug.Log("------------------------------OnPostAssetBuild-----------------…

ASE140N04-ASEMI低压MOS管ASE140N04

编辑-Z ASE140N04在TO-220F封装里的静态漏极源导通电阻&#xff08;RDS(ON)&#xff09;为4mΩ&#xff0c;是一款N沟道低压MOS管。ASE140N04的最大脉冲正向电流ISM为400A&#xff0c;零栅极电压漏极电流(IDSS)为1uA&#xff0c;其工作时耐温度范围为-55~175摄氏度。ASE140N04…

深入浅出——this的理解与使用

文章目录 this的语法理解一、this的绑定方式二、两个细节 1.严格模式引入库2.如何更改this指向总结this的语法理解 this在英文中是一个指示代词&#xff0c;表示 这&#xff1b;这个 顾名思义&#xff0c;在编程于语言里&#xff0c;this就是一个指代作用。 我在人民广场吃…

《分布式技术原理与算法解析》学习笔记Day20

CAP理论 什么是CAP理论&#xff1f; CAP理论用来指导分布式系统设计&#xff0c;以保证系统的可用性、数据一致性等。 C&#xff0c;Consistency&#xff0c;一致性&#xff0c;指所有节点在同一时刻的数据是相同的&#xff0c;即更新操作执行结束并响应用户完成后&#xff…

GO 中的 defer 有哪些注意事项?上

xdm &#xff0c; 不知道你们是否有使用过 defer &#xff0c;这种语法在是 go 特有的&#xff0c;用起来真是爽的不要不要的 很多时候&#xff0c;我们在使用一些新东西&#xff0c;出现一些莫名其妙的现象或者是结果的时候&#xff0c;我们总会认为&#xff0c;这个东西不友…

打游戏什么蓝牙耳机好用?打游戏比较好的蓝牙耳机

游戏耳机提供身临其境的细致声音&#xff0c;同时也是与朋友在线聊天的绝佳通信设备&#xff0c;尤其对于游戏玩家来说&#xff0c;聆听和被聆听的最佳方式之一就是游戏耳机&#xff0c;那2023年到底有哪些值得购买的游戏耳机呢&#xff1f;现在就让我们一起来看看吧。 第一款…

【uniapp】uniapp项目vue2/vue3引入使用vant组件库

前言 vant是一个优秀的移动端组件库&#xff0c;他支持VUE2、VUE3、微信小程序三个框架&#xff0c;这期就来尝试在uniapp中&#xff0c;vue2和vue3分别引入vant组件库 注意&#xff1a;本教程只适用H5&#xff0c;无法运行到微信小程序 Vue3引入vant 新建一个uniapp项目&am…

如何利用 Python 进行客户分群分析(附源码)

每个电子商务数据分析师必须掌握的一项数据聚类技能 如果你是一名在电子商务公司工作的数据分析师&#xff0c;从客户数据中挖掘潜在价值&#xff0c;来提高客户留存率很可能就是你的工作任务之一。 然而&#xff0c;客户数据是巨大的&#xff0c;每个客户的行为都不一样。20…

python中安装gurobi和pycharm没有语法提示问题解决

安装gurobi第一步 &#xff1a;下载gurobi ( http://www.gurobi.com ) &#xff0c;需要注册账号第二步、申请License注册如果可以通过校园网&#xff0c; 则直接生成。不能的话&#xff0c;通过网站&#xff0c;发邮件申请 http://www.gurobi.cn/NewsView1.Asp?id4第三、邮件…

【虹科】基于Lidar的体积监控实现高效的库存管理

迄今为止&#xff0c;很多物料厂家测量库存的结果数据仍然不准确&#xff0c;会存在很大的误差&#xff0c;导致供应链效率低下——这个问题可以通过Lidar技术轻松解决。近年来&#xff0c;全球供应链的脆弱性已经多次得到证明。无论是油轮被困在苏伊士运河&#xff0c;阻塞海峡…

JSP 在线学习管理系统myeclipse定制开发sqlserver数据库网页模式java编程jdbc

一、源码特点 JSP 在线学习管理系统是一套完善的web设计系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为SQLServer2008&#x…

从事Python自动化测试,30岁熬到月薪20K+,分享我的多年面试经…

年少不懂面试经&#xff0c;读懂已是测试人。 大家好&#xff0c;我是小码哥&#xff0c;一名历经沧桑&#xff0c;看透互联网行业百态的测试从业者&#xff0c;经过数年的勤学苦练&#xff0c;精钻深研究&#xff0c;终于从初出茅庐的职场新手成长为现在的测试老鸟&#xff0…