谁懂?这23个关于大数据的灵魂拷问!

news2025/1/12 1:57:55

在企业内训行业也深耕蛮多年了,每次做大数据培训,都会遇到一些发人深省的灵魂拷问。

在这些拷问的人群中,有一些是没有接触过大数据平台,有一些甚至已经是大数据老兵。

那趁着这次机会,让我们索性一次把这些问题言简意赅的聊清楚。

1、究竟什么是大数据?这么受企业追捧,是智商税不?

大数据是海量数据模式下,对数据进行存储以及计算的一种架构,或者说生态。数据量达到这个级别,单机数据库、MPP架构都无法支撑的时候,只能寻求大数据架构去做解决。

大数据采用天然分布式架构,没有单机、MPP架构的包袱,单纯为海量数据而生的技术。它一定是将来的一个趋势。

2、那为什么有些企业上大数据架构后,效率反而降低?

因为数据没有达到一定规模,大数据在进行数据存储与计算时,调度周期会比较长。因为要考虑到海量数据规模后,大文件存储时要进行拆分,然后存储后进行备份。计算时避免移动数据,要调度计算任务紧贴数据节点运算。整个调度周期会很长。

对于小数据量来说,调度周期已经超过了最终计算所需的时长,效率当然会下降。就好比原来一个人可以解决的问题,交给大数据架构后,变成了10个人、100个人来处理,光分配任务就占用了很久时间。

3、数据仓库由原来的Oracle换到大数据平台Hive或Spark SQL后,查询起来变慢这么多?

大数据数据仓库,比如Hive、Spark SQL,它们的场景主要是集中在跑批分析。也就是DWD、DWS、DIM、ADS层构建,这些任务在运行时,一般使用的是全量数据,或者当天的增量数据,使用Hive、Spark SQL一次性将它们计算完成。这是它们的适用场景。这些任务可能要跑几个小时。

至于Oracle支持的快速的OLTP增删改查,以及快速OLAP分析,Hive、Spark SQL效率是比较低的,这不是它们擅长的场景,并且底层是海量的数据,以及复杂的调度。

4、那原来架构中的OLAP任务,应该怎么处理?

可以使用MPP架构的数据库,如Clickhouse、Droid、GreenPlum等产品。或者使用MOLAP工具,进行预计算处理。

5、既然能够使用MPP架构的数据库处理,为什么还要使用大数据产品?

MPP架构有扩展性问题,以及热点问题。在一定数据规模下,问题不明显,一旦数据量达到海量,问题就会非常严重。所以中大型规模数据,可以使用MPP架构,超大规模数据的处理必须走大数据。

MPP架构目前会和大数据架构并存,主要解决中等规模数据的OLAP分析。

6、Oracle到大数据数据仓库,迁移成本为什么这么高?

首先是语法兼容问题,其次是底层调度架构不同。即使SQL完全兼容,在大数据平台这里的运行效率也会下降,所以就涉及到调优的问题。当然,在生产中任何迁移都很麻烦。

就以全局排序为例,Hive中要拆分为局部排序来减少最终的数据量,否则计算效率会很差。

7、大数据架构中为什么会使用如此多的产品?

主要是构建分布式存储、资源管理、通用计算,这里在软件层面在单机操作系统上,构建了一个分布式的操作系统。比如最常见的选型:HDFS、YARN、MR。

其次,大数据场景中,数据格式比较多,有结构化、非结构化、半结构化。分别需要专门的产品去进行存储与处理。再加上图计算、数据分析、实时场景、搜索检索场景,场景复杂了,需要的产品就多了。

8、不同产品中存储不同的数据,是否会导致数据孤岛?数据孤岛应该怎么解决?

会的,数据孤岛一般的解决方案是建立数据湖。数据在进入不同的存储系统之前,先扔到数据湖中进行存储,它是用来存储原始数据的,这样就打破了数据孤岛的问题。

然后数据湖中的一些数据,如果要进行后续的处理,再从湖中流入其它产品进行运算即可。

9、数据湖目前的实现思路有?

一般有两种思路,目前像Hudi、Iceberg这些产品主要在不同计算引擎层面,如Hive、Spark、Flink,添加hudi、iceberg的依赖,这样不同计算引擎就可以在存储系统中创建一个统一类型的Hudi表、Iceberg表。这样就可以实现统一处理与调用,以达到数据共享的效果。

另外一种数据湖的思路,就是在一个产品中,与其它产品进行互通。比如Hive存储结构化数据,但它可以配置与HBase互通,这样在Hive中就可以直接查询HBase中存储的NoSQL数据;同理,也可以和ES打通,直接查询与操作ES中的文本数据进行检索任务。这种方式其实对于企业使用来说,更接近湖的概念。

10、什么是中台?为什么中台的概念这么火?

中台的目的是为了复用企业的资产,比如多个产品都有登录注册,那就可以直接把登录注册功能作为业务中台的一个服务,让其它所有产品都接入。这样首先是数据互通,其次开发新产品时可以使用中台的共有功能,而减少建设成本。使得开发更加敏捷,能够快速响应客户的需求。

这样的建设蓝图,对各大企业来说,都是很有吸引力的。节省了成本,换来更大的效益。

11、什么样的企业适合建设中台?

资产足够的企业,比如业务线、产品丰富,能够复用的功能足够多。其次中台建设目标要明确,后续中台会换来哪些效益,为哪些新业务赋能,解决旧业务的哪些痛点,这部分要提前进行衡量。

12、什么是数据中台?

数据中台更像是围绕着数据仓库、数据湖的一种上层服务建设,使得数据更好的在企业中被使用。例如数据中台中有数据商城对数据进行流通,数据资产目录对数据进行分类组织,数据脱敏解决数据安全问题,数据质量管理提升数据质量等。

达成的目的就是数据可以在一个界面里直观的进行组织、查找、流通,以便快速挖掘出其更多的价值。

13、为什么很多企业的数据中台建设不起来

首先数据中台建设的目的不明确,可能后期领导都没什么信心。其次中台部门的考核指标要明确,为公司提升了哪些效率,节约了哪些成本。最后中台部门需要有足够的权限,其余部门才会配合。

14、大数据的流处理场景建设起来为什么很麻烦?

数据是实时接入,所以要考虑数据在网络中传输、处理过程中的数据丢失问题,数据重复问题(重复发送、重复采集),数据乱序问题。这些问题被解决后,才会进行数据处理。

而且流处理中的实时数据,计算后就会被清空,那么上述问题就变得更加复杂。当然还有流任务计算错误,应该如何处理?重放?应该怎么设计?

15、在流处理场景中为什么要使用Lambda架构,或者Kappa架构?

因为流处理得到的计算结果,一般不认为准确;或者要达到准确的程度,付出的代价会比较高。此时,会同时采用批处理架构,定期进行跑批,比如10分钟一次,来研判流处理任务结果是否准确。

当然这种架构下,可以将每10分钟节点的批处理结果作为精确结果,其余时间的流处理结果作为实时参考。

16、流处理场景中要与数据仓库中的数据进行关联,该如何操作?

添加索引,且使用查询效率较高的产品,比如HBase。

17、在大数据产品中,是否可以尽量建立较多的索引来提升查询效率

当然可以,但索引越多,意味着写性能越差。因为写入数据时,要维护的索引表会越多,这和传统架构是一样的。

18、大数据的流处理计算中,为什么要使用Kafka?不使用行不行?

Kafka的目的主要是为了抗压,避免数据源实时产生的数据有不可预测的并发,导致大数据平台挂掉。当然也有组织数据的目的,数据源较多的情况下,可以由Kafka作为中间件来对数据进行管理。

如果生产中没有这两部分的需求,那就可以不使用Kafka,比如就一条数据链路,且数据量也不大的情况下。

19、在大数据数据仓库建设过程中,为什么有的企业会使用多个数据库产品来分层?

因为不同的层,功能要求不同。

比如ODS贴源层,存储业务数据库中的历史数据,但它还要为应用系统开发操作接口,以免数据在业务数据库删除后,业务系统无法进行操作。那么ODS就需要一定的事务特性。

DWD、DWS、DIM层主要用于跑批计算,跑批性能是它们更加关注的。

ADS层存储运算结果,面向应用,此时它们关注的功能点,要看业务端需求,比如查询效率、复杂检索,或者OLAP分析。

那么这时候,单个产品无法满足的情况下,就会用到多个数据库产品。

20、大数据场景中保证数据可靠性的因素是?

副本,必须是多副本备份。但会带来存储成本。

21、MapReduce性能比较低,是不是已经被淘汰了?

从官网来看,目前MR性能也不低。其次技术没有优劣,它们都有适合自己的场景。

Spark性能虽然比较高,但大量使用内存,在资源不够且数据量大的情况下,会出现OOM的情况,导致任务失败。MR虽然慢一些,但任务总会执行完成,所以目前有的企业依然在使用MR。

22、大数据场景中的小文件问题为何如此突出?

在大数据场景下数据分散在各个节点存储,那势必要有一个管理节点保存数据的位置信息。这些位置信息都记录在内存中,小文件数量越多,占用的内存空间就越大。

其次,大数据计算方式为移动计算而非移动数据,小文件越多,要分发的计算任务就越多,计算效率就越低(主要耗时在调度上)。

23、大数据场景会带来各种问题,企业能否放弃使用大数据架构?

大数据场景带来的问题,或者说海量数据带来的问题,这是不可避免的,每个企业在数据达到一定规模后都会遇到。

目前大数据技术依然在继续发展,只能期待后续的技术更新能够逐步解决这部分问题。当然可以肯定的是,旧的问题被解决,新的问题也一定会到来。

OK,这次和大家聊了这么多,希望都能有所收获。如果你喜欢这种形式,请帮忙点赞分享,这是对我最大的鼓励!这里是数舟,我们下期再会!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1105347.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

maven依赖冲突以及解决方法

什么是依赖冲突 依赖冲突是指项目依赖的某一个jar包,有多个不同的版本,因而造成类包版本冲突 依赖冲突的原因 依赖冲突很经常是类包之间的间接依赖引起的。每个显式声明的类包都会依赖于一些其它的隐式类包,这些隐式的类包会被maven间接引…

竞赛 深度学习YOLO抽烟行为检测 - python opencv

文章目录 1 前言1 课题背景2 实现效果3 Yolov5算法3.1 简介3.2 相关技术 4 数据集处理及实验5 部分核心代码6 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 基于深度学习YOLO抽烟行为检测 该项目较为新颖,适合作为竞赛课…

Yaml语法学习

SpringBoot使用一个全局的配置文件 , 配置文件名称是固定的 application.properties(官方不推荐) 语法结构 : keyvalue application.yml 语法结构 :key:空格 value server:port: 8081 配置文件的作用 &…

jvm 各个版本支持的参数

知道一些 jvm 调优参数,但是没有找到官网对应的文档,在网上的一些文章偶然发现,记录一下。 https://docs.oracle.com/en/java/javase/ 包含各个版本 jdk 8 分为 windows 和 unix 系统 https://docs.oracle.com/javase/8/docs/technotes/too…

关于CW32单片机pack包安装 KEIL IAR

CW32 系列微控制器软件开发工具入门 芯片包 1. 下载芯片包 官方下载链接:武汉鑫源半导体 2. 安装芯片包 双击芯片包.pack文件 支持 CW32F 系列的 IDE 支持 CW32F 系列的工具链: • • EWARM v7.70 或更高版本 MDK-ARM v5.17 或更高版本 2.1 EW…

重生奇迹mu宠物带来不一样的体验

重生奇迹mu宠物有什么作用? 全新版本中更是推出了各种宠物,在玩游戏时还可以带着宠物,一起疯狂的刷怪等等,可以为玩家带来非常不错的游戏体验,那么下面就来给大家说说各种宠物适合做什么事情。 1、强化恶魔适合刷怪 …

电脑无法安装软件怎么办?

无论是个人电脑还是办公电脑,无一例外的都会安装一些软件来帮助我们使用。我们经常在电脑上下载软件,而且会设置下载安装到空余空间大的盘里,但是有时候我们的盘里显示还有很多的空闲空间,但我们安装软件的时候就是无法安装&#…

共享盘文件如何防止别人恶意删除

在如今数字化信息交流的社会中,共享文件已经成为很常见的设置了。然而,对于共享盘文件而言,恶意删除是一种常见的安全威胁,因此用户需要掌握一些方法来保护自己的文件安全。本文将介绍防止别人恶意删除共享盘文件的方法&#xff0…

零基础快速上手HarmonyOS ArkTS开发1---运行Hello World、ArkTS开发语言介绍

概述: 在华为开发者大会2023年8月4日(HDC.Together)大会上,HarmonyOS 4正式发布,其实在2021年那会学习了一点鸿蒙的开发: 不过因为现在的鸿蒙手机完全兼容Android应用,所以学习动力也不是很足,一直就搁置了&#xff0…

搭建GPFS双机集群

1.环境说明: 系统主机名IP地址内存添加共享磁盘大小Centos7.9gpfs1192.168.10.1012G20GCentos7.9gpfs2192.168.10.1022G20G 2.环境配置: 配置网路IP地址: 修改网卡会话: nmcli connection modify ipv4.method manual ipv4.addre…

Web自动化测试中会遇到的特殊场景

前言 做Web自动化测试会遇到一些特殊的场景,在编写自动化脚本时,需要根据具体情况进行处理。 同时,我也准备了一份软件测试视频教程(含接口、自动化、性能等),需要的可以直接在下方观看,或者直…

Apache Shiro 组件反序列化漏洞分析

概述 Apache Shiro是一个强大且易用的Java安全框架,执行身份验证、授权、密码和会话管理。使用Shiro的易于理解的API,您可以快速、轻松地获得任何应用程序,从最小的移动应用程序到最大的网络和企业应用程序。 它的原理比较简单:为了让浏览器或服务器重启后用户不丢失…

『C语言进阶』const详解

🔥博客主页: 小羊失眠啦 🔖系列专栏: C语言、Linux 🌥️每日语录:生活便是寻求新的知识。 ❤️感谢大家点赞👍收藏⭐评论✍️ 一、什么是const 常类型,使用类型修饰符const说明的类…

ZY Player:影视爱好者的万能播放器

如果你是一位影视爱好者,一定有过为寻找一款支持各种影视资源、能解析VIP权限的播放器而头疼的经历。今天,我要为大家介绍一款被称为万能影视资源播放器的ZY Player,它由网友Hiram-Wong二次开发,并且是开源免费的 导航 强大的影视…

马来西亚考虑对TikTok电商实施禁令:定价和数据隐私问题浮出水面

近日,马来西亚政府考虑跟进印尼的政策,对社交媒体平台TikTok的电商交易采取一系列限制措施。这一决定产生的影响不容忽视,不仅对TikTok自身,也对整个电商行业和数字经济领域产生了重大影响。 背景 这一决策的背后,是马…

【yolov5目标检测】使用yolov5训练自己的训练集

数据集准备 首先得准备好数据集,你的数据集至少包含images和labels,严格来说你的images应该包含训练集train、验证集val和测试集test,不过为了简单说明使用步骤,其中test可以不要,val和train可以用同一个,…

服务器数据恢复-RAID信息破坏导致服务器操作系统无法启动的数据恢复案例

服务器数据恢复环境: 一台服务器,8块硬盘组建了一组raid5磁盘阵列,服务器安装的是windows server操作系统,上层部署ORACLE数据库。 服务器故障: 在服务器运行过程中,2块硬盘报警,服务器操作系统…

外汇天眼:这才是外汇维权的正确打开方式,还不get?

经常有咨询外汇天眼维权服务的投资者问天眼君,外汇天眼是如何帮助遭遇外汇问题的受害者们维权的,其实这依靠的就是外汇天眼作为第三方媒体多年来在汇圈的威望,以及相关的大型外汇交易商提供的专属维权客服助力解决平台用户遭遇的问题。 这是什…

【OpenVINO】行人摔倒检测 — 基于 OpenVINO C# API 部署PP-Human-上篇

行人摔倒检测 — 基于 OpenVINO C# API 部署PP-Human 1. 英特尔开发套件1.1 OpenVINO1.2 AIxBoard 介绍产品定位产品参数AI推理单元 2. PaddleDetection实时行人分析工具PP-Human3. 预测模型获取与转换3.1 PP-YOLOE行人跟踪模型介绍模型下载与转换(1)Pad…

港科夜闻|凯洛格-香港科大行政人员工商管理硕士课程在英国《金融时报》EMBA课程百强榜蝉联全球第一,十二度获此顶级课程殊荣...

关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 1、凯洛格-香港科大行政人员工商管理硕士课程在英国《金融时报》EMBA课程百强榜蝉联全球第一,十二度获此顶级课程殊荣。该EMBA排名自推出以来,从未有其他课程能达到或接近这样创记录的佳绩。排名榜的…