什么是数据湖?数据湖的概念及发展历程

news2024/11/25 16:33:23

随着云计算、社交媒体、物联网、短视频等新一代互联网技术的快速发展,数据的数量和复杂性不断增加。许多企业和组织已经积累了大量的各种类型的数据,对于如何存储和管理这些海量数据,以及如何高效地分析和利用这些数据,是每个组织当前面临的重要挑战。对于企业来说,有效处理和分析海量数据,对于数字化转型过程中的各种决策,具有至关重要的作用。

大数据的兴起给数据库研究带来了诸多挑战。大数据通常具有四个典型特征,包括数据的数量、多样性、产生速度和真实性。尤其是物联网、社交网络、科学研究和音视频等领域产生了大量的半结构化和非结构化数据,这些复杂且变化多端的数据集往往呈现出烟筒式的分散结构。因此,企业和组织需要采取更有效的数据架构来存储和处理这些复杂的数据,同时采用更加灵活的数据分析方法。

虽然许多企业和组织仍通过传统的数据集和数据仓库进行数据处理和分析,但在大数据时代,擅长处理结构化数据的数据仓库已经不能满足复杂数据分析的需求。传统数据存储技术面临的最大挑战在于三个方面:灵活性不足、存储成本高昂以及不擅长处理多种类型的数据。

为了实现对这些复杂数据的全面、灵活的分析,近年来出现了数据湖的概念。数据湖是以原始数据格式存储各种来源数据,简化和改进大数据存储、管理和分析的一种技术。数据湖的优点引起了大数据领域的商业和技术专家以及学术研究者的广泛关注,近年来对数据湖相关的研究得到了飞速发展。迄今为止,已经提出了多种数据湖解决方案和系统架构,然而,由于数据湖概念的发展还处于早期阶段,很多研究和方案都是针对特定应用领域的。此外,数据湖关键技术方面的研究也主要集中在架构和元数据管理等部分领域,缺乏数据处理全过程中各阶段详细技术分析和讨论。

特别是在国内,数据湖概念还相对陌生,很多组织和企业在对数据湖的概念还没有充分的认识。而国内学术领域对数据湖相关的技术研究非常有限,很多学者还没有对数据湖和大数据技术平台相关的概念进行系统的比较和解析。

数据湖的发展历程

在谷歌学术搜索引擎上以“datalake”为关键词进行搜索,得出以下的统计图。从图中可以清楚地看到,2014年之前,数据湖还处于萌芽阶段,相关的文章数量在低位徘徊。2015-2017年,数据湖概念开始被业内熟知,相关技术得到了积累,因此论文数量有了明显的增加趋势。而自2018年以来,数据湖技术得到了蓬勃发展,相关文章和论文数量迅速增加。根据以上分析数据,我们可以将数据湖的发展分为三个阶段:萌芽期、技术积累期和快速发展期。

萌芽期

在商业领域,数据湖经历了提出、炒作、批评和改进的过程。数据湖最早以大数据平台解决方案的形式出现,解决了传统数据集市的局限性。2013年,Pivot提出了业务数据湖架构,尝试以数据湖的思想解决数据集成和分析数据的即时访问问题,但没有提出完善的数据治理方案。2014年,商业领域普遍接受数据湖作为数据中心,以提高可扩展性和灵活性。很多大数据供应商开始炒作“数据湖”概念,但Gartner公司提出了对数据湖的批评和质疑,指明了今后几年数据湖技术的发展方向。普华永道将数据湖应用到企业数据集成方案,IBM公司提出了面向业务主题的大数据的分析方案,学术界也开始关注数据湖,并提出建议通过AI和众包来克服数据湖在数据集成、访问和数据质量等方面所面临的挑战。

技术积累期

2015-2017年,数据湖技术积累期,商业和学术界对数据湖的认可度提升,技术积累增多。2015年,Terrizzano等人在数据争论中描述了数据湖在实施过程中的挑战,包括数据采集、梳理、供应、保障等方面遇到的问题。该技术文档是盖特纳公司提出数据湖质疑后,首次全面阐述数据湖所面临的挑战,指明了未来需要解决的问题方向。同时,Huang发表了大数据时代的《数据湖管理》,数据湖在学术界开始受到广泛关注。在此期间,数据湖应用方面的研究也开始出现,许多IT商业巨头推出了自己的数据湖产品,如谷歌的goodssystem、微软的AzureDataLakeStore、SAP的Vora等。这期间,数据湖的研究主要集中在概念定义方面,数据湖架构研究扩展有限,主要围绕元数据管理展开。数据湖的应用研究数量有限,用途仅限于大数据存储方面,未达到更深层次应用高度。

快速增长期

2018年至今,数据湖在商业界和学术界得到了蓬勃发展。这一期间数据湖在架构、概念、应用、治理等等方面都得到了丰富的补充。首先许多IT大厂商都提出了自己的数据湖解决方案,国外有亚马逊、微软、谷歌,国内有阿里、华为、腾讯、星环等等,在数据湖的各个组成部分都可以提供成熟的方法和工具。

与此同时,学术界对数据湖的原型实现相关的研究也得到了广泛的关注,包括元数据管理、数据质量、数据来源、数据准备、数据集组织、数据集成、数据发现等。也可以看到这一时期出现了大量的数据湖应用研究,这些应用领域包括医疗、电力、智慧城市、教育、通信等各个方面,为大数据平台在各领域的深度融合起到了非常关键的作用。这个阶段国内研究者也开始关注数据湖技术,研究领域涉及到数据湖架构和安全技术。

经过近几年的快速发展,再加上数据湖在产业界和学术界不断突破,给企业和组织的数据湖落地提供更加丰富的解决方案和建议。但是,数据湖的概念目前还处于早起阶段, 其架构还没有形成行业标准,技术细节方面需要解决的难题层出不穷,解决方案过度依赖机器学习等问题需要解决。

数据湖的概念

数据湖目前的定义较为模糊,它可以是存储海量数据的方法,基于现有数据架构的发展产物,一种灵活可扩展的数据存储和管理系统。

数据湖和数据仓库

数据仓库这一概念最早由IBM公司提出,Inmon定义为一种支持管理决策、面向主题、非易失、集成且不断变化的数据集合。随着数据湖这一概念的出现,许多人将其与数据仓库相联系,甚至有人认为数据湖就是大数据时代的数据仓库。两者都集中存储不同来源的数据,为组织的数据集成提供了重要依据,同时也为组织提供了数据分析、挖掘和决策方面的数据管理和处理平台。然而,这两个概念的产生背景和时间存在巨大差异,更重要的是,两者在数据处理思想上存在巨大的不同。

两者之间的主要差异之一在于数据的获取方式。数据仓库主要获取已处理和过滤过的数据,而数据湖则主要获取原始或未处理过的数据。具体来说,数据在存入仓库之前会经过处理(例如通过ETL过程进行清洗和转化),而在数据湖中存放的数据则是未经过处理的原始数据。数据仓库中的数据是已经清理的,可以直接进行分析,也就是所谓的“写模式”。相比之下,数据湖采用了“读模式”,数据会根据需要进行有选择性地组织和分析,从而能更加灵活地处理数据。

另一个关键的区分点在于使用的主题或目标。数据仓库获取的数据通常用于特定的主题或目标,因此不会浪费不必要的存储空间,对数据分析者的专业知识要求不高。相反,数据湖的使用目标在前期并没有确定,这些数据可以用于未来的任何分析目标。这就意味着分析者需要熟悉大量未处理过的数据,并可能需要依赖具有特定技能的数据科学家的帮助。

数据存储库的可访问性或易用性是另一个区分数据仓库和数据湖的方面。由于数据仓库的结构相对固定,调整数据结构的成本可能非常高。相反,由于数据湖并没有固定的数据结构,因此具有极高的灵活性。

数据中台和数据湖

中台概念最早是阿里巴巴集团提出,是企业内部共享业务思想的产物,而中台又分为业务中台、数据中台、技术中台。其中数据中台(DataPlatform)以数据为中心,在数据集成(特别是语义集成)的基础上以服务的方式提供数据的全生命周期管理,为业务构建提供便利,实现数据对于应用业务的价值,其本质就是数据平台。

 数据中台和数据湖都是企业应对内外部大数据生态挑战的数据架构方案,两个概念的核心中都包括数据统一集成、开放数据能力以及灵活数据访问等特点。虽然两个概念都产生在大数据时代,但针对解决的问题范围不同。

数据湖强调的是应对大数据挑战的数据存储和治理方案,而数据中台是一种全局的数据解决方案。数据中台是数据湖概念的超集,数据中台除了包含数据湖概念特性之外,还需要满足更多的系统功能,包括数据资产管理、治理机制、数据安全、数据能力共享等等。

两者解决的问题背景是不同的。数据湖概念的出现带来了数据存储和探索方式转变,有效应对了大数据带来的技术挑战,而数据中台则解决了企业大数据平台实施层面的问题,关注的问题是如何更好的发掘数据价值,是属于企业信息管理的范畴。 

国内很多数据厂商和企事业单位在数字化转型方案中都引入了数据中台概念,可见数据中台概念在国内已经覆盖了数据湖的概念。数据中台概念目前更多处在商业领域,在学术领域中仍没有受到足够重视。相比之下,数据湖概念在国外的学术领域中发展的非常迅速,并已经形成了一定的学术体系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1005452.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数字IC设计笔试面试经典题(1-10)

1 基础知识 1.1 锁存器的结构 锁存器即Latch ,数电中称之为电平触发的D触发器,也是D型锁存器,有电平触发器SR触发器改进得到,其工作特点是电平是有效电平(高电平或者低电平)期间,才接受信号并…

Vue中实现全景房看图3D

示例代码 安装photo-sphere-viewer yarn add -D photo-sphere-viewer 组件引入插件 import { Viewer } from photo-sphere-viewer; import photo-sphere-viewer/dist/photo-sphere-viewer.css; // 引入样式 import MarkersPlugin from photo-sphere-viewer/dist/plugins/marker…

一文读懂LCD、OLED、LED屏的区别以及透明液晶屏原理

参考文章科普|一文读懂LCD、LED和OLED 的区别 - 知乎 参考文章透明液晶显示屏的原理? - 知乎 一、LCD LCD是英文Liquid Crystal Display 的简称,指的是液晶显示屏。 主要想介绍下LCD透明屏方案: 所谓LCD透明屏,并…

Postman接口调用api

1.选择类型,输入URL 2.选择Basic Type 3.选择格式类型 文件类型 4.Send发送请求,获得返回

澄海区图书馆《乡村振兴战略下传统村落文化旅游设计》许少辉八一新著

澄海区图书馆《乡村振兴战略下传统村落文化旅游设计》许少辉八一新著

蛤蟆先生去看心理医生笔记

自我状态 儿童自我状态:行为和感受像个孩子。由童年残留的遗迹搭建而成,包含小时候体验的所有情感(儿童的基本情感)和随后演变的行为模式。 行为和感受像个孩子。由童年残留的遗迹搭建而成,包含小时候体验的所有情感…

【SpringMVC】JSR303与拦截器的使用

文章目录 一、JSR3031.1 JSR303是什么1.2 JSR 303的好处包括1.3 常用注解1.4 实例1.4.1 导入JSR303依赖1.4.2 规则配置1.4.3 编写校验方法1.4.4 编写前端 二、拦截器2.1 拦截器是什么2.2 拦截器与过滤器的区别2.3.应用场景2.4 快速入门2.5.拦截器链2.6 登录拦截权限案例2.6.1 L…

视频监控系统/视频云存储EasyCVR接入国标GB28181设备无法播放设备录像,是什么原因?

安防视频监控平台EasyCVR支持将部署在监控现场的前端设备进行统一集中接入,可兼容多协议、多类型设备,管理员可选择任意一路或多路视频实时观看,视频画面支持单画面、多画面显示,视频窗口数量有1、4、9、16个可选,还能…

第四章 Linux网络编程

ARP 协议 ARP 协议(Address Resolution Protocol)通过 IP 地址查找对应的 MAC 地址。 当一个主机需要发送数据给另一个主机时,它首先会检查本地的 ARP 缓存表(ARP cache)中是否存在目标主机的 MAC 地址。如果存在&…

【VS插件】VS code上的Remote - SSH

【VS插件】VS code上的Remote - SSH 目录 【VS插件】VS code上的Remote - SSH获得Linux服务器或者Linux系统的IP地址下载插件远程登录注意如果Linux虚拟机系统无法连接成功可能是没有开启ssh服务优势 作者:爱写代码的刚子 时间:2023.9.12 前言&#xff1…

社群团购是简单的商业模式,把握红利,冲刺双11

其实,不管微商、社群团购、直播带货、内容电商、视频号,小红书电商……都只是卖货的渠道,新渠道 社群团购让销售变得更加专业和简单,货源方负责产品的生产、渠道方负责销售。好好卖货,卖好货! 是分工合作&a…

MATLAB | 绘图复刻(十二) | 桑基图+气泡图

hey 绘图复刻居然已经出到第十二期,破百指日可待hiahiahia,今天来复刻一下 Yu, W., Wang, Z., Yu, X. et al. Kir2.1-mediated membrane potential promotes nutrient acquisition and inflammation through regulation of nutrient transporters. Nat …

【css | loading】好看的loading特效

示例&#xff1a; https://code.juejin.cn/pen/7277764394618978365 html <div class"pl"><div class"pl__dot"></div><div class"pl__dot"></div><div class"pl__dot"></div><div c…

认识 AIGC ,浅淡 AIGC 的那些事—— AIGC:用 AI 创造万物

文章目录 &#x1f525;关于活动&#x1f4cb;前言&#x1f3af;什么是 AIGC&#x1f9e9;AIGC&#xff1a;用 AI 创造万物 &#x1f3af;AIGC 发展历程&#x1f3af;AIGC 峰会分享&#x1f3af;AIGC 与大模型&#x1f4dd;最后&#x1f4d1;参考资料 &#x1f525;关于活动 从…

数据库-基础篇-SQL-DML(数据操作语言)

目录 前言 一 . 添加数据(insert) 1.指定字段添加数据 2. 全部字段添加数据 3. 批量添加数据(指定字段) 4.批量添加数据(全部字段) 二 . 修改数据(Update) 三 . 删除数据 总结 前言 DML英文全称是Data Manipulation Language(数据操作语言)&#xff0c;用来对数据库中…

Revit SDK 内容摘要: 9.0 - 9.1

前提 不包含已单独写博客部分。 Revit SDK Samples 9.0 AllViews 创建图纸&#xff0c;并放置视图。 ViewSheet sheet ViewSheet.Create(doc, m_titleBlock.Id); double xDistance 0; double yDistance 0; CalculateDistance(sheet.Outline, views.Size, ref xDistance…

few shot目标检测survey paper笔记(整体概念)

paper: Few-Shot Object Detection: A Comprehensive Survey (CVPR2021) 深度学习提高了目标检测的精度&#xff0c;但是它需要大量的训练数据。 对于训练数据集中没有见过的目标&#xff0c;是检测不了的&#xff0c;所以就限制了在实际中的应用。 如果想让模型去识别新的目标…

【SLAM】坐标系变换与外参标定

【SLAM】坐标系变换与外参标定 突然发现学习文档有下面这句话&#xff1a; 学习这件事不在乎有没有人教你&#xff0c;最重要的是在于你自己有没有觉悟和恒心。——法布尔 task02从二维坐标系开始推导坐标系变换参数&#xff0c;进而加入平移&#xff0c;加入Z轴拓展到三维坐…

论文笔记:Deep Representation Learning for Trajectory Similarity Computation

ICDE 2018 1 intro 1.1 背景 用于计算轨迹相似性的成对点匹配方法&#xff08;DTW&#xff0c;LCSS&#xff0c;EDR&#xff0c;ERP&#xff09;的问题&#xff1a; 轨迹的采样率不均匀 如果两个轨迹表示相同的基本路径&#xff0c;但是以不同的采样率生成&#xff0c;那么这…

uni-app 之 下拉刷新,上拉加载,获取网络列表数据

uni-app 之 下拉刷新&#xff0c;上拉加载&#xff0c;获取网络列表数据 image.png <template><view><!-- 车源模块 -->--- uni.request 网络请求API接口 ---<view v-for"(item) in newsArr" :key"item.id" style"display: fle…