数字新基建之数据云

news2025/1/13 2:31:33

自2021年“新基建”概念火爆以来,相关的政策和技术都不断跟进和发展,由于“新基建”本质上是基础设施向数字化、智能化、网络化方向发展,因此更多的科技领域从业者和投资者都将其称为“数字新基建”。而数据库、数据仓库、大数据平台和数据云等基础软件,构成了企业和政府部门数字化转型的重要基础设施,即“数据基础设施”。

但是,迄今为止的数据基础设施发展,仍然难以彻底解决以大型企业政府部门为代表的业数字化转型的痛点。比如,金融机构普遍采用夜间“跑批”的方式对当日交易数据进行ETL处理,从而将数据汇总到数据仓库、数据集市中,供用户进行报表分析与即席查询,但数据基础设施底层的复杂查询性能,成为“跑批”结果时效性的主要瓶颈,影响了用户进行决策的频次和时效性。

再如电力、电信等关乎国计民生、用户数量巨大、IT基础设施复杂的行业,普遍面临的挑战是数据规模及其庞大,数字化应用的计算与存储需求也极其巨大。为了提升工作负载能力,多集群的数据基础设施已经成为行业普遍现状。由此,在数据基础设施内部因为多集群间的数据共享难题,产生了新的“数据孤岛”。

由此可见,数据基础设施的技术架构、功能与性能特点的不断演进和发展,仍具备巨大的提升空间和想象空间。

数据基础设施是一套建立在过往的交易数据基础之上,并结合一定的技术手段与业务流程,为业务场景提供数据服务,实现数据价值变现的生态体系。一般来讲,数据基础设施包括数据体系、技术体系、运营体系、服务体系等四个部分。

数据体系:包含了企业内可利用数据的组织方式,包括源系统的交易数据,各类非结构化、半结构化、二进制数据,以及结构化数据的数据分层关系、数据模型、数据表结构、视图关系、字段名称、数据容量、数据权限分配等。

技术体系:包含了一系列数据相关的技术产品,如交易型数据库、数据接入工具(数据同步/消息中间件)、分析型数据库、NoSQL数据库、大数据开发工具(流处理/批处理)、AI算法开发工具等,以及不同产品之间的协同关系与业务流程。

运营体系:通过数据标准、数据质量、数据资产目录、数据服务培训与推广、平台操作流程与规范等,搭建数据的资产化管理与运营体系,从而为服务体系提供稳定的运营支撑,并保证数据基础设施与组织架构之间的协同效率。

服务体系:是数据与业务结合的关键环节,主要以可视化大屏、固定报表、自助式报表、数据API服务、数据应用等数据服务形态,以便捷的方式为业务部门提供数据服务,实现数据变现。

数据基础设施的演进历程,已经经历了数据库、数据仓库、大数据平台三个完整阶段。目前,数据基础设施正在迈向前三个阶段之后的第四个阶段,即“数据云”阶段。

数据库是数据基础设施的萌芽阶段,而最早的商用数据库产品,如Oracle、DB2,均诞生于1970年代末到1980年代初。早期的数据库应用于以OLTP(联机事务处理)场景为主,即直接承载来自业务系统、交易系统的数据存储与计算,因此这类数据库又被称之为“事务型数据库”或“交易型数据库”。在许多情况下,人们也将它等同于狭义的数据库。

1990年代后,尤其是随着E.F.Codd于1993年正式提出联机分析处理(OLAP)的概念,数据基础设施开始进入“数据仓库”时代。

2005年后,由于互联网、移动互联网的逐步普及,业务系统的终端用户量的爆发式增长,企业内沉淀的数据量同样呈现爆发式增长,数据基础设施开始进入“大数据平台”阶段。

2015年后,企业上云已经成为普遍共识,同时企业各业务部门对大数据分析的需求更加普遍化、敏捷化、个性化、场景化,数据的业务价值也由辅助决策转变为推动创新。在这一背景下,数据基础设施开始进入“数据云”阶段。

尽管数据基础设施经历了漫长的演进历程,但从数据库、数据仓库到大数据平台阶段,数据基础设施在扩展能力、弹性能力、查询性能、易迁移性等方面,始终受到MPP、SQL-on-Hadoop等上一代数据仓库技术的制约。

而时下受到热捧的“数据中台”解决方案,本质上只是在大数据平台的基础上,融合了数据资产化与数据服务化的管理能力,并没有对大数据平台的原有技术路线进行革命性升级。

因此,数据基础设施需要对技术进行彻底变革,变得更加统一与强大,而新一代数据基础设施——“数据云”的出现,则预示着数据基础设施的未来变革方向。

随着企业上云从互联网逐步渗透到传统企业,创新业务、边缘业务逐步渗透到传统业务、核心业务。同时,全球范围内的数据的产生与存储过程,越来越多地从传统数据中心转移到公共云环境中。根据IDC报告显示,到2025年,公共云中的数据百分比将接近50%。

        

但是,数据基础设施在进行云化改造时面临的两大挑战。

首先,共享存储、MPP无共享、SQL-on-Hadoop等技术架构对云环境的特性(如弹性能力)、组件(如云存储)适应性不足,存在弹性性能瓶颈,难以充分发挥云的弹性优势。

其次,共享存储、MPP无共享等技术架构的计算、存储节点深度耦合,无法实现计算、存储性能的非等量扩容,对IT资源的高效利用带来障碍。

因此,“数据云”应利用云服务器、分布式存储等云原生技术,对数据基础设施的扩展性能进行深度优化,充分适应云上数字化应用对高度弹性、无限扩容能力的要求;同时采取计算、存储分离的技术架构,充分适应数字化应用对计算、存储分别独立扩展的要求,增强弹性扩展的灵活性。

近年来,随着数据技术的不断创新,国内外分别崛起了一系列典型的“数据云”提供商。譬如Snowflake在纽交所上市,一时搅动了整个资本市场,这样的故事也正在打开中国投资者、开发者和用户的想象空间。

去年刚刚完成了B+轮融资的偶数科技,正是在数据基础设施赛道极具特色的一家数据云提供商。能够收到顶级资本的青睐,仅靠追逐热点是难以达成的,更多的是要有核心研发团队对于底层技术的长期专注和坚持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/156547.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言:整数的存储方式

整数的存储方式 char类型在存储时是按照ASCII码值进行存储,存储方式与整型一致 有符号数与无符号数 char一个字节signed charunsigned char int四个字节signed intunsigned int 各种类型数据均分为有符号和无符号类型,当定义一个int类型或char类型的数…

备库为什么会延迟好几个小时?

在上一篇文章中,我和你介绍了几种可能导致备库延迟的原因。你会发现,这些场景里,不论是偶发性的查询压力,还是备份,对备库延迟的影响一般是分钟级的,而且在备库恢复正常以后都能够追上来。 但是,如果备库执行日志的速度持续低于主库生成日志的速度,那这个延迟就有可能…

百度搜索留痕推广资源整理如何收录排名的?

每日分享:百度对图文类内容的优质标准 (1)文字的字体、字号与间距需要适配网页,文档分段合理,结构有序,阅读体验舒适。 (2)在文章中使用小标题准确概括段意,通过加粗、…

vue3 setup语法糖父子组件传值,让女友看得明明白白

前言 最近在想做个cloud项目,gitee上找了个模板项目,前端使用到vue3 typeScript,最近使用到vue3 的父子组件之间的传值,顺便学习一下,在此总结一下,若有不足之处,望大佬们可以指出。 vue3官网&#xff1a…

栈--专题讲解

文章目录基本概念模拟栈数据结构-栈:stack头文件定义基本操作实例:火车进栈题目大意解题思路AC代码基本概念 栈的定义 栈(stack)是限定仅在表尾进行插入或者删除的线性表。对于栈来说,表尾端称为栈顶(top)&#xff0c…

web服务器----基于http协议搭建的静态网站详解

一,WWW的简介 1、什么是 www www 是 world wide web 的缩写,也就是全球信息广播的意思。通常说的上网就是使用 www 来查询用户所需要的信息。www 可以结合文字、图形、影像以及声音等多媒体,并通过可以让鼠标单击超链接的方式将信息以 Inter…

Docker容器搭建及基本使用

一、安装环境 操作系统:CentOS 7(建议用7或以上,因为6版本有部分功能不兼容) 二、Docker安装 1、卸载旧版本 yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrota…

linux修改密码报错‘Authentication token manipulation error‘

本次事故使用操作系统为centos7 1、报错起因: 利用chage设置root用户密码定期更换后,到期之后登录系统,输入密码之后,提示要改密码,输入新密码之后,报错 ‘Authentication token manipulation error’ &a…

【k8s系列】gvisor安装与containerd集成

文章目录安装与containerd集成下发runtimeclass资源修改containerd配置文件准备pod的yaml文件参考资料author: ningan123date: ‘2023-01-11 21:23’updated: ‘2023-01-11 21:31’安装 安装地址:Installation - gVisor ARCH$(uname -m)URLhttps://storage.googlea…

Gotify <2.2.3 存在反射型 XSS 漏洞(MPS-2023-0815)

漏洞描述 Gotify 是 Go 语言开发的开源组件,用作于发送和接收消息的服务器。 由于 2.2.3 之前版本的 Gotify 使用具有反射型 XSS 漏洞版本的 swagger-ui 生成文档,当用户访问 Gotify /docs 页面时存在反射型 XSS 漏洞。 攻击者可诱导 Gotify 用户点击…

【学习笔记】【Pytorch】四、torchvision中的数据集使用

【学习笔记】【Pytorch】四、torchvision中的数据集使用学习地址主要内容一、datasets模块介绍二、datasets.CIFAR10类的使用1.使用说明2.代码实现学习地址 PyTorch深度学习快速入门教程【小土堆】. 主要内容 一、datasets模块介绍 介绍:一些加载数据的函数及常用…

P6:DataLoader的使用

1、准备数据集(测试集) import torchvisiontest_data torchvision.datasets.CIFAR10(./dataset, trainFalse, transformtorchvision.transforms.ToTensor()) 注意数据集中的图片是PIL的格式,需要格式转换。 2、使用DataLoader from torch…

HBase数据库总结(一)

1、 HBase的特点是什么?HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。1)大:一个表可以有数十亿行,上百万列2&…

测试开发基础|一文搞定计算机网络(一)

计算机网络知识对测试人员来说是非常重要的基础技能。无论是在平时测试工作中(比如接口测试),还是测试技术面试时,都会经常涉猎。很多基础薄弱的同学靠临时抱佛脚突击搜索学习,对系统知识和重点难点的理解总是不够透彻…

认证授权-SpringSecurity

认证授权-SpringSecurity 1. 认证授权概述 1.1 认证授权概念 1.1.1 认证 在互联网中,我们每天都会使用到各种各样的 APP 和网站,在使用过程中通常还会遇到需要注册登录的情况,输入你的用户名和密码才能正常使用,也就是说成为这…

uniapp引入vantweapp踩坑笔记

vue-cli创建uniapp项目引入vantweapp踩坑笔记 uni-app中引入vantweappvue-cli创建uniapp项目引入vantweapp踩坑笔记一、环境准备二、项目搭建三、引入vant第一种方式第二种方式一、环境准备 我用的环境分别是 软件名称版本号下载命令\链接检查是否成功卸载命令Vue-clivue/cli…

JavaScript中的重要概念

JavaScript中的重要概念 1、标识符 标识符(Identifier)就是名字。JavaScript 中的标识符包括变量名、函数名、参数名、属性名、类名等。 合法的标识符应该注意以下强制规则: 第一个字符必须是字母、下划线(_)或美元…

发表计算机SCI论文,需要经历哪些阶段? - 易智编译EaseEditing

想在SCI期刊上发表一篇属于自己的论文一定是要经历四个阶段:论文选题、论文写作、期刊投稿和修稿反馈。 1.论文选题:前面已经说过在SCI期刊上发表论文是比较有难度的,是因为SCI期刊通常要求所接收稿件的选题具有较高的创新性和新颖性。 所以…

马蹄集 单位矩阵

单位矩阵 难度&#xff1a;白银 0时间限制&#xff1a;1秒 巴占用内存&#xff1a;64M 输入3X3的整型矩阵A,判断是否为单位矩阵&#xff0c;输出YES或者NO。 格式 输入格式&#xff1a;输入矩阵&#xff0c;空格分隔 输出格式&#xff1a;输出YES或者NO #include<bits/stdc.…

第09讲:Docker镜像制作

我们可以在容器去部署应用&#xff0c;然后把容器转为镜像给测试人员用&#xff0c;由于镜像是不能直接传输的&#xff0c;所以我们将新的镜像转成压缩文件&#xff0c;给测试人员。测试人员把我们的压缩文件还原成一个新的镜像。 一、Linux文件系统组成 Linux文件系统组成由…