谈一谈数据虚拟化的技术核心和应用架构

news2024/12/23 18:50:23

数据虚拟化(Data Virtualization)是对数据资源的抽象,通过屏蔽数据资源的存储位置和访问方式,能够将不同数据源、不同格式的数据资源,进行逻辑上的整合集成。这一技术方案与过去面对传统数仓的弊端,业界过去经常采取的方式 Presto 方案有一定相似,但存在明显差别。

Presto 的架构本质上是一个 MPP 的引擎,其架构导致绝大部分使用 Presto 的场景都是在 ETL 最末端的消费层 ,本身面向的是 OLAP 查询。但是 Presto 可以支持跨源查询,如果想延伸到数据仓库,就意味着需要获取支持大规模数据构建的能力,而 Presto 的架构便无法再支持。

所以,数据虚拟化不等于 Presto,Presto 可以解决一部分类似于虚拟化的问题,但无法支持大规模数据构建,限制了其在数据仓库领域的应用。

其实,早期的虚拟化技术也能解决部分数据采集、数据转换的问题,而 Aloudata 的数据虚拟化技术却能做到面向全场景的能力,其核心最关键的就在于 RP 技术的突破

RP(Relational Projection)的全称是关系投影,可以理解为是一个简化传统物理作业的过程。以前 ETL 工程师需要编写 SQL,并要将数据插入到物理表中,而现在,只需编写生成数据的逻辑,再也不必关心数据是否插入了物理表。

RP 跟传统的 OLAP 引擎里面的物化视图有明显不同。传统的物化视图更多面向一些大的 SQL 的性能加速,更多的是一种加速或缓存,这种特征代表了其丢失后不会产生影响。RP 实际对标着 ETL 同学研发的作业,以前在数仓中,如果 ETL 研发作业、作业数据出现问题,查询失误则不可避免。因此物化视图与RP 的定位是不同的,在技术设计方案上也有着极大差别,包括:

一、多层 RP 构建与调度:这些真实物理作业生成的 RP 与 ETL 作业并无差别,也会有强弱依赖、分区对齐、跨周期依赖等,但其是自动生成的,而非人工配置。此外,RP 支持大规模的数据构建,支持自动推导判断全量构建、增量构建或分区构建;

二、数据的多版本能力 :RP 的数据有多个版本,而物化视图则是缓存逻辑,数据一旦构建出错,其物化视图就失效了;RP和数据通过版本切换及数据缝合技术实现新老数据的切换和组合。

三、PRP(Predictive Relational Projection)技术:这是我们在技术上取得的一个较大的突破,可以通过根据的用户的查询历史,以及定义资产的关系来实现自适应的智能加速方案;

四、RP 的自动回收:从数据仓库或 ETL 同学的视角来看,很多数仓作业在上线之后便无人关心其使用情况和生命周期的问题,造成只上不下的局面。因此,数仓数据越堆越多,必然需要通过治理来降低其计算存储成本。在拥有虚拟化之后,此过程凭借自动回收能力,取消人工操作步骤。

说完了数据虚拟化的技术原理,我们再来看一下数据虚拟化的应用架构,它主要包括两种典型的架构,不同的应用架构对应的应用场景也不相同

单层的虚拟化架构:通过一个虚拟化层把公司所有元数据连接在一起,随时可用;

多层的虚拟化架构:更多的是用于集团性公司或分地域的、多层级的公司。由于组织架构的复杂性,对数据使用有着严格的隔离和权限要求,很多情况下不具备将数据进行物理集中的条件,但又希望能够实现全域数据要素的流通和价值挖掘。

值得一提的是,作为 Data Fabric 架构理念的实践者与引领者,依托于自研的数据虚拟化技术,Aloudata 打造了国内首个逻辑数据平台——Aloudata AIR,能够帮助用户轻松实现全域数据的逻辑连接、快速访问和查询,并能够根据业务分析需求,进行跨数据源的数据整合,以及灵活开展数据分析和应用工作。

同时,Aloudata AIR 支持全局数据资产目录和统一数据服务,为下游用户与应用提供了统一的数据发现和访问入口,解决了“数据孤岛”造成的全域数据查找难、跨源查询难和集中安全治理等问题;支持人工指定物化加速和 AI 增强的自适应物化加速,基于用户查询行为,实现自动化物化链路编排和智能查询下推,让用户无需担心虚拟化带来的大数据量查询性能问题,实现全域数据更低成本、更实时地流通和消费。

 

目前,Aloudata AIR 逻辑数据平台已帮助招商银行构建了统一的敏捷数据使用平台,使业务团队在一个地方即可统一查找和理解数据,并通过逻辑视图定义和自动化编排,轻松处理和准备数据,每月由业务团队自助生成的数据已占总数据的 70% 以上。同时,动态集成和自动化编排减少了不必要的数据复制、计算和存储,至少节约了 50% 以上的存算成本。访问Aloudata 官网,即刻了解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2044685.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么说凤凰雪球期权是震荡市场中的稳健选择?

在当前股市波动的背景下,投资者会发现传统的投资策略难以适应市场的快速变化。在这样的环境下,一些创新的金融产品,如凤凰雪球,因其相对较高的安全性和潜在的收益性,逐渐受到市场的关注。 近期,股市呈现出…

大语言模型的简易可扩展增量预训练策略

前言 原论文:Simple and Scalable Strategies to Continually Pre-train Large Language Models翻译文件已整理至Github项目Some-Paper-CN,欢迎大家Star! 摘要 大语言模型(LLMs)通常需要在数十亿个tokens上进行预训…

存储实验:华为异构存储在线接管与在线数据迁移(Smart Virtualization Smart Migration 特性)

目录 目的实验环境实验步骤参考文档1. 主机安装存储多路径2. v2存储创建Lun,映射给主机;主机分区格式化,写数据3. 将v2存储映射该成映射到v3存储上(v3存储和v2之间链路搭建,测通,远端设备)(Smar…

【深度学习】DDPM公式详解(第一期)

原论文:Denoising Diffusion Probabilistic Models (1)-1 p θ ( x 0 : T ) : p ( x T ) ∏ t 1 T p θ ( x t − 1 ∣ x t ) p_{\theta}(x_0:T) : p(x_T) \prod_{t1}^{T} p_{\theta}(x_{t-1} \mid x_t) pθ​(x0​:T):p(xT​)t1∏T​pθ​(xt−1​∣xt​) 这个…

AI预测福彩3D采取888=3策略+和值012路或胆码测试8月16日新模型预测第58弹

经过近60期的测试,当然有很多彩友也一直在观察我每天发的预测结果,得到了一个非常有价值的信息,那就是9码定位的命中率非常高,57期一共只错了5次,这给喜欢打私房菜的朋友提供了极高价值的预测结果~当然了,大…

IoTSharp:基于 .NET 6.0 的开源物联网平台

目录 前言 项目介绍 为什么会有 IoTSharp? IoTSharp 能做什么? IoTSharp 的亮点 项目技术 1、编程语言 2、系统框架 3、数据库支持 4、消息队列与 EventBus 5、EventBus 存储 项目使用 1、下载 2、启动 3、注册服务 4、初始化influxdb 5…

实现清除默认样式的操作

1、在npm官网中搜索reset.scss->点击第一个。(有时候会更新一些代码,第一个出现的不一定就是我图片中的这个,不一定要跟我图片中的代码一致,只需要选择第一个出现的即可) 2、点击Code选项。 3、打开Code选项下面的t…

在私有化过程中不要忽视LLMs的双重逻辑能力:医学领域的数据密集型分析

链接:https://arxiv.org/abs/2309.04198 原标题:Don’t Ignore Dual Logic Ability of LLMs while Privatizing: A Data-Intensive Analysis in Medical Domain 日期:Submitted on 8 Sep 2023 摘要 大量的研究致力于通过喂养特定领域的数据…

智能楼宇控制系统的革新——M31系列分布式IO模块

随着物联网技术的飞速发展,智能楼宇控制系统正逐渐成为现代建筑的标配。它不仅能够提高建筑的能源效率,还能提升用户的生活品质和舒适度。在这样的背景下,分布式IO模块作为智能楼宇控制系统的核心组成部分,发挥着至关重要的作用。…

深度学习9--目标检测

1.概念介绍 目标检测不仅可以检测数字,而且可以检测动物的种类、汽车的种类等。例如,自动驾驶车辆需要自动识别前方物体是车辆还是行人,需要自动识别道路两 旁的指示牌和前方的红绿灯颜色。对于自动检测的算法,有两个要求&#xf…

聊聊场景及场景测试

在我们进行测试过程中,有一种黑盒测试叫场景测试,我们完全是从用户的角度去理解系统,从而可以挖掘用户的隐含需求。 场景是指用户会使用这个系统来完成预定目标的所有情况的集合。 场景本身也代表了用户的需求,所以我们可以认为…

项目管理工具的秘密:如何选出最佳系统

国内外主流的 10 款project项目管理系统对比:PingCode、Worktile、用友、泛微、蓝凌、Zoho Projects、Asana、Trello、Basecamp、Jira。 在寻找合适的项目管理系统时,你是否感到选择众多、功能复杂让人难以抉择?这正是许多项目经理面临的痛点…

计算机毕业设计选题推荐-个性化智能学习系统-Java/Python项目实战

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

MySQL架构与数据库基础

文章目录 一、数据库概念二、数据库的简单概念三、SQL四、MySQL架构 一、数据库概念 数据库是一个以某种由组织的方式存储的数据集合。我们可以把数据库想象称为一个文件柜。此文件柜是一个存放数据的物理位置,不管数据是什么以及如何组织的。数据库本质也需要像文…

C++-类与对象(上篇)

一、目标: 1. 面向过程和面向对象初步认识 2. 类的引入 3. 类的定义 4. 类的访问限定符及封装 5. 类的作用域 6. 类的实例化 7. 类的对象大小的计算 8. 类成员函数的 this 指针 二、对类与对象的介绍: 1.面向过程和面向对象初步认识 &#xff1a…

调用FluentUI中的折线图散点图等

文章目录 0.文章介绍1.源码位置2.线性图:基础版本2.1效果图2.2代码 3.线形图:封装版本3.1 效果图3.2 代码 0.文章介绍 调用项目FluentUI中的散点图、折线图组件,做定制化改进。 项目FluentUI源码位置:https://github.com/zhuzich…

手把手教你SpringBoot项目将Swagger升级3.0详解

SpringBoot项目将Swagger升级3.0 前言 这阵子观察到Swagger官方已经升级到了3.0的版本,想着升级体验一下最新的版本 新特性 移除了2.x版本的冲突版本,移除了guava等移除了EnableSwagger2新增了springfox-boot-starter… 引入依赖 新版本中&#xf…

三十八、【人工智能】【机器学习】【监督贝叶斯网络(Bayesian Networks)学习】- 算法模型

系列文章目录 第一章 【机器学习】初识机器学习 第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression) 第三章 【机器学习】【监督学习】- 支持向量机 (SVM) 第四章【机器学习】【监督学习】- K-近邻算法 (K-NN) 第五章【机器学习】【监督学习】- 决策树…

数据库-DML语言-数据操作语言

定义 DML是对表中数据进行操作的语言,涉及的关键字:INSERT UPDATE DELETE INSERT:向表中插入新数据的语句UPDATE:修改表中数据的语句DELETE:删除表中数据的语句 准备工作 USE mydb; 使用mydb库 CREATE TABLE person( 创建表personname VARCHAR(30),age INT…

AAAI‘25 今日截稿!SD 核心成员开源比 Midjourney 还强的文生图模型,现已提供一键启动

Midjourney 真的不香了!继 Stable Diffusion 3 于 6 月开源后,Stability AI 前核心成员 Robin Rombach 带领着新团队在本月初推出了 FLUX.1 图像生成模型家族。官方声称 FLUX.1 在多个关键指标上超越了 Midjourney v6.0 和 DALLE 3 等文生图的头部模型&a…