如何规划并新建大数据平台的独立生产域?5步走

news2024/9/29 23:31:54

一般来说,大数据平台包括以下4类数据生产域——生产生态环境(正式生产环境)、开发和测试环境、培训和演示环境、灾备环境。各生产域在由平台提供资源、安全、监控、故障恢复等保障的同时,不同的生产域之间还需要严格隔离,以确保数据生产的可靠性、可用性和安全性。具体到真实的企业环境,生产域的规划则更为复杂。

本文聚焦独立生产域的规划与新建,分享标准流程和注意事项。

为什么应该关注新建数据生产域?

企业在发展过程中,出于业务扩张、安全合规、组织调整等要求,常需要对现有的大数据平台进行独立的生产域规划,来匹配新涌现的数据需求。

举几个例子:

1. 业务快速扩张,数据生产域能否同步快速复制?

业务的快速复制是企业规模化扩张的常见做法。相对应的,大数据平台也要提供出足够的数据空间,以便这些业务投入使用。譬如,制造企业在某地建厂有成熟实践后,随后新建的各地工厂同样需要新建的数据生产域,工厂之间的数据作业互不影响。

2. 安全合规要求,能否确保独立的数据隔离和管理?

企业在开展跨境业务时,需遵守业务所在地的数据安全相关法律法规,且各地数据不允许无原则地传输交换。因此企业需创建多个物理隔离、数据独立的生产域,确保在当地的数据业务安全合规。在国内,对上市公司的财务数据往往也有数据独立管理的合规要求,也就意味着财务应有独立的数据生产域。

3. 匹配组织架构,各业态能否互不干扰、独立运营?

旗下有多个子公司、子品牌及业态的大型集团企业,必须在大数据平台分别设立多个独立的数据生产域,同时,也便于集团层面对每个子公司完成独立的数据成本核算。

在上述场景中必须注意的是,一个又一个的数据生产域代表着安全、隔离、稳定,但并不意味着重新建起了数据孤岛。

以“既隔离又统一”的集团数据云服务为例,集团大数据平台统一为各子公司、子品牌(独立数据生产域)提供存算资源、运维服务及安全保障,并保留对全集团数据资产分析洞察的能力。技术更为成熟的大数据平台,还应支持在合规前提下的“复用”,例如,支持复制标准空间的数据业务逻辑到新的空间中,以跟上业务快速扩张的节奏,避免一次又一次从头重建。

5步走,搞定新建数据生产域的规划

奇点云数据云平台DataSimba具备跨云多域多租户能力。依托DataSimba,企业可以统一建设并管理全域数据资产,也可以创建多个Workspace(工作空间,即独立的数据生产域),来完成多云、多品牌、多业态等管理需求。

DataSimba的权限管控体系有序、灵活、精细化,租户可以在一个Workspace下建立自己的Project(项目)并进行权限划分,也可以在不同Workspace建立不同的项目。一个Workspace中可以有多个租户建立项目,也可以被一个租户独占。

在数据云平台DataSimba中,规划并创建一个新的Workspace可归纳为以下5个环节:

1. 大数据集群评估

1.1 整体调研:调研企业业务和数据现状

确认业务整体目标以及业务范围;探查数据现状,明确数据分布及数据流向;IT系统调研,调研企业IT基础设施的现状;组织架构调研,了解企业整体组织架构。

1.2 资源评估:评估出需要的资源总量

通过调研的数据情况,估算未来数年整体的数据量;基于整体业务未来发展情况,估算整体任务数量。

1.3 组件评估:基于调研的业务场景,进行组件选型,满足业务的需求。

2. Account规划

Account(账号)指租户账号,此账号会绑定若干User(用户子账号),每个子账号可以被分配不同的Role(角色),每个角色可以控制能访问的功能权限。同时,每个子账号可以进行数据权限的绑定。

具体步骤包括:基于组织架构调研,明确需要建立子账号的用户;基于用户的职位职责,规划出不同的角色和所需要的功能权限;根据企业的数据安全要求,规划数据权限的设定;最后,Account与资源节点对应绑定。

3. Project规划

Project(项目)是一种对任务、作业、数据逻辑上的管理单位。

首先根据企业业务情况,选择适合的划分维度进行Project规划。划分完毕后,将上述Account相关的用户分配到对应的Project中。

规划Project的常见维度如下:

· 环境用途维度:例如开发环境、测试环境、预发环境、正式环境等。从经济性角度出发,通常分为开发环境、正式环境。

· 业务领域维度:例如订单域,财务域等。

· 组织架构维度:例如生产部门、市场运营部门、电商部门等。

· 地理位置维度:根据业务所在的地理位置划分,例如欧洲、北美洲等。

4. Quota规划

Quota(配额)指对不同用户或部门使用资源(如CPU、内存、GPU等)的分配及限制。

结合上述规划的资源和项目,可以开始进行Quota规划,通常遵循以下原则:

· 业务优先原则:重要的业务空间具有更高的配额,以确保任务能有效执行完毕。

· 资源利用率原则:在不影响业务使用的前提下,可以尽可能使用Quota共享的方式来提升资源利用率。

结合上述原则和业务场景,判断高优先级的业务。在确保高优先级业务有效执行的前提下,配置Quota。随后判断中优先级的业务,可以根据实际业务要求选择和低优先级的业务共同使用一个Quota。规划好Quota后,分配给对应的Project使用。

5. 任务和数据迁移

上述环节规划完毕后,开始正式迁移相关的任务以及数据。

DataSimba内置迁移客户端,支持将现有大数据系统的数据源、作业、任务、服务等对象自动化迁移至DataSimba。

此外,DataSimba提供完备工具,将现有Workspace的数据业务逻辑完整复制到新的Workspace中,以满足快速新建、复制独立生产域的需求。

写在最后:创建数据生产域,就是创建对象体系的实例

数据云平台DataSimba底层为数据云操作系统内核(SimbaOS Kernel)。内核将大数据领域的存储、计算、服务、调度、安全、租户等常用功能,抽象为一组标准对象模块。这组标准对象加上对象之间的关联关系,能几乎满足所有业务场景的需要。

如上图所示,Workspace(工作空间)、Account(账号)、Project(项目)、User(子账号)等均为“对象”,在DataSimba创建数据生产域,也就是创建对象体系的实例:

  1. 创建Account实例,并关联Workspace;
  2. 选择并创建Project实例;
  3. 创建对应Quota实例;
  4. 最后进行数据迁移,并创建Task(任务)、Job(作业)等实例。

通过创建对象体系(的实例)的方式来构建数据生产域,更有利于:

· 封装底层技术,提高易用性:以Project(项目)为例,数据云平台用户(工程师)只需通过该对象创建项目,完成对项目的各种修改,无需关注底层技术细节;

· 提高系统的可维护性:单个对象调整对整体影响小,例如Workspace(工作空间)这一对象需要支持新的特性,只需要对该对象改动,不会影响其他对象及关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1181164.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

宏观角度认识递归之 Pow(x,n) 问题

50. Pow(x, n) - 力扣(LeetCode) 计算 x 的 n 次幂,如果是直接暴力求解的话,会造成计算时间周期过长,所以要从别的角度出发,将幂等数分为两个幂等数相乘,例如:三的八次方&#xff0c…

Python基础入门(19)----Python单元测试基础:unittest模块的基本使用

文章目录 创建测试用例测试套件断言运行测试测试固件Python的unittest模块是基于Java的JUnit框架开发出来的,提供了编写和运行单元测试的工具。这篇文章将介绍unittest模块的基本使用,涵盖创建测试用例、测试套件、断言、运行测试以及测试固件的使用。 创建测试用例 在unit…

货币转换

维护货币汇率 事务代码:OB08 调用BAPI CALL FUNCTION BAPI_EXCHANGERATE_GETDETAILEXPORTINGrate_type Mfrom_curr ls_ekko-waersto_currncy CNYdate sy-datumIMPORTINGexch_rate ls_exch_ratereturn ls_return.ls_zsmm043-header-rmb_price …

python解析xmind统计测试用例/测试点 个数及执行情况

前言:统计的是每个分支最后一个节点的状态 xmind版本 23.0911172 标记打开位置 标记规则如下 解释: res {"total": 0, "pass": 0, "fail": 0, "no_result": 0, "unfinished": 0, "now_fail…

MCU测试科普|如何进行MCU芯片测试,具体流程是什么?

MCU芯片测试系统是一种专门用于检测MCU芯片性能和质量的综合性设备。它通常由硬件和软件两部分组成,硬件包括测试仪器、适配器、测试夹具等,用于连接被测MCU芯片和测试机,实现高效高精度的测试。软件部分通常包括测试程序、测试管理软件等&am…

安全狗连续5年零失误守护金鸡奖颁奖典礼安全

11月4日,第36届中国电影金鸡奖颁奖典礼暨2023年中国金鸡百花电影节闭幕式在厦门圆满落幕。 作为国内云原生安全领导厂商,安全狗再一次收到客户委托,为其颁奖活动期间的相关宣传窗口、网页和系统的网络安全全程护航。 01 台上幕后 荣耀守护 …

openGauss学习笔记-117 openGauss 数据库管理-设置数据库审计-查看审计结果

文章目录 openGauss学习笔记-117 openGauss 数据库管理-设置数据库审计-查看审计结果117.1 前提条件117.2 背景信息117.3 操作步骤 openGauss学习笔记-117 openGauss 数据库管理-设置数据库审计-查看审计结果 117.1 前提条件 审计功能总开关已开启。需要审计的审计项开关已开…

网络的地址簿:Linux DNS服务的全面指南

1 dns 1.1 dns(域名解析服务)介绍 当访问 www.baidu.com 首先查询/etc/hosts,如果没有再去查询/etc/resolv.conf,还是没有就去查询域名服务器 关于客户端: /etc/resolv.conf ##dns指向文件 nameserver 172.25.254.20测试&…

深入了解Redission分布式锁原理以及可重入锁的原理

Redisson是一个基于Redis的Java框架,用于实现各种分布式功能,包括分布式锁。Redisson提供了多种分布式锁的实现,其中包括可重入锁、公平锁、联锁(多个锁同时锁定或释放)、红锁(多个独立Redis节点的分布式锁…

一个java文件的JVM之旅 | 京东物流技术团队

准备 我是小C同学编写得一个java文件,如何实现我的功能呢?需要去JVM(Java Virtual Machine)这个地方旅行。 变身 我高高兴兴的来到JVM,想要开始JVM之旅,它确说:“现在的我还不能进去,需要做一次转换&…

不会写文档的程序员不是好的程序员

在当今数字化的世界中,软件开发行业正经历着前所未有的繁荣。从移动应用到大型企业系统,软件构建了现代社会的基础。在IT行业中,文档是一种非常重要的沟通工具。它可以帮助程序员和客户及团队成员之间进行有效的沟通和协作,提高工…

CMake编译命令笔记

项目主目录存在一个CMakeLists.txt文件两种方式设置编译规则 编译流程 上级目录 和 上上级目录的代码 两种构建方式(推荐使用外部构建)

基于单片机智能加湿器控制系统仿真设计

**单片机设计介绍, 698【毕业课设】基于单片机智能加湿器控制系统仿真设计 文章目录 一 概要系统组成总结 二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 单片机智能加湿器控制系统仿真设计介绍 单片机智能加湿器控制系统是一种利用微…

DDD技术方案落地实践 | 京东云技术团队

1. 引言 从接触领域驱动设计的初学阶段,到实现一个旧系统改造到DDD模型,再到按DDD规范落地的3个的项目。对于领域驱动模型设计研发,从开始的各种疑惑到吸收各种先进的理念,目前在技术实施这一块已经基本比较成熟。在既往经验中总…

响应式编程-Project Reactor Mono 介绍

响应式编程-Project Reactor Mono 介绍 本文以Mono的角度来介绍Reactor编程,Flux的使用同理。 初体验 Web应用 controller 方法在Spring webmvc 和 Spring webFlux下Controller方法实现示例如下: Spring webmvc: GetMapping("/test1") …

【单链表】无头单项不循环(2)

目录 Test.c主函数 test5 test6 test7 test8 test9 Test.c总代码 SList.h头文件&函数声明 头文件 函数声明 SList.h总代码 SList.c函数实现 查询SLFind pos前面插入 pos后面插入 pos后面删除 pos删除 空间释放 SList.c总代码 今天链表。 Test.c主函…

力扣最热一百题——盛水最多的容器

终于又来了。我的算法记录的文章已经很久没有更新了。为什么呢? 这段时间都在更新有关python的文章,有对python感兴趣的朋友可以在主页找到。 但是这也并不是主要的原因 在10月5号我发布了我的第一篇博客,大家也可以看见我的每一篇算法博客…

『MySQL快速上手』-④-表的操作

文章目录 1.创建表2.查看表结构3.修改表4.删除表 1.创建表 语法格式如下: CREATE TABLE table_name ( field1 datatype, field2 datatype, field3 datatype ) character set 字符集 collate 校验规则 engine 存储引擎;说明: field 表示列名&#xff1…

javascript模块化之ESM

[[toc]] ESM是什么 个人理解是: EcmaScript Modules常说的 es modules常说的 es模块常说的 前端模块化demo1: 浏览器基本使用 <!-- 【1】 浏览器基本使用script 标签设置 type = module,浏览器就会以 ES modules 的标准去执行 JavaScript 代码。默认情况下,代码是以严格…

简化磁盘分区管理的 6 个分区管理器软件!

在计算机上存储和管理数据的方式对机器的性能起着至关重要的作用。对计算机硬盘进行分区是管理文件和确保系统高效运行的绝对必要步骤。 对硬盘进行分区涉及将其分成可用于存储数据的部分&#xff0c;使其更有条理和安全。但是&#xff0c;对硬盘进行分区可能是一个繁琐而复杂…