从困境到突破,EasyMR 集群迁移助力大数据底座信创国产化

news2024/9/27 9:03:49

在大数据时代,企业对数据的依赖程度越来越高。然而,随着业务的不断发展和技术的快速迭代,大数据平台的集群迁移已成为企业数据中台发展途中无法回避的需求。在大数据平台发展初期,国内数据中台市场主要以国外开源 CDH、商业化 CDP、HDP 为主。然而,由于国际形势的转变,以海外大数据基础平台作为基石构建的数据中台面临着极为严峻的安全挑战。

● Cloudera 和 Hortonworks 产品开启付费订阅模式

自2021年1月31日起,Cloudera 旗下的所有软件不再提供社区版,转而采用需付费的订阅模式,并且订阅费用颇高。

● 企业版停止更新和服务

Cloudera 和 Hortonworks 合并后,推出的新平台 CDP 是 CDH 和 HDP 的最后版本,企业用户无法获取新功能和性能提升,并且2022年3月后停止售后支持。

● 国际事件导致的供应中断风险

如俄乌事件,Oracle、Google、苹果、英特尔等公司相继停止对俄业务,进一步暴露外国软件供应链的脆弱性和风险。

面对复杂多变的国际局势,我国陆续推出相应政策推动信创产业发展。比如国资委就要求,从23年初开始,每个季度要上报信创系统的替换进度。并要求在2027年底前,实现中央企业的信息化系统国产化替代。

因此,无论是因为 CDH 不再维护,还是为了实现国产化替代,或者是为了追求更高的性能和安全性,大数据集群迁移的需求都愈发迫切。

EasyMR 作为一款领先的大数据存储计算平台,深刻理解企业在集群迁移过程中面临的挑战和痛点,其 EasyManager 大数据运维管理平台推出了功能强大的「集群迁移」模块,为企业提供一站式的集群迁移解决方案,助力企业在确保数据安全和完整性的同时,轻松高效地完成集群迁移工作。

多集群配置支持:一站式管理

支持多种大数据平台的集群配置,包括 EMR、CDH、CDP、HDP 和 NDH。无论企业当前使用的是哪种平台,将要迁往哪种平台,EasyManager 都能无缝兼容,为企业提供灵活的迁移选择。

这种多集群配置支持,不仅简化了迁移操作,还提高了企业的灵活性,让企业能够根据实际业务需求,选择最合适的大数据平台。

file

集群跨域互信检测

集群迁移中源集群与目标集群可能分布在不同的物理位置或不同的网络环境中,甚至跨越不同的企业和组织。在这种复杂的环境下,确保集群之间的互信是保障数据安全和稳定运行的前提。

跨域互信检测的主要目的是:

· 确保集群间的安全通信:防止未经授权的访问和数据泄露

· 验证集群间的身份认证:确保只有可信的集群才能进行数据交换和协同计算

· 保障数据完整性和一致性:防止数据在传输过程中被篡改或丢失

迁移调度策略:灵活的任务控制

在集群迁移过程中,合理的任务调度和并发控制至关重要。EasyMR 提供了配置迁移调度策略的功能,允许企业根据自身的业务需求和资源状况,灵活地设定迁移任务的网络带宽和并发度。

通过灵活调度策略设定,企业可以最大化地利用现有网络、计算资源,确保迁移过程高效、有序地进行。同时,任务并发控制功能还能有效防止系统过载,保障系统的稳定运行。

file

数据一致性校验:保障数据准确性

在大数据集群迁移过程中,数据一致性校验是确保数据完整性和准确性的关键步骤。EasyMR 针对数据一致性校验提供了一整套详细而强大的功能,帮助企业在迁移过程中保证数据的准确性和一致性。

file

● Schema 采集和表结构对比

· Schema 采集

Schema 采集是指从源集群和目标集群中提取数据库的结构信息,包括表名、字段名、字段类型、索引、约束等。这些信息是进行表结构对比的基础。

· 表结构对比

在迁移过程中,对比源集群和目标集群的表结构是确保数据一致性的第一步。表结构对比包括以下几个方面:

1)字段数量对比:确保源表和目标表的字段数量一致

2)字段名称和类型对比:确保字段名称和数据类型一致,避免因类型不匹配导致的数据错误

3)索引和约束对比:确保索引和约束在迁移后保持一致,保证数据操作的效率和安全性

● 记录数采集和记录数对比

· 记录数采集

记录数采集是指统计源集群和目标集群中各表的记录数量,记录数的对比可以快速检测出是否有数据丢失或重复。

· 记录数对比

记录数对比主要是对比源表和目标表中的记录数量是否一致。记录数不一致可能表明数据在迁移过程中丢失或重复,需要进一步的检查和处理。

● 数值 SUM 采集和数值字段对比

· 数值 SUM 采集

数值 SUM 采集是对源集群和目标集群中所有数值类型的字段进行求和操作。通过 SUM值 的对比,可以检查出数值数据的一致性。

· 数值字段对比

数值字段对比是对比源表和目标表中数值字段的 SUM 值,确保数值数据在迁移后的总和一致。这可以有效地发现数值数据在迁移过程中可能发生的偏差和错误。

● 字符 Max 采集和字符字段对比

· 字符 Max 采集

字符 Max 采集是指对源集群和目标集群中所有字符类型的字段进行最大值的提取,通过 Max 值的对比,可以检查出字符数据的一致性。

· 字符字段对比

字符字段对比是对比源表和目标表中字符字段的 Max 值,确保字符数据在迁移后的最大值一致。这可以有效地发现字符数据在迁移过程中可能发生的错误和遗漏。

● 抽样采集和 MD5 对比

· 抽样采集

从源集群和目标集群中随机抽取一定数量的数据样本进行对比。抽样采集可以提高数据对比的效率,减少全量对比的时间和资源消耗。

· MD5 对比

通过对源集群和目标集群中的数据进行 MD5 哈希计算,将哈希值进行对比,确保数据的一致性。

实时监控与日志定位

为了帮助用户及时了解迁移进度和处理迁移过程中出现的问题,EasyMR 提供了详细的页面查看和日志记录功能。

● 迁移任务状态查看

用户可以在页面上实时查看迁移任务的状态,了解迁移进度和结果。

● 迁移日志记录和分析

系统会记录迁移过程中的详细日志,用户可以通过日志定位和解决迁移过程中出现的问题,确保迁移任务顺利完成。

file

总结

EasyMR 为企业提供安全可靠、弹性伸缩、低成本的大数据存储与计算服务,同时支持一站式迁移解决方案。迁移流程产品化不仅简化了操作,还提升了迁移效率和安全性。无论是数据存储与管理,还是任务调度与控制,EasyMR 都能为企业提供全面支持。

特别是在集群国产化替代方面,EasyMR 通过优化的迁移流程和强大的技术支持,帮助企业顺利完成从现有环境到 EasyMR 国产环境的迁移,实现大数据集群的平稳过渡和国产化适配。 《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm

《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szcsdn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1988654.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM(十二)细谈JVM类加载的各个过程以及如何修改Java原生API

本文深入探讨了Java虚拟机(JVM)的类加载机制,包括类的加载、验证、准备、解析和初始化等过程。文章首先通过几个高级面试问题引入主题,然后详细解释了JVM类加载的五个阶段及其重要性。接着,介绍了Java的三个主要类加载…

普通话测试前如何抱佛脚拿高分

全国普通话水平测试对很多大学生而言是最好拿证的考试,当然了对于某些专业的考生也会有更高的拿证要求,例如对于需要考教师资格证的同学而言。希望这篇文章可以帮助到各位考生在普通话水平测试中取得高分。 首先我们需要知道考试考什么 一、测试内容 …

M.2接口

接口分类 key-a key-b key-e key-m接口图片

图吧工具箱:硬件检测的一站式解决方案,好用到让同行都点赞!

前言 嘿,各位硬件迷们,小江湖又来啦!今天,我手里可是攥着个宝贝,一个能让你们眼前一亮的神秘工具箱;别急着问是啥,我先卖个关子,就说这工具箱啊,简直是硬件界的“八卦炉”…

8.C基础_指针基础

指针概述 指针存放的都是首地址。 1、定义与初始化 形式&#xff1a;<数据类型>* <变量名> <地址>; int a 10; int *p &a; 指针的类型不同&#xff0c;p时的偏移地址量不同&#xff0c;偏移地址 sizeof(类型)Byte 注意点&#xff1a; 指针的…

LMS4124R-13000S01激光测距仪使用方法【sick LMS4124R-13000S01】

1、下载SOPAS&#xff1a; 点击下载SOPAS 1 SOPAS 自动搜索设备 正常上电及网络连接&#xff0c;打开 SOPAS 自动搜索到 LMS41XXX&#xff0c;并且可以看到其版本号&#xff0c; SN,IP 信息&#xff0c;产品默认 IP 为 192.168.0.1. 2 搜索设备 鼠标双击“LMS41XXX(SN 18460…

15.DMDIS 工具优化

文章目录 前言一、安装部署安装数据源转换作业监控 二、性能优化问题 1 &#xff1a;DMETL 卡顿问题问题 2 &#xff1a;DM -> HIVE 的迁移速度慢问题 3 &#xff1a;ORACLE -> DM 的迁移速度慢问题 4 &#xff1a;GP -> DM 的迁移速度慢问题 5 &#xff1a;DM -> …

AI芯片成本压力影响利润

Supermicro&#xff08;SMCI&#xff09;近日公布的季度业绩低于预期&#xff0c;主要因其生产的最新人工智能&#xff08;AI&#xff09;芯片服务器成本高企&#xff0c;导致经调整后的毛利率未能达到分析师的预期水平。这一消息使得其股价在盘后交易中急剧下跌14%&#xff0c…

江科大/江协科技 STM32学习笔记P19

文章目录 TIM编码器接口编码器接口简介正交编码器编码器接口电路、基本结构工作模式 TIM编码器接口 改写旋转编码器计次程序&#xff0c;通过定时器的编码器接口自动计次&#xff0c;与之前触发外部中断手动计次相比&#xff0c;节约软件资源&#xff0c;当有电机高速旋转时&a…

邮件推送接口如何集成以提升用户通知效率?

邮件推送接口的优化策略有哪些&#xff1f;如何设计邮件API接口&#xff1f; 邮件推送接口的集成在这一过程中发挥了重要作用&#xff0c;能够显著提升用户通知效率。AokSend将探讨如何通过集成邮件推送接口来优化用户通知机制&#xff0c;从而为企业和用户带来更高的价值。 …

Java并发—ReetrantLock详解

目录 一、ReetrantLock的特性 1、非阻塞获取锁 2、带超时的锁获取: 3、锁的公平性 4、锁的可中断性 5、Condition条件变量 6、锁的可重入性 可重入锁 不可重入锁 7、性能优化 二、ReentrantLock和Synchronized的区别 1、语法和使用方式 2、锁的获取和释放 3、高级…

量化方法介绍

一、定义 分类模型量化接口进阶量化支持的模式/流/硬件 二、实现 分类 模型量化接口进阶 https://pytorch.org/docs/stable/quantization-support.html 2.1 算子融合 定义&#xff1a; 将多个算子融合到一起&#xff0c;运算时可以加快运行速度。 import torch # define a…

三星和Nvidia在HBM3E芯片领域的竞争与合作

引言 近期&#xff0c;全球半导体市场的焦点逐渐聚焦在了高带宽内存&#xff08;HBM&#xff09;芯片领域&#xff0c;尤其是三星电子和Nvidia之间的竞争与合作。这两家科技巨头正在为下一代人工智能&#xff08;AI&#xff09;处理器的高性能需求而竞相研发先进的HBM3E存储解决…

模拟面试题1

目录 一、JVM的内存结构&#xff1f; 二、类加载器分为哪几类&#xff1f; 三、讲一下双亲委派机制 为什么要有双亲委派机制&#xff1f; 那你知道有违反双亲委派的例子吗&#xff1f; 四、IO 有哪些类型&#xff1f; 五、Spring Boot启动机制 六、Spring Boot的可执行…

基于MindFormers实现GPT2模型的推理

前言 针对MindFormers的安装&#xff0c;可参考本专栏里的另一篇博客 安装MindFormers&#xff08;昇腾910&#xff09;-CSDN博客 pipeline方式 from mindformers import pipeline from mindformers import GPT2LMHeadModel, GPT2Config, GPT2Tokenizer tok GPT2Tokenizer…

Kafka安装部署+go整合

1、Kafka的安装 1、下载与安装Kafka Kafka官网https://Kafka.apache.org/downloads 所以这里推荐的版本是 : https://archive.apache.org/dist/kafka/2.7.2/kafka_2.12-2.7.2.tgz 将下载下来的安装包直接解压到一个路径下即可完成Kafka的安装&#xff0c;这里统一将Kafka安装…

4种防止模态框弹出时页面滚动的方法

1. Overflow:hidden — 经典方法 overflow:hidden CSS 属性是一种久经考验的防止滚动的方法。只需将一个类&#xff08;例如&#xff0c;no-scroll&#xff09;添加到 <body> 标签&#xff0c;并将其链接到带有 overflow:hidden 的 CSS 规则。 .no-scroll {overflow: h…

地表最强?免费!AI画图模型:Stable Diffusion 3 来了!

前言 Stability AI终于推出了备受期待的Stable Diffusion 3 API。经过几个月技术报告的酝酿&#xff0c;现在用户终于可以实际体验这个模型啦。 虽然完全开源的SD3模型仍在开发中&#xff0c;Stability AI已承诺对普通用户免费开放。用户现在可以通过Fireworks AI平台访问SD3 …

电脑出现错误vcomp140.dll是什么情况?vcomp140.dll丢失怎样修复?

很多小伙伴在使用电脑时会突然收到提示vcomp140.dll文件丢失导致应用程序无法打开&#xff0c;不能正常运行。这是怎么一回事呢&#xff1f;其实就是vcomp140.dll文件被破会坏导致文件被丢失。具体的解决办法其实很简单一起来看看吧。 关于vcomp140.dll文件丢失的详细分析 在计…

我在高职教STM32——EXTI之外部按键中断(2)

大家好,我是老耿,高职青椒一枚,一直从事单片机、嵌入式、物联网等课程的教学。对于高职的学生层次,同行应该都懂的,老师在课堂上教学几乎是没什么成就感的。正是如此,才有了借助CSDN平台寻求认同感和成就感的想法。在这里,我准备陆续把自己花了很多心思设计的教学课件分…