15.DMDIS 工具优化

news2024/9/27 21:23:12

文章目录

    • 前言
    • 一、安装部署
      • 安装
      • 数据源
      • 转换
      • 作业
      • 监控
    • 二、性能优化
      • 问题 1 :DMETL 卡顿问题
      • 问题 2 :DM -> HIVE 的迁移速度慢
      • 问题 3 :ORACLE -> DM 的迁移速度慢
      • 问题 4 :GP -> DM 的迁移速度慢
      • 问题 5 :DM -> ORACLE 的迁移速度慢
      • 问题 6 :DM -> GP 的迁移速度慢
      • DMETL 迁移产品优化总结
    • 参考内容

前言

达梦数据交换平台(简称 DMETL)是基于大量大数据项目经验和需求,结合最新大数据发展趋势自主研发的具有自主版权的数据处理与集成平台。

DMETL 创新性地将传统的 ETL 工具(抽取、转换、加载)与分布式大数据处理平台相结合,实现了一站式的数据同步、数据处理和数据交换共享支持,大幅降低了用户在大数据整合处理方面的技术门槛。它是构建数据中心、数据仓库、数据交换和数据同步等数据集成应用的理想平台。本篇主要讲使用该工具遇到的一些问题以及优化。

一、安装部署

安装

  • 软件安装

  • DMETL 元数据信息

数据源

  • 底层可支持多种数据源的配置

转换

  • 转换里面可进行多种数据源之间的数据读取、数据质量管理、数据转换以及数据装载

作业

  • 根据业务场景自定义作业,可控制转换以及其他任务的执行,配置调度可进行定时作业的发动

监控

  • 可对当前系统资源、流程运行情况、用户在线情况等进行监控

二、性能优化

问题 1 :DMETL 卡顿问题

  • 解决方案 :安装部署中没有进行 /etc/hosts 的配置,会导致使用中 DNS 的遍历从而造成卡顿,配置相应的 /etc/hosts 的映射即可;

问题 2 :DM -> HIVE 的迁移速度慢

四表并发最初仅有 3W/s (读取写入均慢),优化至 150W/s

  • 解决方案 :
    • 读取优化 :DM 表根据测试数据特点做成范围分区表,根据数据量分为 125W 一个分区,共 48 个分区(测试读取最优);
    • 读取优化 :DMETL DM 源端根据分区键进行读取,单表 48 个并发进行读取(对应子表数据量);
    • 写入优化 :建立 HIVE 外表,通过 HDFS 进行并发装载(HIVE 快速装载无法做到真正意义上的并发进行,LOAD DATA 并发存有元数据锁)

问题 3 :ORACLE -> DM 的迁移速度慢

最初仅有 3W/s,优化至110W/s

  • 解决方案 :
    • 读取优化 :ORACLE 根据主键分多条 SQL 进行读取优化,充分调动源端的内存使用;
    • 写入优化 :DM 端建立以主键进行分区的 HASH 表(32分区),根据主键 HASH 值写入,定点写入固定的分区;
    • 写入优化 :dm.ini 增加共享池的大小(MEMORY_POOL)、共享池的个数(MEMORY_N_POOLS),增大 BUFFER_POOLS、BUFFER的大小,调大 PARALLEL_THRD_NUM 的大小;
    • 写入优化 : 关闭归档日志

问题 4 :GP -> DM 的迁移速度慢

最初仅有 5W/s,优化至 88W/s

  • 解决方案 :
    • 读取优化 :GP 根据主键分多条 SQL 进行读取优化,;
    • 写入优化 :DM 端建立以主键进行分区的 HASH 表(32分区),根据主键 HASH 值写入,定点写入固定的分区;
    • 写入优化 :dm.ini 增加共享池的大小(MEMORY_POOL)、共享池的个数(MEMORY_N_POOLS),增大 BUFFER_POOLS、BUFFER的大小,调大 PARALLEL_THRD_NUM 的大小;
    • 写入优化 : 关闭归档日志

问题 5 :DM -> ORACLE 的迁移速度慢

最初仅有 6W/s,优化至 50~80W/s,主要原因为磁盘性能不稳定

  • 解决方案 :
    • 读取优化 :源端建立成相应的范围分区表,DMETL 的范围分区仅支持时间类型,不支持 varchar、decimal 等类型,改使用多表读取,通过正则匹配子表的前缀进行;

问题 6 :DM -> GP 的迁移速度慢

最初仅有 500/s,优化至 87W/s

  • 解决方案 :
    • GP 为分析型数据库,在事务型 SQL 执行
    • 读取优化 :源端建立成相应的范围分区表,DMETL 的范围分区仅支持时间类型,不支持 varchar、decimal 等类型,改使用多表读取,通过正则匹配子表的前缀进行;
    • 写入优化 : 建立 GP 外表,直接映射到对应读取生成的 CSV 上面,然后直接 insert into … select * from …

DMETL 迁移产品优化总结

至此对 DMETL 的安装使用有了初步认识,本篇博客到此结束!

参考内容

  • Linux安装DMETL4
  • 达梦社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1988643.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI芯片成本压力影响利润

Supermicro(SMCI)近日公布的季度业绩低于预期,主要因其生产的最新人工智能(AI)芯片服务器成本高企,导致经调整后的毛利率未能达到分析师的预期水平。这一消息使得其股价在盘后交易中急剧下跌14%&#xff0c…

江科大/江协科技 STM32学习笔记P19

文章目录 TIM编码器接口编码器接口简介正交编码器编码器接口电路、基本结构工作模式 TIM编码器接口 改写旋转编码器计次程序,通过定时器的编码器接口自动计次,与之前触发外部中断手动计次相比,节约软件资源,当有电机高速旋转时&a…

邮件推送接口如何集成以提升用户通知效率?

邮件推送接口的优化策略有哪些?如何设计邮件API接口? 邮件推送接口的集成在这一过程中发挥了重要作用,能够显著提升用户通知效率。AokSend将探讨如何通过集成邮件推送接口来优化用户通知机制,从而为企业和用户带来更高的价值。 …

Java并发—ReetrantLock详解

目录 一、ReetrantLock的特性 1、非阻塞获取锁 2、带超时的锁获取: 3、锁的公平性 4、锁的可中断性 5、Condition条件变量 6、锁的可重入性 可重入锁 不可重入锁 7、性能优化 二、ReentrantLock和Synchronized的区别 1、语法和使用方式 2、锁的获取和释放 3、高级…

量化方法介绍

一、定义 分类模型量化接口进阶量化支持的模式/流/硬件 二、实现 分类 模型量化接口进阶 https://pytorch.org/docs/stable/quantization-support.html 2.1 算子融合 定义: 将多个算子融合到一起,运算时可以加快运行速度。 import torch # define a…

三星和Nvidia在HBM3E芯片领域的竞争与合作

引言 近期,全球半导体市场的焦点逐渐聚焦在了高带宽内存(HBM)芯片领域,尤其是三星电子和Nvidia之间的竞争与合作。这两家科技巨头正在为下一代人工智能(AI)处理器的高性能需求而竞相研发先进的HBM3E存储解决…

模拟面试题1

目录 一、JVM的内存结构? 二、类加载器分为哪几类? 三、讲一下双亲委派机制 为什么要有双亲委派机制? 那你知道有违反双亲委派的例子吗? 四、IO 有哪些类型? 五、Spring Boot启动机制 六、Spring Boot的可执行…

基于MindFormers实现GPT2模型的推理

前言 针对MindFormers的安装,可参考本专栏里的另一篇博客 安装MindFormers(昇腾910)-CSDN博客 pipeline方式 from mindformers import pipeline from mindformers import GPT2LMHeadModel, GPT2Config, GPT2Tokenizer tok GPT2Tokenizer…

Kafka安装部署+go整合

1、Kafka的安装 1、下载与安装Kafka Kafka官网https://Kafka.apache.org/downloads 所以这里推荐的版本是 : https://archive.apache.org/dist/kafka/2.7.2/kafka_2.12-2.7.2.tgz 将下载下来的安装包直接解压到一个路径下即可完成Kafka的安装,这里统一将Kafka安装…

4种防止模态框弹出时页面滚动的方法

1. Overflow:hidden — 经典方法 overflow:hidden CSS 属性是一种久经考验的防止滚动的方法。只需将一个类&#xff08;例如&#xff0c;no-scroll&#xff09;添加到 <body> 标签&#xff0c;并将其链接到带有 overflow:hidden 的 CSS 规则。 .no-scroll {overflow: h…

地表最强?免费!AI画图模型:Stable Diffusion 3 来了!

前言 Stability AI终于推出了备受期待的Stable Diffusion 3 API。经过几个月技术报告的酝酿&#xff0c;现在用户终于可以实际体验这个模型啦。 虽然完全开源的SD3模型仍在开发中&#xff0c;Stability AI已承诺对普通用户免费开放。用户现在可以通过Fireworks AI平台访问SD3 …

电脑出现错误vcomp140.dll是什么情况?vcomp140.dll丢失怎样修复?

很多小伙伴在使用电脑时会突然收到提示vcomp140.dll文件丢失导致应用程序无法打开&#xff0c;不能正常运行。这是怎么一回事呢&#xff1f;其实就是vcomp140.dll文件被破会坏导致文件被丢失。具体的解决办法其实很简单一起来看看吧。 关于vcomp140.dll文件丢失的详细分析 在计…

我在高职教STM32——EXTI之外部按键中断(2)

大家好,我是老耿,高职青椒一枚,一直从事单片机、嵌入式、物联网等课程的教学。对于高职的学生层次,同行应该都懂的,老师在课堂上教学几乎是没什么成就感的。正是如此,才有了借助CSDN平台寻求认同感和成就感的想法。在这里,我准备陆续把自己花了很多心思设计的教学课件分…

小顶堆实现查找前 K 个高频元素

小顶堆&#xff08;Min-Heap&#xff09;通常用于实现优先队列。在小顶堆中&#xff0c;根节点的值是最小的&#xff0c;因此通过从堆中移除根节点&#xff0c;你可以高效地获取当前优先级最高&#xff08;即值最小&#xff09;的元素。 优先队列的特点&#xff1a; 允许高效…

2024年【化工自动化控制仪表】考试及化工自动化控制仪表考试内容

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 化工自动化控制仪表考试参考答案及化工自动化控制仪表考试试题解析是安全生产模拟考试一点通题库老师及化工自动化控制仪表操作证已考过的学员汇总&#xff0c;相对有效帮助化工自动化控制仪表考试内容学员顺利通过考…

Struts2框架漏洞(附漏洞修复方法)

Apache Struts 2 最初被称为 WebWork 2&#xff0c;它是一个简洁的、可扩展的框架&#xff0c;可用于创建企业级Java web应用程序。设计这个框架是为了从构建、部署、到应用程序维护方面来简化整个开发周期。 Struts 2在2007年7月23日发布的第一个Struts 2漏洞S2-001。 …

dbeaver设置字体大小

1、【窗口】-【首选项】 2、【外观】-【颜色-字体】-【Dbeaver Fonts】-【Monospace font】 双击或者右边编辑都可以打开设置

【Linux】—— 僵尸进程、孤儿进程

&#x1f30f;博客主页&#xff1a;PH_modest的博客主页 &#x1f6a9;当前专栏&#xff1a;Linux跬步积累 &#x1f48c;其他专栏&#xff1a; &#x1f534; 每日一题 &#x1f7e1; C跬步积累 &#x1f7e2; C语言跬步积累 &#x1f308;座右铭&#xff1a;广积粮&#xff0…

计网学习(一)——计算机网络概述

一、计算机网络概述 Internet翻译&#xff1a;因特网&#xff08;未得到普及&#xff09;>互联网互联网基本特点&#xff1a;连通性和资源共享计算机网络&#xff1a;有若干结点和连接这些节点的链路组成网络把许多计算机连接在一起&#xff0c;而互连网则把许多网络通过路…

数学建模--智能算法之免疫算法

目录 基本原理 应用实例 代码示例 总结 免疫算法在免疫系统研究中的应用和进展是什么&#xff1f; 如何量化评估免疫算法在不同优化问题中的性能和效率&#xff1f; 免疫算法与其他智能优化算法&#xff08;如遗传算法、粒子群优化&#xff09;相比有哪些独特优势和局限性…