大数据之FlinkCDC

news2025/1/9 14:17:39

最近在做FLinkCDC数据实时同步的数据抽取处理

目标:

 将源端系统Oracle数据库的实时数据通过FLINKCDC的形式抽取到Doris中

问题:

在抽取的过程中,如果表的数据量太大,抽取超过30张表以后,所有的任务大概运行25~30分钟以后,所有的任务的状态会从running 变为 Failed.

解决方案:

  1.第一解决方案(没有解决掉)

  当时通过排查任务发现,我们的Flink部署搭建是通过采用Flink StandAlone HA的模式,有三台服务器,当提交任务到主节点以后,发现主节点上的任务运行大概30分钟的时候,服务器的cpu利用率大概是4250%,导致任务宕机.

  所以我们采取的措施是: 将服务器升级,从原本的32核任务扩展到64核,但是升级以后,发现任务运行一段时间以后,还是变成Faild状态

第二种解决方案:(暂时解决掉,生效)

 步骤:

 1.第一次将全量数据在Dinky中通过JDBC的方式全量抽取过来

  2.在启动全量抽取数据的同时,启动FlinkCDC的增量模式,进行增量数据的抽取

具体方案如下:

  全量抽取:

create table  xxx(

    `ID` STRING ,

    //建表语句

    primary key (ID) not enforced

  )

with

  (

    'connector' = 'jdbc',

    'url' = 'jdbc:oracle:thin:@ip:1521/orcl',

    'driver' = 'oracle.jdbc.driver.OracleDriver',

    'username' = 'xxx',

    'password' = ''xxx,

    'table-name' = '表名'

  );

//Doris建表

create table xxx(

    `id` string ,

     //建表语句

    primary key (id) not enforced

  )

WITH

  (

    'connector' = 'doris',

    'fenodes' = '10.100.XXX:8030',

    'table.identifier' = '表名',

    'username' = 'root',

    'password' = 'xxx,

    'sink.properties.format' = 'json',

    'sink.properties.read_json_by_line' = 'true',

    'sink.label-prefix' = '5410923'

);

insert into  xxx

select * from xxxx;

2.增量抽取

  

create table  xxxx (
    `ID` STRING ,
xxxx
    primary key (`ID`) not enforced
  )
with
  (
    'connector' = 'oracle-cdc',
    'hostname' = 'xxx',
    'port' = '1521',
    'username' = 'xxx',
    'password' = 'Log#xxx',
    'database-name' = 'ORCL',
    'schema-name' = 'xxxx',
    'table-name' = 'xxxx',
    #增量模式
    'scan.startup.mode' = 'latest-offset',    
    'debezium.log.mining.strategy' = 'online_catalog',
    'scan.incremental.snapshot.chunk.key-column' = 'ID',
    'debezium.errors.max.retries' = '3',
    'debezium.log.mining.continuous.mine' = 'true',
    'debezium.database.tablename.case.insensitive' = 'false'
  );

create table xxxx (
    `id` string ,

    primary key (`id`) not enforced
  )
WITH
  (
    #同全量语句
);

结果:


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1872382.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RAG开发中常见的12个痛点及解决方案

受到 Barnett 等人论文《构建检索增强生成系统的七大挑战》启发,本文将探讨论文中提及的七大挑战及在开发 RAG(检索增强生成)流程中常遇到的五个额外难题。更为重要的是,我们将深入讨论解决这些 RAG 难题的策略,以便我…

综合IT运维管理解决方案

综合IT运维管理解决方案 在信息化和数字化高速发展的时代,企业的IT运维管理已经成为保障业务连续性和提升运营效率的关键环节。高效的IT运维管理不仅能够降低运维成本,还能提升服务质量和用户满意度。本文将详细介绍综合IT运维管理解决方案,…

照明物联网:基于网关的智能照明云监控系统解决方案

智能照明系统就是利用物联网技术,将同一空间的照明、空调、新风、排风等系统共同接入物联网平台,实现了“设备互联、数据互通”的智慧物联能力。照明数据、环境监测数据通过网关上传云端,在云端进行统计分析并将结果通过各种终端共享&#xf…

【资源】太绝了!整整16本Python必看书籍详细讲解,适合零基础小白,高清电子版PDF开放下载,带你从入门到入土~

小编为初学Python的朋友们汇总了16本零基础入门书籍,包括Python三剑客等,都是在编程届多年畅销的书籍,也是众多从业者的选择,全文详细介绍了书籍主要内容,有需要的宝子根据自身情况自取 【教程领取方式在文末&#xff…

江科大笔记—FLASH闪存

FLASH闪存 程序现象: 1、读写内部FLASH 这个代码的目的,就是利用内部flash程序存储器的剩余空间,来存储一些掉电不丢失的参数。所以这里的程序是按下K1变换一下测试数据,然后存储到内部FLASH,按下K2把所有参数清0&…

理解MySQL核心技术:外键的概念作用和应用实例

引言 在数据库管理系统(DBMS)中,外键(Foreign Key)是维持数据一致性和实现数据完整性的重要工具。本文将详细介绍MySQL外键的基本概念、作用,以及相关的操作指南和应用实例,帮助读者掌握并灵活…

module java.base does not “opens java.lang“ to unnamed module

目录 原因:解决方法:方法一:方法二:方法三: SpringBoot项目运行报如下错误 Caused by: java.lang.reflect.InaccessibleObjectException: Unable to make protected final java.lang.Class java.lang.ClassLoader.def…

兴趣爱好广泛的人,如何填报高考志愿选专业?

一般来说,高考填报志愿都要以自己的兴趣为基础。但是对于有一些比较优秀的同学来说,自己的兴趣可能是非常广,涉及到各个专业方方面面。有些同学琴棋书画样样精通,对于很多的专业,他们都充满了兴趣,而且兴趣…

【机器学习】高斯混合模型(Gaussian Mixture Models, GMM)深度解析

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 高斯混合模型(Gaussian Mixture Models, GMM)深度解析引…

模拟实现string【C++】

文章目录 全部的实现代码放在了文章末尾准备工作包含头文件定义命名空间和类类的成员变量 构造函数默认构造拷贝构造 重载赋值拷贝函数析构函数迭代器和获取迭代器迭代器获取迭代器 resize【调整size】图解 reserve【调整capacity】empty【判断串是否为空】operator[]appendpus…

Stablediffusion SD最好用的图片放大方法 无损4K,8K放大 TILED

Tiled Diffusion Tiled VAE ControlNet Tile模型 只有图生图才能使用Tiled放大倍数。文生图没有放大倍数选项但是可以使用覆盖图像尺寸直接更改尺寸。(文生图不容易控制,不如图生图) 【采用接力的方法进行放大:先文生图高清修复…

ONLYOFFICE 8.1版本桌面编辑器测评:重塑办公效率的巅峰之作

在数字化办公日益普及的今天,一款高效、便捷且功能强大的桌面编辑器成为了职场人士不可或缺的工具。ONLYOFFICE 8.1版本桌面编辑器凭借其卓越的性能和丰富的功能,成功吸引了众多用户的目光。今天,我们将对ONLYOFFICE 8.1版本桌面编辑器进行全…

Ansys Zemax|在设计抬头显示器(HUD)时需要使用哪些工具?

附件下载 联系工作人员获取附件 汽车抬头显示器或汽车平视显示器,也被称为HUD,是在汽车中显示数据的透明显示器,不需要用户低头就能看到他们需要的重要资讯。这个名字的由来是由于该技术能够让飞行员在头部“向上”并向前看的情况下查看信息…

现如今软考通过率真的很低吗?

刚开始机考,10个人中有3个人表示想要尝试考试,这样通过率能高吗?就拿PMP证书来说吧,一下子就得花费三千多块,有几个人会轻易去尝试呢? 说到底,考试的难度是一个方面,考试的成本低是…

基于边缘智能的沉浸式元宇宙关键技术与展望

源自:大数据 作者:王智 夏树涛 毛睿 注:若出现无法显示完全的情况,可 V 搜索“人工智能技术与咨询”查看完整文章 摘 要 近年来,360度视频、增强现实、虚拟现实等应用蓬勃发展,并逐渐形成元宇宙沉浸…

大模型推理知识总结

一、大模型推理概念 大多数流行的only-decode LLM(例如 GPT-3)都是针对因果建模目标进行预训练的,本质上是作为下一个词预测器。这些 LLM 将一系列tokens作为输入,并自回归生成后续tokens,直到满足停止条件&#xff0…

瑜伽健身舞蹈教育辅导班培训约课扣课消课课时项目排课管理系统

瑜伽健身舞蹈教育辅导班培训约课扣课消课课时项目排课管理系统 🌟 引言:为什么我们需要一个高效的管理系统? 在瑜伽、健身、舞蹈等教育辅导班培训领域,课程的安排、学员的约课、扣课以及消课等管理事务繁琐且重要。传统的人工管理…

Windows kubectl终端日志聚合(wsl+ubuntu+cmder+kubetail)

Windows kubectl终端日志聚合 一、kubectl终端日志聚合二、windows安装ubuntu子系统1. 启用wsl支持2. 安装所选的 Linux 分发版 三、ubuntu安装kubetail四、配置cmder五、使用 一、kubectl终端日志聚合 k8s在实际部署时,一般都会采用多pod方式,这种情况下…

gin中间件

在web应用服务中,完整的业务处理在技术上包含客户端操作,服务端处理,返回处理结果给客户端三个步骤。但是在在更负责的业务和需求场景。一个完整的系统可能要包含鉴权认证,权限管理,安全检查,日志记录等多维…

Python输入与输出基础

Python输入与输出基础 引言 Python是一种非常直观且功能强大的编程语言,它允许用户轻松地处理输入和输出操作。无论是从用户那里获取数据,还是将结果展示给用户,Python都提供了简单易用的函数和方法。 一、输入数据 在Python中&#xff0c…