基于梧桐数据库的实时数据分析解决方案

news2024/11/13 3:38:01

一、背景

在当今信息时代,数据的价值不言而喻。然而,处理海量数据并将其转化为有意义的洞察力是一项艰巨的任务。传统的数据处理方法已经无法满足我们日益增长的需求。为了满足这一挑战,实时数据处理系统应运而生。 ​ 实时数据处理系统是一种处理和分析实时数据流的技术。它可以同时进行数据的收集、转换、过滤和聚合等处理过程。与传统的数据处理方式相比,实时数据处理系统能够以接近实时的速度处理和分析数据。

二、实时数据处理系统的特点

  • 高速处理:实时数据处理系统可以在毫秒或亚秒级别内处理数据。
  • 流式处理:系统能够以流式方式接收和处理连续产生的数据。
  • 可扩展性:系统可以轻松地扩展以处理大数据量和高并发。
  • 容错性:系统能够在节点故障或其他异常情况下保持稳定运行。
  • 智能分析:系统能够实时分析数据并提供有关业务趋势、用户行为等方面的洞察力。

场景:主要应对海量数据实时查询场景,弥补传统hadoop或离线数仓在该场景下的不足,时延可以做到秒级,提供实时场景下的即席查询的能力或实时跟离线数据关联分析的能力,毫秒或亚秒级或十万级以上并发等更高的时延要求可能不太适合。

三、实时数据处理面临的挑战

传统数据平台的数据处理流程一般是这样的。首先,从业务系统 CRMERP 或者其他数据源把这些业务数据收集过来,然后经过离线数据 ETL 对数据进行数据清洗、数据加工。在这个过程中会涉及数据建模和分层,最终会把加工后的数据提供给 BI 工具,或者写到数据库并推到一个在线服务系统,供用户进行访问,这些用户包括客户、运营人员或管理团队等等。 ​ 目前主要采用传统 LambdaKappa 架构。以 Lambda 架构的实现方法为例,Lambda 以传统的离线数仓为主,然后引入了实时数据的处理链路。T+1 数据仍然是走传统离线数仓链路,然后再加上一个实时的数据链路,把这些实时数据和离线数据汇总到一起,然后再通过一个服务层提供数据服务,对外提供的服务可能是点查询,也可能是做复杂分析。

其中,kappa架构的优缺点分析,差异化说明梧桐Omega架构对比两种常用架构的优势对比,见下图:

omega架构主要优势是用更少的组件和更简单的链路实现批流一体的处理能力,减少大数据组件建设维护成本、提升业务处理效率。主要价值特点如下:

全实时:该架构能够支持实时流处理、实时交互式查询、微批及离线批处理,满足固定需求和灵活需求,实现全实时数据处理,让用户快速响应市场和业务变化,并提供即时的数据分析和决策支持。

数据一致Omega架构巧妙的设计思路结合梧桐数据库极致产品性能,保证了T+0实时数据区,和T+x离线数据区的数据一致性,让数据不同场景的数据应用都能得到一致的查询分析结果。

入库快Omega架构设计结合流计算引擎实现了高效的数据摄取,能够快速接收和处理来自各种数据源的大量数据。通过偶数在自研存储上的不断优化,Omega架构加速数据的写入速度,实现快速入库。

简化架构:通过整合不同的数据处理技术,Omega架构提供了一个统一的数据平台,相比传统数据架构数十个组件配合,大大简化了整个数据处理流程,减少了系统的复杂性,从而降低了维护成本和操作难度。

降低成本:通过减少对多个独立系统的依赖,Omega架构有助于降低总体拥有成本(Total Cost of Ownership)

离线链路用 Hive/Spark,实时用 Flink 。但在实际的落地中,如果需要引入实时查询,可能要再加上 ClickHouse/Drill/Presto ;如果需要做数据的离线归档,还需要 Hive ;为了满足一些高并发点查询需求,还要再引入了 HBaseMySQL 。引入这么多产品组件,本质原因还是缺少一个在并发、性能和开放性兼顾的产品。

因此 Lambda 架构并没有从源头上解决传统离线数仓的问题,而是在传统离线数仓上加了一条链路,让整个系统变得更加复杂。数据可能会存两份或者存多份,实时链路和离线链路数据也不统一。除此之外,架构维护复杂,学习和开发成本也非常高。

四、基于梧桐数据库的实时数据处理

为了实现实时数据处理,很多企业不惜选择冗长的数据处理链路,造成多份数据和多个计算引擎烟囱林立。基于梧桐数据库的 Omega 架构是基于实时数据管理和数据分析的框架,它涵盖了从数据收集、存储、处理到分析和应用的全过程。利用梧桐数据库实时数仓的优势,Omega 超越 LambdaKappa 架构的局限,更强调对实时能力的边界拓展,兼容传统数据湖和数据仓库,主张对全部数据(结构化和非机构化数据)进行实时处理,以满足企业的实时企业由离线数据分析逐步转向实时数据分析需求。

该架构通过着陆层、整合层和交付层三个数据层次,以及元数据和业务数据两个维度去进行架构的设计,进而实现实时数据处理和传统离线数据处理。结合如下的架构图,概括 Omega 的实时数据架构的实现方式和特点。

  1. 流计算引擎可以实时 ETL ,也可以实时做汇聚后结果输出到湖仓
  2. 湖仓平台每个数据层次都可以分为 T+0 实时数据和 T+x 批量数据。
  3. 每个数据层次的 T+0 数据和 T+x 数据可以根据业务需求(尤其是对历史数据的分析需求)采取不同的数据存储更新策略(增量追加表、变更日志表 、拉链表)
  4. 每个数据层次的 T+x 数据可以通过定时调度计划或者 SQL 视图方式算从前一层 T+x 得到;每个数据层次的 T+0 可以通过实时 Flink 计算从前一层 T+0 得到。
  5. 数据应用可以直接访问着陆数据层、明细数据层、汇总数据层和交付数据层中的任意一层。

Omega 架构无需额外引入 MySQLHBase 等组件,极大简化了数据架构,实现了湖仓市一体化(数据湖、数仓、集市一体化)。实现了全实时 Omega 架构的湖仓一体,我们也称之为实时湖仓一体。该架构兼容了离线和实时处理的数据架构,在实现层面,可以细分为时间驱动的微批架构、事件驱动架构、全场景架构。

注:基于梧桐数据库的实时处理不依赖redis,主要应对于OLAP场景使用,比如分钟级、小时级指标计算,基于实时数据的即席查询,实时场景下的高并发查询等(目前并发因magma存储性能受限,建议再并发小于10万的场景下使用)

梧桐数据库的实时处理架构:

五、解决方案应用场景

  1. 基于关系型数据库(oraclemysql等传统关系型数据库)的CDC实时数据,通过同步日志的方式以梧桐数据库作为目标库进行更新还原,实现库内的实时按需查询,可以做到秒级时延,数据量无限制。

  2. 基于海量日志流数据,进行微批处理,可以满足分钟级到小时计的T+0计算,满足更高的业务时延要求。

    注:具体应用场景依赖特定行业落地需求,目前积累相对较少,目前解决方案主要解决技术问题,业务问题需要跟进客户场景化需求进行分析,跟当前技术条件进行匹配落地。

项目背景:随着金融 APP业务迅猛,对数据处理实时需求的升级,业务实时性成为了提升金融竞争力的核心手段。

业务需求:

  • 运营层面 :实时业务变化,实时营销效果,当日分时业务趋势分析等 ;
  • C端用户层面 :搜索推荐排序,实时行为等特征变量的生产,给用户推荐 更精准的内容 ;风控层面 :实时风险识别、反欺诈、异常交易等,都是大量应用实时数据 的场景 ;
  • 生产层面:实时监控系统的稳定性和健康状况等。

解决方案:

提供新一代Omega 全实时架构,同时满足实时流处理、实时按需 分析和离线分析。 Omega 架构由流数据处理系统和实时数仓构成。实现多个源库汇集后的跨库查询,比如一个保险用户的权益视图;也可实现按任意时间粒度的分析查询,比如最近5分钟交易量、最近10分钟的信用卡开卡总量等等。任意时间点的历史数据都可以通过T+0快照得到,实现离线数据查询也可以在实时数仓中完成。

从用户角度,实时数据处理在营销、风控、运营和物联网等不同细分场景中都有应用。举例如下: 实时营销:实时事件营销、实时产品推荐、实时画像 实时风控:实时授信申请、实时反欺诈、实时舆情监控等 实时运营:实时业务统计、实时监控、动态定价 实时 IoT:设备质量预测、设备异常检测、产品缺陷检测

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2238094.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

javascript实现国密sm4算法(支持微信小程序)

概述: 本人前端需要实现sm4计算的功能,最好是能做到分多次计算。 本文所写的代码在现有sm4的C代码,反复测试对比计算过程参数,成功改造成sm4的javascript代码,并成功验证好分多次计算sm4数据 测试平台: …

jmeter常用配置元件介绍总结之jsr223执行python脚本

系列文章目录 安装jmeter jmeter常用配置元件介绍总结之jsr223执行python脚本 1.安装jsr223执行python插件2.基础语法介绍2.1.log2.2.parameters向脚本传参与接参2.3.vars2.4.props2.5.prev 3.常用脚本3.1.MD5加密单个参数:3.2.MD5加密多个参数:3.3.URLe…

【MongoDB】MongoDB的聚合(Aggregate、Map Reduce)与管道(Pipline) 及索引详解(附详细案例)

文章目录 MongoDB的聚合操作(Aggregate)MongoDB的管道(Pipline操作)MongoDB的聚合(Map Reduce)MongoDB的索引 更多相关内容可查看 MongoDB的聚合操作(Aggregate) 简单理解&#xff…

快速了解SpringBoot 统一功能处理

拦截器 什么是拦截器: 拦截器是Spring框架提供的重要功能之一,主要进行拦截用户请求,在指定方法前后,根据业务需求,执行预先设定的代码。 也就是说,允许开发⼈员提前预定义⼀些逻辑,在⽤⼾的请求响应前后执⾏.也可以…

百兆网络变压器在无人机系统起到什么作用

华强盛电子 导读: 百兆网络变压器(通常指的是100M Ethernet Transformer)在无人机系统中扮演着重要的角色,尤其是在网络通信和电气隔离方面 1.电气隔离 网络变压器通过提供电气隔离,帮助保护无人机的电子设备免受电流…

在双显示器环境中利用Sunshine与Moonlight实现游戏串流的同时与电脑其他任务互不干扰

我和老婆经常会同时需要操作家里的电脑,在周末老婆有时要用电脑加班上网办公,而我想在难得的周末好好地Game一下(在客厅用电视机或者平板串流),但是电脑只有一个,以往我一直都是把电脑让给老婆,…

【Vue】Vue3.0(十七)Vue 3.0中Pinia的深度使用指南(基于setup语法糖)

上篇文章: 【Vue】Vue3.0(十一)Vue 3.0 中 computed 计算属性概念、使用及示例 🏡作者主页:点击! 🤖Vue专栏:点击! ⏰️创作时间:2024年11月10日15点23分 文章…

深度学习基础练习:从pytorch API出发复现LSTM与LSTMP

2024/11/5-2024/11/7: 前置知识: [译] 理解 LSTM(Long Short-Term Memory, LSTM) 网络 - wangduo - 博客园 【官方双语】LSTM(长短期记忆神经网络)StatQuest_哔哩哔哩_bilibili 大部分思路来自于: PyTorch LSTM和LSTMP…

【芯智雲城】Sigmastar星宸科技图传编/解码方案

一、图传技术简介 图传是指将图像或媒体内容从一个设备传输到另外一个设备的技术,传输的媒介可以是无线电波、光纤、以太网等。图传系统主要由图像采集设备、传输设备和接收设备组成,图像采集设备负责采集实时图像,传输设备将采集到的图像转…

JavaFX史上最全教程 - Shape - JavaFX矩形椭圆

avaFX Shape类定义了常见的形状,如线,矩形,圆,Arc,CubicCurve,Ellipse和QuadCurve。 在场景图上绘制矩形需要宽度,高度和左上角的(x,y)位置。 要在JavaFX中…

【Windows修改Docker Desktop(WSL2)内存分配大小】

记录一下遇到使用Docker Desktop占用内存居高不下的问题 自从使用了Docker Desktop,电脑基本每天都需要重启,内存完全不够用,从16g扩展到24,然后到40G,还是不够用;打开Docker Desktop 运行时间一长&#x…

使用QLoRA和自定义数据集微调大模型

大家好,大语言模型(LLMs)对自然语言处理(NLP)的影响是非常深远的,不仅提高了任务效率,还催生出新能力,推动了模型架构和训练方法的创新。尽管如此强大,但LLMs也有局限&am…

Mac M1 Docker创建Rocketmq集群并接入Springboot项目

文章目录 前言Docker创建rocketmq集群创建rocketmq目录创建docker-compose.yml新增broker.conf文件启动容器 Springboot 接入 rocketmq配置maven依赖修改appplication.yml新增消息生产者新增消费者测试发送消息 总结 前言 最近公司给配置了一台mac,正好有时间给装一…

golang分布式缓存项目 Day2

注:该项目原作者:https://geektutu.com/post/geecache-day1.html。本文旨在记录本人做该项目时的一些疑惑解答以及部分的测试样例以便于本人复习。 支持并发读写 接下来我们使用 sync.Mutex 封装 LRU 的几个方法,使之支持并发的读写。在这之…

abap 可配置通用报表字段级日志监控

文章目录 1.功能需求描述1.1 功能1.2 效果展示2.数据库表解释2.1 表介绍3.数据库表及字段3.1.应用日志数据库抬头表:ZLOG_TAB_H3.2.应用日志数据库明细表:ZLOG_TAB_P3.3.应用日志维护字段配置表:ZLOG_TAB_F4.日志封装类5.代码6.调用方式代码7.调用案例程序demo1.功能需求描述 …

材质(三)——材质参数集和材质函数

a.之前是针对材质在材质蓝图里面 类似 于静态更改的方法, b.材质参数集 ,对外开放参数,可以手动更改,已然是一种封闭的静态更改方法 c.那么材质函数,将参数集对外开放,可以在关卡蓝图 通过程序 算法 去动…

随机采样之接受拒绝采样

之前提到的逆变换采样(Inverse Transform Sampling)是一种生成随机样本的方法,它利用累积分布函数(CDF)的逆函数来生成具有特定分布的随机变量。以下是逆变换采样的缺点: 计算复杂性:对于某些分…

软件设计师:排序算法总结

一、直接插入 排序方式:从第一个数开始,拿两个数比较,把后面一位跟前面的数比较,把较小的数放在前面一位 二、希尔 排序方式:按“增量序列(步长)”分组比较,组内元素比较交换 假设…

信息安全工程师(78)网络安全应急响应技术与常见工具

前言 网络安全应急响应是指为应对网络安全事件,相关人员或组织机构对网络安全事件进行监测、预警、分析、响应和恢复等工作。 一、网络安全应急响应技术 网络安全应急响应组织 构成:网络安全应急响应组织主要由应急领导组和应急技术支撑组构成。领导组负…

Kafka 的一些问题,夺命15连问

kafka-中的组成员 kafka四大核心 生产者API 允许应用程序发布记录流至一个或者多个kafka的主题(topics)。 消费者API 允许应用程序订阅一个或者多个主题,并处理这些主题接收到的记录流 StreamsAPI 允许应用程序充当流处理器(s…