1、Flink实时应用场景
Flink在实时计算领域内的主要应用场景主要分为四类:
- 实时数据同步
- 流式ETL
- 实时数据分析
- 复杂事件处理
2、实时数据体系架构
实时数据体现大致分为三类场景:
- 流量类
- 业务类
- 特征类
- 在数据模型上,流量类是扁平化的宽表,业务数仓更多是基于范式的建模,特征数据是 KV 存储;
- 从数据来源区分,流量数仓的数据来源一般是日志数据,业务数仓的数据来源是业务 binlog 数据,特征数仓的数据来源则多种多样;
- 从数据量而言,流量和特征数仓都是海量数据,每天十亿级以上,而业务数仓的数据量一般每天百万到千万级;
- 从数据更新频率而言,流量数据极少更新,则业务和特征数据更新较多,流量数据一般关注时序和趋势,业务数据和特征数据关注状态变更;
- 在数据准确性上,流量数据要求较低,而业务数据和特征数据要求较高。
实时数据体系架构分了五层:接入层、存储层、计算层、平台层、应用层
接入层是数据归集,
存储层是明细数据
计算层可以是数据同步、流式ETL、也可以是关键指标秒级实时计算
平台层是对外提供查询服务、元数据、指标管理等
应用层是对业务场景提供支持,业务包括实时大屏、实时数据产品、实时OLAP等
实时数据体系架构和数据中台技术架构理念相同、处理方式类似
本次会议中探讨的数据中台技术架构,强化离线数仓方法论建设,希望实时数仓可以对标离线数仓
事件驱动型应用-定义:
事件驱动型应用是一类具有状态的应用,该应用会根据事件流中的事件触发计算、更新状态或进行外部系统操作。
事件驱动型应用常见于实时计算业务中,比如:实时推荐、金融反欺诈、实时规则预警等