FFA 2023 明日开幕,Flink 智能诊断、小红书流批一体实践精彩来袭

news2024/11/24 21:04:47

近年来,流批一体的技术思想势头火热,即“将批处理和流处理相结合,实现更好的数据处理能力”,已成功从理论层面走进现实世界。Flink 是一款高吞吐量、低延迟的流处理引擎,具备统一接口、高性能、低延迟、容错性和可扩展性等优势,使其成为流批一体场景下的首选。

Flink 作为全球范围内被广泛使用的开源大数据计算引擎,吸引全球多家企业的应用落地。Flink Forward Asia 2023 峰会(以下简称 FFA)将于 12 月 8 - 9 日在北京望京凯悦酒店举办。作为国内规模最大的开源顶级项目技术峰会之一,FFA 致力于集结领先的行业实践与技术动态。

在本次大会上,小红书实时计算引擎团队负责人唐云、小红书数据引擎开发工程师陈宇将分别带来《小红书在流批一体与近实时数仓上的实践探索之路》《我的 Flink 作业出了什么问题?如何做平台侧的智能诊断》的主题分享。

小红书如何通过引入 Flink 提升开发效率,如何真正统一流批处理架构?Flink 作业运行时会遇到哪些瓶颈点,我们在开源社区做了哪些工作进行智能诊断?尽在本次大会揭晓!

延续 FFA 惯例,峰会所有议题均为开放征集而来,并由专业的议题评选委员会评分筛选,确保内容代表行业领先水平,为开发者们输出更加优质的干货,并为各企业提供可借鉴的实践经验。

议题介绍

小红书在流批一体与近实时数仓上的实践探索之路

12 月 8 日  14:40-15:20 「流批一体」专题

唐云 | 小红书实时计算引擎团队负责人

Apache Flink committer

摘要:

一、Flink 作为流批一体统一接口的引擎(Flink SQL 的统一以及 DataStream API 的统一),小红书引入 Flink 在搜索推荐相关索引数据生成上,利用一套接口完成流式和批示加工的统一,大大提升了开发效率。在 Flink Batch 上积极升级版本 1.17,同时引入 Apache Celeborn,并解决了 Celeborn 在 K8S 环境部署的方式和稳定性问题,提升了 Flink Batch 的性能、稳定性与效能。

二、与小红书数据湖团队合作,利用 Flink CDC 的能力,将 ODS 层实时化,从而提升离线数仓的时效性。

三、在离线数仓的 DWD 层进一步推进近实时化,探索了数据湖 lookup join、left join、partial update 等多种方式加工的差异与特点,实现 mini-Batch join/agg 等机制来尽量降低成本,实现了 Checkpoint 的 state schema evolution 来优化数据的可迁移性,并从理论上分析了离线数仓近实时化背后的核心技术难点问题,以及根据探索经验看好基于 IVM 方式进行增量数仓加工的方式,来打破 lambda 架构,真正统一流批处理架构。

我的 Flink 作业出了什么问题?如何做平台侧的智能诊断

12 月 9 日 16:00-16:40 「生产实践」专题

陈宇 | 小红书数据引擎开发工程

Apache Flink Contributor

摘要:

一、Flink 作业运行的基础原理以及常见的瓶颈点:处理数据慢、Checkpoint 慢、恢复慢等问题。

二、我们在 Flink 开源社区做了哪些工作帮助进行作业诊断:

2.1 一站式 JM/TM 进程级别火焰图生成 FLIP-375

2.2 Flink 调试交互上的若干优化 FLINK-29995

2.3 流图展开,方便 debug 作业流图信息 FLINK-33230

三、在此基础上,我们在小红书内部做了哪些平台侧工作:

3.1 智能前置检查:SQL 语法检测、connetor 检测

3.2 状态兼容性检查: Hook Task 部署流程,检测 SQL/JAR 任务改动对状态恢 复的影响

3.3 智能诊断:反压堆栈检测、延迟检测、数据倾斜检测、外部系统RT检测、资源使用率检测

图片

Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会,作为最受 Apache Flink 社区开发者期盼的年度峰会之一,Flink Forward Asia 2023 将持续集结行业最佳实践以及 Flink 最新技术动态,是中国 Flink 开发者和使用者最不可错过的的技术盛宴。

‍FFA 2023 官网:‍Flink Forward 峰会 - Flink Forward Asia 2023,欢迎前往大会官网预约主会场直播。‍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1292577.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软著项目推荐 深度学习验证码识别 - 机器视觉 python opencv

文章目录 0 前言1 项目简介2 验证码识别步骤2.1 灰度处理&二值化2.2 去除边框2.3 图像降噪2.4 字符切割2.5 识别 3 基于tensorflow的验证码识别3.1 数据集3.2 基于tf的神经网络训练代码 4 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 &#x…

@德人合科技 | 数据透明加密防泄密系统\文件文档加密\设计图纸加密|源代码加密防泄密软件系统,——防止内部办公终端核心文件数据/资料外泄!

一款专业的数据防泄密管理系统,它采用了多种加密模式,包括透明加密、半透明加密和落地加密等,可以有效地保护企业的核心数据安全。 PC端访问地址: https://isite.baidu.com/site/wjz012xr/2eae091d-1b97-4276-90bc-6757c5dfedee …

AWR1642 boost开发板支持的TI参考设计

打开radar_toolbox_1_30_00_05\source\ti\examples\examples_overview,通过输入“1642”查找AWR1642 BOOST支持的参考设计,通过筛选,支持AWR1642 BOOST的参考设计如下: 挑选出两个参考设计上手,一个是“nonos_oob_16xx",不带OS;另一个是”short range radar“,比较…

单月创作15个10w+作品,内容创作迎来新浪潮

据11月16日腾讯发布的Q3财报显示,本季度视频号总播放量同比增长超过50%,原创内容播放量增长强劲,视频号作为微信生态内最具增长潜力的产品之一,已然成为腾讯营收新动力。 为帮助大家更好地洞察视频号平台的内容趋势及创作风向&…

矿山数字孪生-只需要这几步就能快速构建智慧矿山管理系统

在万物互联、智慧协同的技术浪潮下,矿山日常管理及运营中使用到的智慧化平台越来越丰富,而各个管理子系统间往往独立,相互为数据孤岛。智慧矿山管理平台就是将各个孤岛中的数据及功能汇集起来,形成统一的、联动的管理门户。 智慧…

负债127万美元的【后羿国际】申请1亿美元纳斯达克IPO上市

来源:猛兽财经 作者:猛兽财经 猛兽财经获悉,总部位于深圳的后羿国际(HOUYI DIGITAL INTERNET INDUSTRY TECHNOLOGY CO., LTD)近期已向美国证券交易委员会(SEC)提交招股书,申请在纳斯…

LabVIEW使用单板RIO开发远程监控电源信号

LabVIEW使用单板RIO开发远程监控电源信号 设计和构建用于智能电网的本地功耗分析系统,主要服务于领先的电力监控设备设计者和制造商。随着智能电网投资的增加,对于能够有效处理替代电源(如太阳能和风能)间歇性功率水平的技术需求…

Swift 中 User Defaults 的读取和写入

文章目录 前言介绍 User Defaults共享 User DefaultsUser Defaults 存储数据类型响应更改监控 User Defaults 更改覆盖User Defaults 设置考虑的替代方案Keychain 用于安全性用于跨平台的 CloudKit 结论 前言 User Defaults 是 Swift 应用程序存储在应用启动之间保持的首选项的…

如何在 PyQt 中实现异步数据库请求

需求 开发软件的时候不可避免要和数据库发生交互,但是有些 SQL 请求非常耗时,如果在主线程中发送请求,可能会造成界面卡顿。这篇博客将会介绍一种让数据库请求变得和前端的 ajax 请求一样简单,且不会阻塞界面的异步请求方法。 实…

kepler.gl部署在线说明文档

1 概述 1.1 介绍 1、Kepler.gl 是一个强大的开源地理空间分析工具,用于大规模数据集的可视化。它由 Uber 的数据可视化团队开发,并且是基于 Web 技术构建的。Kepler.gl 涉及到以下几个主要技术领域: WebGL: Kepler.gl 通过 WebGL 进行渲染…

jetbrains 新编辑器 Fleet 修改主题颜色

当前Fleet主题只有五种 分别是 1、Dark Purple 2、Fleet Dark 3、Fleet Light 4、Gray 5、Sync with OS 其实这几种都不太好看 对眼睛不友好 可以选择一个白色主题进行自定义编辑 由于参数太多我直接全局替换把白色White换成了Yellow 70 为啥是Yellow 70? 把…

推荐一个可以记录历史进价的进销存软件?

“我是卖数码产品的,数码产品价格变动是比较大的,每次采购时候我都会多家对比价格,再决定在哪个厂家进货。所以基本上我每次进价价格都不一样,但是之前的询价情况又很难一一单独记录,让我采购的时候很被动。” “准备…

C++初学教程三

目录 一、运算符 一、自增自减运算符 二、位运算符 三、关系运算符 注意事项 四、条件运算符 注意事项 五、逻辑运算符 注意事项: 六、逗号运算符 概述 注意事项: 七、小结 运算符优先级和结合性一览表 一、运算符 一、自增自减运算符 运…

「Verilog学习笔记」根据状态转移写状态机-二段式

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点,刷题网站用的是牛客网 和三段式相比,就是将输出块和次态切换块合并。 timescale 1ns/1nsmodule fsm2(input wire clk ,input wire rst ,input wire data ,output reg flag );//****…

Linux Component概述和高通V4l2驱动模型

1 Linux为什么要引入Component框架? 为了让subsystem按照一定顺序初始化设备才提出来的。 subsystem中由很多设备模块,内核加载这些模块的时间不确定。子系统内有些模块是需要依赖其它模块先初始化才能进行自己初始化工作(例如v4l2 subdev和v4l2 video …

校园后勤数字化转型要怎么做?的修工单管理系统的功能强大吗?

2023年11月27日-29日,由中国教育后勤协会主办,广东省高校后勤协会、物业管理专业委员会、能源管理专业委员会、安全管理专业委员会、中小学后勤分会等协办的第六届中国教育后勤展览会在深圳圆满落幕。 广东工程宝科技有限公司以其创新的“的修工单管理系…

家用保险柜什么牌子好?

家用保险柜的品牌有很多,其中比较知名的有虎牌、得力、永发、思锐、迪堡、艾谱、全能、杰宝-大王、金虎、花都、飞云、威盾斯等等。这些品牌都有各自的特点和优势,例如虎牌品牌是来自于河北,每年生产60多台,质量可靠;得…

国内零代码链接器有哪些?

什么是零代码链接器? 零代码链接器,也是属于零代码集成领域,代表一种可以通过不编写代码就能让不同系统产生数据互通的技术,主要通过授权API接口暴露数据,让不同系统间的数据可以在内部互相调用,实现自动化…

【C++11并发】Atomic 笔记

简介 用atomic定义的变量,支持原子操作,即要么全部完成操作,要不全部没有完成,我们是不可能看到中间状态。一般在多线程程序中,可以用atomic来完成数据同步。 标准库为我们主要提供了四类工具 atomic类模板操作atomi…

ZStack Cloud云平台服务中国化学工程集团高性能数据库

中国化学工程通过ZStack Cloud云平台构建云基础设施,并为其提供高性能、高可用的云主机、云存储和云网络服务;并通过ZStack Cloud云平台弹性裸金属能力ZStack RDS数据库云平台,满足高性能数据库和多种数据库统一管理的需求;此外&a…