Apache Flink ML 2.2.0 发布公告

news2024/9/23 17:13:01

来源 | Apache Flink 官方博客

翻译 | 林东

Apache Flink 社区很荣幸地宣布 Apache Flink ML 2.2.0 版本正式发布!本次发布的版本重点添加了 Flink ML 中的特征工程算法。现在 Flink ML 包含了 33 个开箱可用的特征工程算法,可以支持很多常见的特征工程任务。

随着这些算法的添加,我们相信 Flink ML 已经准备好用于需要特征工程的生产作业,例如预处理离线和在线机器学习任务的输入数据。

我们鼓励您下载该版本 [1] 并通过 Flink 邮件列表 [2] 或 JIRA [3] 与社区分享您的反馈!我们希望您喜欢新版本,并且我们期待了解您的使用体验。

重要特性

1. 引入在线推理服务需要的接口和基础设施

在机器学习中,模型训练的主要目标之一是将已训练好的模型部署并支持在线推理。在线推理服务需要以毫秒级延迟响应传入请求。之前发布的 Flink ML 算子仅支持使用 Flink 流处理引擎进行近线推理,延迟性能无法满足在线推理的需要。

通过使用 FLIP-289 [4] 所提供的接口,Flink ML 现在支持用户从由 Estimator 生成的模型数据加载ModelServable。这个 ModelServable 可以被复制和部署在多个模型推理服务器上,执行大规模分布式的在线模型推理。并且,ModelServable 不依赖 Flink 的流处理引擎,它还可以作为 Java UDF 集成到其他服务或处理框架中,读取由 Flink ML 生成的模型数据来进行离线或在线模型推理。

作为展示,我们添加了 LogisticRegressionModelServable 算子,支持 LogisticRegression 在线推理。我们将在接下来的 Flink ML 发布中添加更多 Servable 算子,让 Flink ML 训练得到的模型数据能在更广泛的场景中产生价值。

2. 添加了 27 个特征工程算法

此次 Flink ML 版本显著扩大了特征工程算法的覆盖范围,将算法数量从 6 增加到 33。Flink ML 现在覆盖了 Spark ML 提供的 33 个特征工程算法中的 28 个,使其成为更全面的特征工程任务库。

特征工程是现代 AI 基础设施的重要组成部分。它提供的数据预处理能力,不仅适用于传统机器学习算法 (e.g. GBT),也适用于越来越流行的深度学习算法 (e.g. Transformer)。通过添加这些算法,我们希望 Flink ML 能在更广泛的机器学习任务中落地产生价值。

所有特征工程算法都可以通过 Flink ML 页面左侧的下拉列表 [5] 访问。我们为每个算法提供了 Python 和 Java 示例,以演示如何使用它们。

3. 添加了两个经过生产作业验证的在线学习算法

通过使用 Flink 强大的流处理能力,Flink ML 能更好地进行在线学习和频繁更新模型数据。为了让这个优势落地并产生价值,我们在 Flink ML 中实现了两个在线机器学习算法并应用于阿里集团内部的智能运维平台上。该算法能显著降低智能运维平台的模型更新延迟以及运维成本基于 Flink ML 搭建的智能运维算法服‍务及应用 [6]

该智能运维任务使用在线聚类算法来分类和检测日志中的错误信息,以帮助 SRE 和用户更高效地诊断问题。通过使用 OnlineStandardScaler 和 AgglomerativeClustering 算子进行在线数据预处理和在线聚类,我们简化了该任务的基础架构,并能更频繁地更新模型。我们在去年的 Flink Forward Asia [7] 大会上展示了这项工作,并且即将把相关工作集成到开源项目 SREWorks [8]

通过这些在线算法,Flink ML 支持机器学习任务持续使用新数据更新模型,从而提升推理服务的时效性和准确率。这个能力对于能接触到最新用户行为数据的机器学习任务是相当有价值的。

升级说明

这个版本与 Flink ML 2.1 完全向后兼容。用户应该可以升级到 Flink ML 2.2.0,而不必担心任何不兼容性或破坏性变化。

发布说明和相关资源

用户可以查看发布说明 [9] 以获得详细的修改和新功能列表。

二进制文件和源代码可以从 Flink 官网的下载页面 [1] 获得,最新的 Flink ML Python 发布可以从 PyPI [10] 获得。

贡献者列表

Apache Flink 社区感谢对此版本做出贡献的每一位贡献者:

Zhipeng Zhang, Dong Lin, Fan Hong, JiangXin, Zsombor Chikan, huangxingbo, taosiyuan163, vacaly, weibozhao, yunfengzhou-hub

参考链接

[1] https://flink.apache.org/downloads.html

[2] https://flink.apache.org/community.html#mailing-lists

[3] https://issues.apache.org/jira/browse/flink

[4] https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=240881268

[5] https://nightlies.apache.org/flink/flink-ml-docs-master/docs/operators/feature/binarizer/

[6] 基于 Flink ML 搭建的智能运维算法服务及应用

[7] https://flink-forward.org.cn/

[8] https://github.com/alibaba/SREWorks

[9] https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315522&version=12351884

[10] https://pypi.org/project/apache-flink-ml/

往期精选

b30347cb3fed77891ee9cd2b6d30d6ec.png

e9691152a7fe8a521e76cc5bb20771ec.png

9e31f8547fe0a41083ec446ec9f2b18a.jpeg

378796a2d3295a5de2402e7e7ccd3dd7.jpeg

3aa9462897d48ae03397cb9545b67ed3.jpeg


▼ 登录「Flink-learning 学训平台」,加入学习 ▼

312e126ba14a8f1e11c66c17d81aa77c.png

▼ 关注「Apache Flink」,获取更多技术干货 ▼

1d0f5e68bb8c13a6fbd0e3b41936b5e8.png

 07c2a5015e5fa7cc190f3d316cc94c80.gif  点击「阅读原文」,查看更多技术内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/447116.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot,Flowable 流程实例的激活与挂起(一)

一.简介 要实现流程实例的挂起和激活,首先要知道什么是流程实例的挂起和激活。 挂起: ①一个定义好的流程模板(流程定义),如果挂起了,那么就无法据此创建新的流程实例。 ② 一个流程实例如果挂起了&#…

Pycharm必会小技巧,用好了都不用加班,效率翻2倍

学Python必用Pycharm,今天就来教大家11个Pycharm最常用的技巧,以及一些pycharm常用的快捷键,让你的写代码的效率翻2倍,以后都不用加班了! 跟上老司机的车速! 文章目录 一、常用小技巧1.设置代码字体。2.…

Nature:惊人的突破!科学家们成功破译人类嗅觉感应机制的奥秘!

加州大学旧金山分校(UCSF)的科学家们创造了第一张关于气味分子如何激活人类气味受体的分子水平的3D图片,这是破译嗅觉的关键一步,该成果打破了长期以来研究人员对嗅觉理解的僵局。 该研究成果于2023年3月15日发表在《Nature》&…

ch6_1计算机中运算方法

计算机中数的表示计算机的运算方法运算器的设计 参考教材 本章内容主要介绍,计算机中的运算方法 无符号数和有符号数数的定点表示和浮点表示定点运算浮点四则运算算术逻辑单元 1. 无符号数和有符号数 1.1 无符号数 1.2 有符号数 计算机中, 小数点…

java新版本新特性

2. Java8新特性:Lambda表达式 2.1 关于Java8新特性简介 Java 8 (又称为 JDK 8或JDK1.8) 是 Java 语言开发的一个主要版本。 Java 8 是oracle公司于2014年3月发布,可以看成是自Java 5 以来最具革命性的版本。Java 8为Java语言、编译器、类库、开发工具与…

【华为OD机试真题】AI处理器组合(java)100%通过率

AI处理器组合 知识点数组 时间限制:1s空间限制:256MB限定语言:不限 题目描述: 某公司研发了一款高性能Al处理器。每台物理设备具备8颗Al处理器,编号分别为 0、1、2、3、4、5、6、7。编号0-3的处理器处于同一个链路中,编号4-7的处理器 处于另外一个链路中,不通链路中的…

双目立体匹配中的极线约束(Epipolar Constraint),本质矩阵(Essential Matrix),对极几何(2D-2D)

极线约束(Epipolar Constraint),本质矩阵(Essential Matrix),对极几何(2D-2D) 1. The Epipolar constraint2. Essential matrix E E E 考虑一个SLAM中一个常见的问题:如…

【C++11】左值、右值、将亡值

值类别 C表达式的两个独立的属性:类型、值类别; 值类别分为:左值、纯右值、将亡值; 有名字的将亡值->左值;没名字-->右值 左值 能用&取地址的表达式; 例如:int a;可以…

Python每日一练(20230422)

目录 1. 杨辉三角 🌟 2. 最长回文子串 🌟🌟 3. 逆波兰表达式求值 🌟🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 Java每日一练 专栏 1. 杨…

转义字符(\)对JavaScript中JSON.parse的影响概述

转义字符(\)对JavaScript中JSON.parse的影响 按照ECMA262第五版中的解释&#xff0c;JSON是一个提供了stringify和parse方法的内置对象&#xff0c;前者用于将js对象转化为符合json标准的字符串&#xff0c;后者将符合json标准的字符串转化为js对象。json标准参考<a href&q…

垃圾收集器面试总结(二)

G1 收集器 G1 (Garbage-First) 是一款面向服务器的垃圾收集器,主要针对配备多颗处理器及大容量内存的机器。 以极高概率满足 GC 停顿时间要求的同时,还具备高吞吐量性能特征。 被视为 JDK1.7 中 HotSpot 虚拟机的一个重要进化特征。它具备以下特点&#xff1a; 并行与并发&am…

chatgpt智能提效职场办公-ppt怎么转换成word文档

作者&#xff1a;虚坏叔叔 博客&#xff1a;https://xuhss.com 早餐店不会开到晚上&#xff0c;想吃的人早就来了&#xff01;&#x1f604; 将PPT转换成Word文档有多种方法&#xff0c;以下是其中的一种&#xff1a; 打开PPT文件&#xff0c;并选择“文件”选项卡中的“另存为…

光流法Optical Flow,Lucas-Kanade方法,CV中光流的约束分析

光流法Optical Flow&#xff0c;Lucas-Kanade方法&#xff0c;CV中光流的约束分析 Multiple View Geometry1. Optical Flow Estimation2. The Lucas-Kanade Method2.1 Brightness Constancy Assumption2.2 Constant motion in a neighborhood2.3 Compute the velocity vector2.…

19 calloc 和 realloc 虚拟内存分配的调试

前言 前面提到了 malloc 虚拟内存分配相关的内容 malloc 虚拟内存分配的调试(1) malloc 虚拟内存分配的调试(2) 这里提 calloc 和 realloc, 这两个函数 虽然没有 malloc 使用频率那么高 但是 还是有很大的知名度的, 本文这里 我们来看一下 calloc 此函数传入两个参数, 第…

【系统集成项目管理工程师】项目成本管理

&#x1f4a5;十大知识领域&#xff1a;项目成本管理 主要考计算题 项目进度管理包括以下 4 个过程: 制订成本管理计划成本估算成本预算成本控制 一、制订成本管理计划 制订了项目成本结构、估算、预算和控制的标准 输入工具与技术输出项目管理计划项目章程事业环境因素组织过…

拼凑出来的低代码平台,真的好用吗?(浅谈行业怪象)

0️⃣前言 这几年低代码概念非常火热&#xff0c;市面上的低代码平台如雨后春笋应运而生&#xff0c;有许多身边的朋友对我说&#xff1a;“未来的研发方式一定是低代码的、低技术门槛的&#xff0c;低代码开发是一项技术革新。 ” 然而&#xff0c;就在我打算对它进行深入研究…

【业务数据分析】——十大常用数据分析方法

目录 一、数据分析方法 二、营销管理方法论 1、SWOT分析 2、PEST分析 3、4P理论 三、常用数据分析方法论 1、公式拆解 2、对比分析 3、A/Btest 4、象限分析 5、帕累托分析 6、漏斗分析 7、路径分析 8、留存分析 9、5W2H分析法 10、麦肯锡逻辑树分析法 一、数据…

基于html+css的图片展示23

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

4.4 埃尔米特插值

为什么有埃尔米特插值法&#xff1a; 埃尔米特插值法是一种常用的数值方法&#xff0c;主要用于在给定的数据点集上构造一个可微的函数来近似描述这些数据点的趋势和特征。埃尔米特插值法有以下几个优点&#xff1a; 精度高&#xff1a;埃尔米特插值法可以通过给定数据点的函数…

如何在个人web项目中使用会话技术(cookiesession)?

编译软件&#xff1a;IntelliJ IDEA 2019.2.4 x64 操作系统&#xff1a;win10 x64 位 家庭版 服务器软件&#xff1a;apache-tomcat-8.5.27 目录 一. 什么是会话&#xff1f;二. 为什么要使用会话技术&#xff1f;三. 如何使用会话技术&#xff1f;3.1 Cookie(客户端的会话技术…