【机器学习】对 MLOps 的友好的介绍(MLOps1)

news2025/1/19 16:20:59

 

一、说明

        我对 MLOps 感兴趣已经有一段时间了。我第一次从机器学习工程师那里了解到它,由于我当时还是一名博士生,我并不知道它的存在。然而,我的好奇心被激起了,我开始了解它。回想起来,我很后悔没有早点了解它,以优化我的机器学习工作流程。

        在本文中,我将尝试提供对 MLOps 的初学者友好的介绍,并以简单的方式解释关键概念。作为一个一开始也觉得很难理解的人,我理解需要对这个主题进行更简单的介绍。我希望在阅读本文后,初学者会更自在地阅读有关 MLOps 的更高级文档。

二. 对 MLOps 的动机

        由于机器学习技术在各个研究领域的成功,许多公司都试图将它们整合到他们的软件系统中,以提高效率并解决现实世界的问题。但是,对于许多公司来说,在生产环境中实施机器学习可能是一个具有挑战性且耗时的过程。此外,部署后,必须管理和维护模型,并且必须监视其性能以确保其正常运行。这些任务在大型软件系统中尤其困难。

另一方面,软件工程师使用 DevOps(开发和运营)范式,这是一组促进开发和运营团队之间协作和沟通的实践和工具来开发和管理系统。这有助于保持开发速度和质量。MLOps 旨在将这些 DevOps 原则应用于机器学习系统。考虑到这个背景,MLOps 到底是什么?

2.1  定义

        若要定义 MLOps,让我们首先检查各种定义:

定义1:

“MLOps(机器学习操作)是一种范式,包括最佳实践、概念集等方面,以及机器学习产品的端到端概念化、实现、监视、部署和可伸缩性的开发文化。”[1]

定义2:

“DevOps 方法的扩展,将机器学习和数据科学资产作为 DevOps 生态中的一等公民包括在内” [2]

定义3:

我们可以使用机器学习工程(MLE)的定义,其中MLE是使用机器学习和传统软件工程的科学原理,工具和技术来设计和构建复杂的计算系统。MLE涵盖了从数据收集到模型构建的所有阶段,以使模型可供产品或消费者使用。(作者:A.布尔科夫)[3]。

根据前面的定义,我们可以将 MLOps 理解为一组技术和实践,用于以高效、优化和有组织的方式设计、构建和部署机器学习模型。这些技术和做法通常在 MLOps 生命周期的上下文中进行讨论。

2.2 . MLOps 生命周期

MLOps 生命周期(源) CC BY 4.0

MLOps 生命周期由 MLOps 范例中涉及的步骤和技术组成,从设计和开发机器学习模型到将其部署到生产环境中,以及随着时间的推移对其进行监视和维护。它通常分为三个主要阶段:

  • 第一阶段是设计过程,涉及定义业务问题、模型的需求及其预期用例。这通常涉及创建 AI/ML 画布。
  • 第二阶段是模型开发过程,包括数据和模型工程。
  • 第三阶段是涵盖模型部署和维护的操作流程。

在部署模型后,随着时间的推移保持模型的性能非常重要,因此这些阶段通常以循环方式执行。这可确保模型性能良好,并且仍能满足第一阶段定义的需求。现在,我们已经讨论了 MLOps 生命周期的各个阶段,让我们检查一下 MLOps 工作流,其中概述了在该过程的每个阶段执行的特定任务和活动。

2.3  MLOps 工作流

MLOps 工作流

MLOps 工作流概述了开发、部署和维护机器学习模型要遵循的步骤。在理想情况下,遵循工作流就足够了:首先,了解业务问题,然后选择、训练和部署模型。但是,在现实世界中并非总是如此。在任何时候,都可能需要返回到上一步。此外,部署模型后,必须对其进行维护和监视,这就是为什么了解 MLOps 生命周期和 MLOps 工作流非常重要的原因。

三、MLOps模型实用

3.1. 业务问题

业务问题(工作流程图、AI 画布和 ML 画布均来自源 CC BY 4.0)

MLOps 工作流的第一步是了解业务问题,这涉及定义模型的输入和输出,以及流程及其各种子任务。若要构建此过程,可以使用 AI(人工智能)画布或 ML(机器学习)画布,可以将其视为用于组织 MLOps 工作流的模板。AI 画布通常为 ML/AI 实现提供高级结构,而 ML 画布提供系统的高级描述和细节。您可以在此处阅读有关这些画布的更多信息。

让我们举个例子!假设为了改进其产品,一家乳制品公司有兴趣收集消费者对其的反馈。为此,需要对消费者对社交媒体平台上的产品的评论进行情感分析。机器学习技术可用于训练模型,以将这些评论的情绪分类为正面、负面或中性。这将使公司能够更好地了解客户对其产品的体验,并确定需要改进的领域。此业务问题描述转换为 AI 画布和/或 ML 画布,以获得更清晰的表示:

  • 预测/预测任务:AI系统将分析文本输入并预测文本的情绪(正面,负面或中性)。
  • 判断:系统将使用自然语言处理技术来理解文本的含义和情感。
  • 行动/决策:根据预测的情绪,系统可能会采取不同的行动,例如标记负面评论以供进一步审查,或优先考虑正面的社交媒体帖子以进行推广。
  • 结果:期望的结果是系统准确地对文本输入的情绪进行分类,从而提高客户满意度、更好的社交媒体参与度或其他好处,具体取决于特定用例。
  • 训练:系统将在标记文本数据的数据集上进行训练,其中包含输入文本和相应的情绪标签。
  • 输入/数据源:系统将接受来自各种来源的文本输入,例如社交媒体帖子或客户评论。
  • 输出/进行预测:系统将分析文本输入并预测文本的情绪(正面、负面或中性)。
  • 反馈:系统可以合并来自用户或利益相关者的反馈,以随着时间的推移提高其性能,例如通过调整自然语言处理算法的参数或向训练数据集添加新数据。
  • 离线评估:系统将使用标准评估指标(如精度、召回率和 F1 分数)进行评估,以确保它准确地对文本输入的情绪进行分类。
  • 实时监控:系统将根据需要持续监控和更新,以确保其随着时间的推移继续准确运行。

3.2. 数据工程

数据工程

了解手头的业务问题后,MLOps 工作流的下一步是数据工程过程。这包括数据引入、探索和验证、数据清理、数据标记和数据拆分。

  • 数据引入涉及使用一组技术来收集数据、创建备份、保护私人信息、创建元数据目录和对测试集进行采样,以避免数据侦听偏差。
  • 为了探索和验证数据集,使用了一组统计和可视化技术。
  • 收集的数据通常具有噪声、包含异常值和缺失值。这些问题可能会影响下一个过程,因此应用数据清理步骤来解决这些问题。
  • 当所选模型基于监督学习时,数据标记是必要的。此步骤可以手动、自动或半自动完成。
  • 数据拆分是此过程的最后一步,涉及将数据划分为训练集、验证集和测试集。

3.3. ML 模型工程

机器学习模型工程

MLOps 工作流的第三步是机器学习工程,其中包括模型训练、模型评估、模型测试和模型打包。

  • 训练模型涉及特征工程、代码审查和版本控制以及超参数优化。您可能想知道为什么此步骤中包含特征工程而不是上一步。原因是在此步骤中测试了许多类型和体系结构的模型,因此所有模型的特征工程通常都不相同。值得注意的是,在此步骤中选择最合适的模型之前,会训练和测试多个模型。
  • 模型评估涉及验证模型,以确保它满足业务问题步骤中描述的业务目标。
  • 在模型测试步骤中,使用初始测试集执行模型验收测试
  • 验证和测试模型后,最后一步是以特定格式导出模型,以便将其提供给业务应用程序。

3.4. 代码工程

代码工程

在此步骤中,模型已准备好部署到生产环境。模型部署包括三个步骤:模型服务、性能监视和性能日志记录。

  • 若要提供模型,必须考虑服务模式和部署策略。服务模式是指如何将模型集成到软件中,例如将其集成为服务、依赖项、使用预先计算的服务、按需服务或混合服务。部署策略是指用于包装模型的方法,例如将其部署为 Docker 容器或无服务器函数。
  • 监视模型涉及观察模型的整体行为,例如其预测与先前模型性能的偏差。
  • 性能日志记录涉及将模型预测的结果保存在日志记录中。

四、 结论

        在本文中,我们简要介绍了 MLOps。我们讨论了对 MLOps 的需求,提出了各种定义,解释了 MLOps 生命周期,并介绍了 MLOps 工作流。如果您想了解有关 MLOps 的详细信息,建议 ml-ops.org 以获取更多信息。

        这是关于 MLOps 的第一篇文章,当然不是最后一篇文章!我将编写更多有关 MLOps 及其各种技术的教程,并提供示例,敬请期待。如果您有任何问题或建议,请随时在下面给我留言。

引用

[1] Kreuzberger, D., Kühl, N., & Hirschl, S. Machine Learning Operations (mlops): 概述、定义和架构, 2022.DOI:10.48550。arXiv预印本arXiv.2205.02302

[2] MLOps 路线图 2020

[3] MLOps: Motivation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/837500.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C#控制台程序+Window增加右键菜单

有时候我们可能会想定制一些自己的右键菜单功能,帮我们减少重复的操作。那么使用控制台程序加自定义右键菜单,就可以很好地满足我们的需求。 1 编写控制台程序 因为我只用到了在文件夹中空白处的右键菜单,所以这里提供了一个对应的模板&…

DC-4靶机

信息收集 先查看靶机的MAC地址 arp-scan -l 找到目标靶机的IP地址,对其进行扫描 发现开放了80端口和ssh,浏览器访问靶机的80端口,看看有没有可以利用的东西 目录爆破发现也没有什么东西 dirsearch -u http://192.168.80.146 漏洞利用 利用…

Web Worker API

Web Worker API Web Worker 使得在一个独立于 Web 应用程序主执行线程的后台线程中运行脚本操作成为可能。这样做的好处是可以在独立线程中执行费时的处理任务,使主线程(通常是 UI 线程)的运行不会被阻塞/放慢。 Web Worker概念与用法 Wor…

【iOS安全】OpenSSH使用

安装OpenSSH 在 Cydia 中直接查找和安装 OpenSSH 使用OpenSSH http://orinchen.github.io/blog/2014/01/15/install-and-use-openssh-on-ios/ 保证PC和iPhone在同一网段下 查看iPhone的IP地址 ssh root10.168.xx.xx 口令默认是alpine 或者也可以使用XShell等集成终端

自动化测试的统筹规划

背景 回顾以前自动化测试编写的经历,主要是以开发者自驱动的方式进行,测试的编写随心而动,没有规划,也没有章法,这样就面临如下的一些问题: 测试用例设计不到位,覆盖不全,或者不够…

WebGL Shader着色器GLSL语言

在2D绘图中的坐标系统,默认情况下是与窗口坐标系统相同,它以canvas的左上角为坐标原点,沿X轴向右为正值,沿Y轴向下为正值。其中canvas坐标的单位都是’px’。 WebGL使用的是正交右手坐标系,且每个方向都有可使用的值的…

android kernel移植5-RK3568

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言1.添加开发板默认配置文件前言 前面我们已经学会了移植uboot,其实就是把瑞芯微的关于uboot的一些文件的名字和编译指定的文件改为自己定义的问价和名字,那么接下来的Android kernel其实也是…

【数据结构】排序算法系列

常见的排序如下: 一、比较类排序 1. 交换排序 (1) 冒泡排序 【数据结构】交换排序(一)——冒泡排序_Jacky_Feng的博客-CSDN博客 (2) 快速排序 【数据结构】交换排序(二&#xf…

WebDAV之π-Disk派盘 + 薄荷记账

薄荷记账是一款为用户提供专业记账服务的手机应用,轻松记录个人的账目支出以及收入,什么时间花在哪都能知晓,养成良好的记账习惯,让生活更有条理。 π-Disk派盘 – 知识管理专家 派盘是一款面向个人和企业的本地云存储解决方案,它可以帮助用户打造“数字第二大脑”,并支…

如何批量实现多行合并后居中

思路: 1.先填充数据 2.数据分类统计制作格式 3.格式刷刷制作出的格式 1.填充数据 思路:选中,F5定位空值,,⬆(键盘上的上下左右哪里的上键),按住Ctrl然后按Enter。 2.数据分类统计…

Leetcode-每日一题【剑指 Offer 06. 从尾到头打印链表】

题目 输入一个链表的头节点&#xff0c;从尾到头反过来返回每个节点的值&#xff08;用数组返回&#xff09;。 示例 1&#xff1a; 输入&#xff1a;head [1,3,2]输出&#xff1a;[2,3,1] 限制&#xff1a; 0 < 链表长度 < 10000 解题思路 1.题目要求我们从尾到头反过…

线上java程序CPU及内存占用过高问题排查总结

背景 最近发现线上的一个JAVA程序总是过段时间慢慢卡死&#xff0c;最后导致无法提供服务&#xff0c;外部请求接口超时。 经排查发现&#xff0c;该程序CPU及内存占用都很高&#xff0c;导致整个系统负载很高。 到这里&#xff0c;就想到了对程序内存进行分析。排查过程 查询…

vue- form动态表单验证规则-表单验证

前言 以element官网的form表单的-动态增减表单项为例讲解表单验证规则 动态的功能就是v-model配合push v-for 便利来实现的 我们需要熟知2个知识点prop表单验证需要跟v-model绑定的值是一样的&#xff0c; 如果是一个数组便利的表单&#xff0c;那就需要绑定这个数组每一项…

Adaptive autosar 都有哪些模块?各有什么功能?

Adaptive autosar是一种用于高性能计算ECU的软件平台,它支持自适应应用程序的开发和运行。它由两部分组成:基础(Foundation)和服务(Service)。基础包括了操作系统接口、执行管理、网络管理、识别访问管理、加密、更新和配置管理等功能。服务包括了通信管理、RESTful、时间…

Python-Django中间件执行顺序

Django 中间件作用&#xff1a; 修改请求&#xff0c;即传送到 view 中的 HttpRequest 对象。修改响应&#xff0c;即 view 返回的 HttpResponse 对象。 中间件组件配置在 settings.py 文件的 MIDDLEWARE 选项列表中。 配置中的每个字符串选项都是一个类&#xff0c;也就是一个…

Redis 6.5 服务端的读取缓冲区和输出缓冲区执行源码

通篇全文都是不开启事务&#xff0c;不开启多线程&#xff0c;只有主线程去执行 借鉴 Redis源码与设计剖析 – 18.Redis网络连接库分析 客户端与集群之间数据的交互 IO多路复用与客户端、输出缓冲区和读取缓冲区之间的关系一、读取缓冲区1、新客户端连接时注册从socket读取事件…

用友和金蝶:管理软件巨头引领企业转型潮流,新技术开始崭露头角

打造企业帝国的管理软件 在当今企业界&#xff0c;管理软件已经成为提高工作效率、优化业务流程的重要工具。 在众多管理软件中&#xff0c;用友和金蝶凭借其卓越的功能和全面的解决方案成为了众多企业的首选。 用友和金蝶的管理软件是国内知名企业管理软件&#xff0c;广泛应…

HotSpot虚拟机之Class文件及字节码指令

目录 一、javac编译 1. 编译过程 2. 语法糖 二、Class文件 1. 文件格式 2. 常量池项目 3. 属性类型 三、Class文件实例 1. 源代码 2. javap分析Class文件 四、字节码指令 五、参考资料 一、javac编译 1. 编译过程 javac命令由Java语言编写&#xff0c;目的将Ja…

wonderful-sql 作业

Sql 作业 作业1&#xff1a; 答&#xff1a; create table Employee (Id integer not null, Name varchar(32) , Salary integer, departmentId integer, primary key (Id) );create table Department( Id integer primary key, Name varchar(30) not null );insert into emp…

《向量数据库指南》——使用 AI原生云向量数据库Milvus Cloud的好处

目录 3. 使用 Milvus Cloud的好处 a. 高效存储和检索 b. 高度灵活、可扩展 c. 高性能、高可用 d. 易用性 e. 可靠性 3. 使用 Milvus Cloud的好处 Milvus Cloud生态系统提供了有效的数据库监控、数据迁移和数据量估算工具。如果不想要花时间和精力维护 Milvus,也可以选择…