机器学习的整个流程

news2024/11/27 12:39:32

机器学习的整个流程定义了数据科学团队执行以创建和交付机器学习模型的工作流。此外,机器学习流程还定义了团队如何协作合作,以创建最有用的预测模型。

机器学习high level的流程

机器学习流程的关键步骤包括问题探索(Problem Exploration)、数据工程(Data Engineering)、模型工程(Model Engineering)和模型运营 (ML Ops)。

更详细的机器学习流程

这个更详细的流程保留了相同的高层阶段(Problem Exploration、Data Engineering、Model Engineering和ML Ops),但定义了ML流程每个阶段的关键步骤。以下是对每个步骤的讨论。

问题探索(Problem Exploration)

首先关注模型将如何使用。在这个过程中,评估期望的模型准确性并探索其他细节,比如误报和漏报哪个更糟。这个阶段还包括了解可能可用的数据。

  • 定义成功(Define Success):定义要解决的问题。例如,应该预测什么。这有助于定义将需要的数据。此外,确保清楚如何度量成功。
  • 评估数据(Evalute Data):确定相关的数据源。换句话说,评估团队将需要哪些数据,数据是如何收集的,以及数据存储在哪里。

数据工程(Data Engineering)

设计和构建数据管道。这些管道获取、清理和转换数据,使其更容易用于构建预测模型。需要注意的是,这些数据可能来自多个数据源,因此合并数据也是数据工程的关键方面。这通常是在机器学习项目中花费最多时间的地方。

  • 获取数据(Obtain Data):组装数据。这包括连接到远程存储的数据和数据库,这些数据可能以不同的格式存在。例如,一些数据可能以CSV格式存在,而其他数据可能通过Web服务以JSON格式提供。
  • 清理数据(Scrub Data):重新格式化特定属性并纠正数据中的错误,如缺失值填充。数据集通常缺少值,或者它们可能包含错误类型或范围的值。清理可以包括去重、纠正错误、处理缺失值、归一化以及处理数据类型转换。
  • 探索/验证数据(Explore/Validate Data):对数据有一个基本的了解。这种探索性分析包括数据概要分析,以获取关于数据内容和结构的信息。目标是了解数据属性以及数据质量。

模型工程(Data Engineering)

这是大多数人与构建机器学习模型相关联的阶段。在这个阶段,使用数据来训练和评估模型。这通常是一个迭代的任务,其中尝试不同的模型,并调整模型。

  • 选择和训练模型(Select&Train Model):确定合适的模型,并构建/训练模型(在训练数据上)。培训的目标是尽可能正确地回答问题或进行预测。
  • 测试模型(Test Model):在模型尚未看到的数据上运行模型(例如测试数据)。换句话说,通过使用从培训中保留的数据进行模型测试(即回测)。
  • 评估和解释模型(Evaluate&Interpret Model):客观地测量模型的性能。请注意,基本评估探讨精度和精确度等指标,以确定模型是否可用,并确定哪个模型最适合解决特定的问题。这个评估还包括了解模型何时犯错误。更普遍地说,在将训练好的模型投入生产之前,验证训练好的模型有助于确保模型符合最初的组织目标。
  • 调整模型(Tune Model):这一步涉及到参数调整,这依赖于所使用的模型,可能更像是一门艺术而不是科学。简而言之,模型通常具有参数(即调整模型的旋钮),允许通过参数细化模型来获得改进的性能。简单的模型参数可能包括培训步骤的数量和某些值的初始化。

模型运营 (ML Ops)

广义上定义的模型运营(ML Ops)涵盖了数据科学家、数据工程师、云工程师、IT运营和业务利益相关者用于部署、扩展和维护机器学习解决方案的一系列实践、系统和责任。

  • 部署模型(Deploy Model):打包并投入使用模型(即投入生产)。尽管这因小组而异,但团队需要了解预期的模型性能、模型将如何进行监控以及通常的模型关键绩效指标(KPI)。
  • 监控模型(Moniter Model):在生产中维护模型。这包括监控关键绩效指标并主动努力确保预测稳定而且可靠。

其它

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1433029.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《dx12 龙书》第四部分学习笔记——预备知识(下)

7、多重采样技术的原理 由于屏幕中显示的像素不可能是无穷小的,所以并不是任意一条直线都能在显示器上“平滑”而完美地呈现出来。即为以像素矩阵 (matrix of pixels, 可以理解为“像素2D数组”)逼近直线的方法所产生的“阶梯” &…

C# 使用 MailKit 接收邮件(附demo)

C# 使用 MailKit 接收邮件(附demo) 介绍安装包(依赖)案例简单代码 获取附件核心代码完整代码 介绍一下POP3 介绍 MailKit 是一个开源的 C# 邮件处理库,用于在应用程序中发送和接收电子邮件。它提供了一个强大且易于使…

linux实时调度

面对陌生的知识体系,应该从什么角度来 简介 一、进程管理基本概念 在单处理器系统上,在给定时刻只有一个程序可以运行,在多处理器系统上,可以真正并行运行的进程数据,取决于物理CPU的数目; 进程优先级 …

jss/css/html 相关的技术栈有哪些?

js 的技术组件有哪些?比如 jQuery vue 等 常见的JavaScript技术组件: jQuery: jQuery是一个快速、小巧且功能丰富的JavaScript库,用于简化DOM操作、事件处理、动画效果等任务。 React: React是由Facebook开发的用于构…

FPGA高端项目:IMX327 MIPI 视频解码 USB3.0 UVC 输出,提供FPGA开发板+2套工程源码+技术支持

目录 1、前言免责声明 2、相关方案推荐我这里已有的 MIPI 编解码方案 3、本 MIPI CSI-RX IP 介绍4、个人 FPGA高端图像处理开发板简介5、详细设计方案设计原理框图IMX327 及其配置MIPI CSI RX图像 ISP 处理图像缓存UVC 时序USB3.0输出架构 6、vivado工程详解FPGA逻辑设计 7、工…

docker 网络模型

一、docker的网络模型分为四种 【1】Host(与宿主机共享一个网络),宿主机的localhost 及 容器内的localhost 【2】Bridge(与宿主机共享一个局域网,有自己的网络;docker运行默认Bridge);容器内localhost不是宿主机localhost 【3】…

PyTorch 2.2 中文官方教程(五)

对抗性示例生成 原文:pytorch.org/tutorials/beginner/fgsm_tutorial.html 译者:飞龙 协议:CC BY-NC-SA 4.0 注意 点击这里下载完整的示例代码 作者: Nathan Inkawhich 如果您正在阅读本文,希望您能欣赏一些机器学习…

MySQL | DDL 里 TEXT、JSON 类型字段不设置默认值

JSON、BLOB、TEXT 等类型字段的默认值需要设置为表达式,但在旧版本(8.0.13)前只支持设置字面量,参考官方文档:MySQL :: MySQL 8.0 Reference Manual :: 11.6 Data Type Default Values。 PS:还有说是考虑减…

【刷题题解】编辑距离

给你两个单词 word1 和 word2, 请返回将 word1 转换成 word2 所使用的最少操作数 。 你可以对一个单词进行如下三种操作: 插入一个字符删除一个字符替换一个字符 这道题也是,一眼动态规划,乍一看感觉很复杂,仔细思考…

4.0 HDFS 配置与使用

之前提到过的 Hadoop 三种模式:单机模式、伪集群模式和集群模式。 单机模式:Hadoop 仅作为库存在,可以在单计算机上执行 MapReduce 任务,仅用于开发者搭建学习和试验环境。 伪集群模式:此模式 Hadoop 将以守护进程的…

2020年通信工程师初级专业实务真题

文章目录 一、第1章 现代通信网概述:信令网、同步网、管理网。第10章 通信业务:通信产业链,通信终端的分类,通信业务的定义及分类二、第3章 接入网:无线接入网的优点,接入网的接口(UNI&#xff…

tar包部署nginx

理论部分 1.基本概念​ Nginx(engine x)是一个高性能的HTTP和反向代理Web服务器,同时也提供了IMAP、POP3、SMTP服务。中国大陆使用Nginx网站用户有百度、京东、新浪、网易、腾讯、淘宝等。 2.主要用途​ 在连接高并发的情况下,N…

JavaWeb之HTML-CSS --黑马笔记

什么是HTML ? 标记语言:由标签构成的语言。 注意:HTML标签都是预定义好的,HTML代码直接在浏览器中运行,HTML标签由浏览器解析。 什么是CSS ? 开发工具 VS Code --安装文档和安装包都在网盘中 链接:https://p…

全新 鸿蒙系统

一, 开发框架 基础 二, 官网地址 文档开发:华为HarmonyOS智能终端操作系统官网 | 应用设备分布式开发者生态 三,基础了解 鸿蒙系统是基于 js 和 ts 衍生出来的一个东西 要学 arkts 就要学习 js 和 ts 语法 四&#xff0c…

Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(二)

原文:Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow 译者:飞龙 协议:CC BY-NC-SA 4.0 第三章:分类 在第一章中,我提到最常见的监督学习任务是回归(预测值)和分类&#…

仓储物流系统架构平台的设计与实践

随着电子商务和供应链管理的迅速发展,仓储物流系统在现代商业中扮演着至关重要的角色。一个高效、稳定的仓储物流系统能够极大地提升企业的运营效率和客户满意度。本篇博客将探讨仓储物流系统架构平台的设计与实践,介绍其核心组成和关键考虑因素。 ### …

[技术杂谈]如何下载vscode历史版本

网站模板: https://code.visualstudio.com/updates/v1_85 如果你想下载1.84系列可以访问https://code.visualstudio.com/updates/v1_84​​​​​​ 然后看到: 选择对应版本下载即可,我是windows x64系统选择x64即可开始下载

开源节点框架STNodeEditor使用

节点,一般都为树形Tree结构,如TreeNode,XmlNode。 树形结构有其关键属性Parent【父节点】,Children【子节点】 LinkedListNode为链表线性结构,有其关键属性Next【下一个】,Previous【上一个】&#xff0c…

零信任实施:计划,执行,一步一步

去年,82% 的网络安全专业人员一直致力于实施零信任,到今年年底,应有 16% 的网络安全专业人员开始实施零信任。 零信任实施的挑战 您可能以前听说过:零信任不是单一产品,而是遵循“从不信任,始终验证”原则…

【Linux】进程间通信 --管道通信

Halo,这里是Ppeua。平时主要更新C语言,C,数据结构算法…感兴趣就关注我吧!你定不会失望。 本篇导航 0. 进程间通信原理1. 匿名管道1.1 通信原理1.2 接口介绍 2. 命名管道2.1 接口介绍 3. 共享内存3.1 通信原理3.2 接口介绍 0. 进…