Azure - 自动化机器学习AutoML Azure使用详解

news2024/12/28 20:12:07

目录

  • 一、AutoML是如何工作的?
  • 二、何时考虑AutoML?
  • 三、AutoML助力训练与集成过程
  • 四、实战案例
  • 五、总结

自动化机器学习,简称为AutoML,旨在将机器学习模型的开发中繁琐且重复的任务自动化。这使得数据科学家、分析师以及开发人员能够构建高度可扩展、高效和高性能的ML模型,且不牺牲模型的质量。Azure 机器学习的AutoML功能是基于Microsoft Research团队的前沿技术而开发的。

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

file

一、AutoML是如何工作的?

在训练阶段,Azure 机器学习启动多个并行管道,分别尝试不同的算法和参数组合。这个服务会不断尝试多种与特征选择相匹配的ML算法,并为每一次迭代产生一个经过评分的模型。当模型的评分更接近优化目标时,该模型便会被认为更“适合”于数据。当满足预定的终止条件时,训练过程便会结束。

要在Azure机器学习中设计并执行一个AutoML训练实验,您可以按照以下步骤进行:

file

  1. 明确您要解决的ML问题类型:如分类、预测、回归、计算机视觉或NLP。

  2. 决定是选择基于代码的体验还是基于Web的无代码体验:

    • 对于偏好代码的用户,可以利用Azure 机器学习 SDKv2 或 Azure 机器学习 CLIv2。例如,有一个教程指导如何使用AutoML与Python来训练物体检测模型。
    • 对于倾向于少量代码或无代码的用户,可以在Azure 机器学习工作室 (https://ml.azure.com) 通过Web界面来操作。例如,有一个教程介绍如何在Azure机器学习中使用AutoML构建分类模型。
  3. 指明训练数据的来源:Azure 机器学习支持多种数据输入方式。

  4. 配置AutoML的参数,包括决定模型迭代的次数、超参数设定、高级的数据预处理/特征生成策略以及用于评估模型优劣的指标。

  5. 提交您的训练任务。

  6. 分析训练结果。

二、何时考虑AutoML?

当您希望通过Azure机器学习来训练和优化模型,特定于多种目标指标时,AutoML是一个理想的选择。它能够规范化机器学习的开发流程,使不同背景的用户都能够有效地解决各种机器学习问题。

AutoML对于以下目的具有明显优势:

  • 为非编程背景的人员提供机器学习解决方案。
  • 节约开发和训练时间。
  • 整合数据科学的最佳实践。
  • 提供多种解决方案以适应不同场景。
  1. 分类:分类是一种监督学习方法,其中模型根据训练数据进行预测,以确定新数据的类别。Azure机器学习提供了专为此类任务设计的特征工程,例如深度神经网络文本特征化工具。分类的目的是基于已有的数据经验,预测新数据的归属类别。例如,手写识别、对象分类等。
    file
  2. 回归:与分类相似,回归也是监督学习中的一种常见方法。但不同于分类的是,回归旨在预测一个连续的输出值,而不是类别标签。例如,根据特定的车辆特性预测汽车价格。
    file
  3. 时序预测:预测未来趋势和模式是各种业务领域中的关键组件。使用AutoML,您可以获得高质量的时序预测。
    file
  4. 计算机视觉:AutoML为计算机视觉任务提供支持,从简单的图像分类到复杂的对象检测和分割都可以应对。您可以利用Azure机器学习的强大功能,如大规模操作、模型部署和集成。
    file
  5. 自然语言处理(NLP):AutoML在NLP任务中同样展现出卓越的能力。无论是文本分类还是命名实体识别,通过Azure机器学习的Python SDK,您都可以轻松地实现NLP模型的自动化训练。
    file
    总之,无论您是ML专家、开发人员,还是来自其他背景的用户,AutoML都可以为您提供有效、高效的机器学习解决方案。

三、AutoML助力训练与集成过程

训练数据
借助自动化机器学习(AutoML),您可以提交训练数据以构建模型,并指定执行的模型验证方式。在训练过程中,AutoML 通过使用验证数据和相应的算法来优化超参数,寻找与训练数据最匹配的模型配置。但由于在优化过程中反复使用相同的验证数据,可能导致模型对此数据产生偏见。为确保最终选择的模型未受此偏见影响,AutoML 允许使用独立的测试数据集进行评估。

特征工程

指的是根据数据领域的知识创造能增强机器学习算法性能的特征。Azure 机器学习提供了一系列缩放和规范化的方法简化这一过程,统称为特征化。在自动机器学习实验中,系统会默认进行特征化,但您也可以根据自己的数据进行调整。此外,还支持其他特征工程技术,如编码和转换。在Azure机器学习工作室或Python SDK中,都可以选择启用或自定义特征化。

集成模型
在自动化机器学习中也得到了支持。系综学习结合多个模型的优点,通常能获得更好的结果。AutoML 利用投票和堆叠的方法来结合模型。此外,Caruana算法用于决定系综中的模型组合,从而确保系综的性能是最优的。

ONNX格式
Azure 机器学习还允许使用AutoML来创建Python模型并将其转换为ONNX格式,这使得模型能在不同的平台和设备上执行。ONNX还提供了C#运行时,所以您可以直接在C#应用程序中使用生成的模型,这避免了网络延迟等潜在问题。

四、实战案例

实战案例可以参考官方案例:https://learn.microsoft.com/zh-cn/azure/machine-learning/tutorial-first-experiment-automated-ml?view=azureml-api-2

列出核心过程:

  1. 先决条件
  2. 创建工作区
  3. 创建自动化机器学习作业
  4. 创建数据集并将其加载为数据资产
  5. 配置作业
  6. 浏览模型
  7. 模型说明
  8. 部署最佳模型
  9. 清理资源
  10. 后续步骤

部分过程图:
file
file
file
file
file
file

五、总结

自动化机器学习也称为自动化 ML 或 AutoML,是将机器学习模型开发过程中耗时的反复性任务自动化的过程。 数据科学家、分析师和开发人员可以使用它来生成高度可缩放、高效且高产能的 ML 模型,同时保证模型的质量。

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1144275.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ArcGIS笔记13_利用ArcGIS制作岸线与水深地形数据?建立水动力模型之前的数据收集与处理?

本文目录 前言Step 1 岸线数据Step 2 水深地形数据Step 3 其他数据及资料 前言 在利用MIKE建立水动力模型(详见【MIKE水动力笔记】系列)之前,需要收集、处理和制作诸多数据和资料,主要有岸线数据、水深地形数据、开边界潮位驱动数…

File文件查找

用的是递归调用, (递归死循环的结果是导致栈内存溢出错误) 一.代码 package org.example;import java.io.File;public class day03 {public static void main(String[] args) {//文件查找,在d:temp下查找改名.mp4sea…

前端的简单介绍

前端核心的分析 CSS语法不够强大,比如无法嵌套书写,倒是模块化开发中需要书写很多重复的选择器 没有变量和合理的样式复用机制,使逻辑上相关的属性值必须字面量的心事重复的输出,导致难以维护 CSS预处理器,减少代码的笨重&#…

IDEA中application.properties文件中文乱码

现象: 原因: 项目编码格式与IDEA编码格式不一致导致的 解决办法: 在File->Settings->Editor->File Encodings选项中,将Global Encoding,Project Encoding,Default encoding for properties files这三个选项置为一致&a…

设计一个递归算法,删除不带头结点的单链表L中所有值为x的结点(C语言实现)

设计一个递归算法,删除不带头结点的单链表L中所有值为x的结点(C语言实现) 这个代码网上基本都是直接照搬的王道,但是由于某些院校是明确要求用C语言实现,你那个C的引用符号&根本用不了,所以笔者这里用…

归结原理、归结演绎推理

主要内容 归结演绎推理范式子句与子句集将谓词公式转化为子句集命题逻辑鲁宾逊归结原理 归结演绎推理 定理证明的实质是对前提P和结论Q证明P →Q的永真性应用反证法,欲证明P →Q,只要证明 P∧~Q 等价于 F鲁宾逊归结原理对机械化推理有重大突破鲁宾逊归…

李宏毅老师浅谈机器学习

李宏毅老师浅谈机器学习 引例 - 宝可梦/数码宝贝 分类器如何定义损失函数?- 经验这里定义一个直观的loss函数根据全体数据,得到最好的模型参数(理想)如何衡量现实损失和理想损失接近程度?如何得到跟含所有样本数据集很像的取样数据…

【java学习—十】捕获异常(2)

文章目录 1. 什么是异常2. 异常处理机制3. 捕获异常总结3.1. try 和 catch3.2. 捕获异常的有关信息:3.3. finally 1. 什么是异常 如果程序运行时,某一行出现异常,将会使程序中断,不在继续执行,举个例子如下&#xff1…

Kubernetes简介篇

文章目录 前言应用部署Kubernetes能做什么总结 前言 Kubernetes(简称k8s)是一个开源的容器编排和管理工具,由Google开发并捐赠给Cloud Native Computing Foundation(CNCF)管理。它能够自动化部署、扩展和管理容器化应…

Unity主程如何做好游戏项目管理

前言 很多小伙伴最近在面试或者考虑跳槽,可能工作了3~5年了想涨薪或想做技术总监或主程, 可自己还是个雏,没有做过项目技术管理,怎么办?今天我给大家梳理一下作为一个技术总监或主程你应该如何带好一个游戏项目,做好技术管理。接…

基于混合蛙跳算法的无人机航迹规划-附代码

基于混合蛙跳算法的无人机航迹规划 文章目录 基于混合蛙跳算法的无人机航迹规划1.混合蛙跳搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用混合蛙跳算法来优化无人机航迹规划。 …

小米14系列, OPPO Find N3安装谷歌服务框架,安装Play商店,Google

10月26号小米发布了新款手机小米14,那么很多大家需求问是否支持谷歌服务框架,是否支持Google Play商店gms。因为毕竟小米公司现在安装的系统是HyperOS澎湃OS。但是我拿到手机之后会发现还是开机初始界面会显示power by android,证明这一点他还是支持安装谷歌,包括最近一段时间发…

ASEMI高压二极管CL08-RG210参数,CL08-RG210封装

编辑-Z CL08-RG210参数描述: 型号:CL08-RG210 反向重复峰值电压VRRM:8000V 反向工作峰值电压VRWM:8000V 正向平均电流IF:0.5A 正向(不重复)浪涌电流IFSM:20A 反向恢复时间trr:80ns 正向…

spring-基于注解管理bean

基于注解管理bean 一、标记与扫描1、引入依赖2、创建spring配置文件3、创建组件4、扫描组件4.1、基本扫描&#xff1a;4.2、指定要排除的组件4.3、仅扫描指定组件 二、基于注解的自动装配 一、标记与扫描 1、引入依赖 <dependencies> <!-- 基于Maven依赖传递性&…

图像特征Vol.1:计算机视觉特征度量|第一弹:【纹理区域特征】

目录 一、前言二、纹理区域度量2.1&#xff1a;边缘特征度量2.2&#xff1a;互相关和自相关特征2.3&#xff1a;频谱方法—傅里叶谱2.4&#xff1a;灰度共生矩阵(GLCM)2.5&#xff1a;Laws纹理特征2.6&#xff1a;局部二值模式&#xff08;LBP&#xff09; 一、前言 &#x1f…

RocketMq源码分析(八)--消息消费流程

文章目录 一、消息消费实现二、消息消费过程1、消息拉取2、消息消费1&#xff09;提交消费请求2&#xff09;消费消息 一、消息消费实现 消息消费有2种实现&#xff0c;分别为&#xff1a;并发消费实现&#xff08;ConsumeMessageConcurrentlyService&#xff09;和顺序消费实现…

vue3-vite-ts-pinia

Vue3 vite Ts pinia 实战 源码 electron 仓库地址&#xff1a;https://gitee.com/szxio/vue3-vite-ts-pinia 视频地址&#xff1a;小满Vue3&#xff08;课程导读&#xff09;_哔哩哔哩_bilibili 课件地址&#xff1a;Vue3_小满zs的博客-CSDN博客 初始化Vue3项目 方式一 …

分布式数据库Apache Doris简易体验

&#x1f4e2;&#x1f4e2;&#x1f4e2;&#x1f4e3;&#x1f4e3;&#x1f4e3; 哈喽&#xff01;大家好&#xff0c;我是【IT邦德】&#xff0c;江湖人称jeames007&#xff0c;10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】&#xff01;&#x1f61c;&am…

公司电脑禁用U盘的方法

公司电脑禁用U盘的方法 安企神U盘管理系统下载使用 在这个复杂的数据时代&#xff0c;保护公司数据的安全性至关重要。其中&#xff0c;防止未经授权的数据泄露是其中的一个关键环节。U盘作为一种常用的数据传输工具&#xff0c;也成为了潜在的安全风险。因此&#xff0c;公司…

DOM节点学习

喜欢的东西太贵了&#xff0c;我一咬牙&#xff0c;狠下心决定不喜欢了&#xff01; 【文档节点--DOM有哪些节点】 仔细看下面文档的html标签的不同 1.li标签没换行 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"&…