自动机器学习是什么?概念及应用

news2024/12/25 13:05:13

自动机器学习 (Auto Machine Learning) 的应用和方法

随着众多企业在大量场景中开始采用机器学习,前后期处理和优化的数据量及规模指数级增长。企业很难雇用充足的人手来完成与高级机器学习模型相关的所有工作,因此机器学习自动化工具是未来人工智能 (AI) 的关键组成部分,自动机器学习 (Automated Machine Learning,AutoML) 应运而生。AutoML 是AIOps多层技术平台中一款快速增长的工具。 自动机器学习是一种将人工智能 (Artificial Intelligence) 应用于问题的端到端周期自动化方法。一般情况下,数据科学家会负责构建机器学习 (ML) 模型,以及随后的数据预处理、特征工程、模型选择、超参数优化和模型后处理等复杂任务。AutoML 框架可以自动完成这些任务(或至少部分任务),让不具备数据科学专业知识的人也可以成功构建 ML 模型。 对那些因资源有限而无法全面投入使用 AI 的公司来说,自动化 ML 流程带来了机会。尽管实现机器学习流程全自动化依然任重而道远,但很多企业都开始在构建着眼于未来的工具,以进一步推动自动机器学习的发展。  

为什么要使用自动机器学习工具?

研究当前的机器学习模型构建过程,我们发现,模型构建的代价高昂,不仅需要高水平的技术专家,还需要投入大量的时间、资金,反复地进行研发工作。以下为推动自动机器学习发展的四个因素:

缩小技能差距

由于企业很难招募到兼具领域知识和技能的人才来构建模型,导致缺乏开发 AI 和 ML 相关的专业技术,阻碍了机器学习的进一步发展。借助自动机器学习,非专业人才也可以参与构建AI。企业不仅无需招聘大量高专业化人才,还能提高创新速度,最终实现人工智能的规模化应用。

缩短面市时间

在一些快速发展的领域,缩短上市时间就能取得巨大的竞争优势。而机器学习流程自动化恰好能够减少构建模型所需的时间。对于从未部署过 AI 的公司来说,自动机器学习不仅能够降低其进入该领域的门槛,还可以提供成功的解决方案。

降低成本

从零开始构建机器学习模型,需要耗费大量的时和资金。数据科学家及其他机器学习领域的专家,他们的薪资相对较高。从零开始构建模型,费时又费力,相比之下,自动机器学习工具则具有较高的性价比。

构建更佳模型

自动机器学习在模型和超参数方面的迭代速度比手工操作更快。在规定时间段内,迭代越多,所构建的模型性能就越高。自动机器学习既提高了决策效率,又加快了模型研究的速度。 此外,数据科学家也在努力探索适用于深度神经网络的高性能架构。自动机器学习可以自动搜索和评估架构(即神经架构搜索),从而加速开发人工智能模型解决方案。  

自动机器学习的方法

对于机器学习的自动化,有不同的定义。如今,流传比较广泛的是一个对自动机器学习进行分级的体系(类似于自动驾驶汽车的分级):

  • 初级:无自动化,数据科学家从零开始编写算法。
  • 级:使用一些高级API。
  • 级:自动调整超参数和选择模型。
  • 级:自动特征工程、特征选择和数据增强。
  • 级:自动领域和特定问题的特征工程、数据扩充和数据整合。
  • 级:完全自动化,无需输入或指导来解决机器学习问题。

虽然目前市场上有很多不错的 3 级自动机器学习解决方案,但不同公司在实际实施中又降为了 1 级或 2 级。在这些不同等级的自动化过程中,有几个自动机器学习方法值得讨论:

模型选择和集成

自动机器学习可以通过输入相同数据来训练不同算法,从而实现迭代,选择性能最佳的模型。自动机器学习还可以借助混合和叠加等技术来与多个模型集成,以获取更好的结果。

超参数优化 (HPO)

所有机器学习算法都有参数,或者模型中每个变量或特征的权重。参数来自于训练过程,而超参数则是一个用于控制学习过程的可调值。超参数优化 (HPO) 是指通过调整超参数来提高模型性能。自动机器学习工具可以自动评估各种超参数,以确定可以产生最高性能的模型集合。

特征工程

在自动机器学习中,特征工程不如模型选择和 HPO 那么常见,但由于其能够提高模型的预测性,因此越来越受重视。特征工程是指从现有输入中构建新的输入特征(或解释变量)。特征工程强调了模型预测时需要了解的相关元素,因而会影响模型性能。所以,数据科学家必须一次次地手动添加特征,但有了自动机器学习工具,这项工作可以自动完成。这些工具从给定的输入中提取相关和有意义的特征,并测试不同的特征组合,以生成性能最高的模型。  

自动机器学习的前景

在达到 5 级,即完全自动化的解决方案之前,自动机器学习行业仍有漫长的道路。尽管如此,很多企业还是投资了较低级别的自动机器学习。一般来说,这些企业将精力主要放在了模型选择和 HPO上。特征工程的进一步发展或将推动自动机器学习领域在新创新阶段取得突破。 随着自动化需求增长和工具改进,构建机器学习的难度和资源密集度将会降低,机器学习的应用范围也将更加广泛。  

澳鹏数据科学家 Shambhavi Srivastava 对自动机器学习的看法

在澳鹏,我们团队致力于构建机器学习模型。我与数据科学家、机器学习工程师以及 DevOps 的同事协作,致力于建立、整合最先进的 (SOTA) 模型。 构建机器学习模型均包括以下多个步骤:

  1. 从业务角度理解问题
  2. 数据准备(收集、清理、分析)
  3. 构建模型
  4. 评估性能
  5. 将模型容器化并部署到生产中
  6. 观察模型在客户端数据生成上的性能。

上述每个步骤对于项目的成功都至关重要。数据科学家可以通过 自动机器学习来提高成功率。通过自动化工作流程和大幅提升各种整体假设和单个模型属性的测试速度,自动机器学习提高了数据科学家的工作质量。 数据科学家的日常工作是,决定并实施对给定业务用例最有效的机器学习算法。然而,这项任务很繁琐,而且容易出现人为错误和偏见。自动机器学习可以自动化和简化这一过程,使团队能够通过持续评估性能来运行各种机器学习模型,直到满足最佳参数为止。这些自动机器学习功能可以加速机器学习模型的生产,并通过推出准确度更高的模型来提高项目的投资回报率 (ROI)。 模型选择中最具挑战性的环节就是探寻未知。这是科学家将自动机器学习视为头号难题的原因所在。自动机器学习通过减少代码和自动调整超参数,来降低 ML 任务的难度。自动机器学习的核心创新是超参数搜索和寻找最佳匹配。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1310668.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

装机DIY-配件价格比较

计算机配件价格比较 🚀🚀🚀🚀最近无事总刷到DIY装机视频,自己也有兴趣,同时这段时间也在学前端,发现每次比较价格都有重新搜,重新计算,且不同配置也不好比较&#xff0c…

【毕业设计】基于STM32的智能衣柜设计

1、功能说明 功能如下: 1、用stm32控制ds18b20采集温度 2、然后按键可以设置上下限温度, 3、采集的温度低于下限温度时候 打开加热片开始加热, 4、加热到上限温度关闭加热片停止加热, 5、采集的温度可以在oled显示, 6、然后弄个按…

c语言:指针运算

目录 指针类型与整型进行加减 规律 同类型指针减法运算 其他类型的指针运算 一个数据对象的内存位置有两个重要信息: 数据对象的首地址。数据对象占用存储空间大小 指针类型的值存储的是内存地址。内存地址是从0开始,依次加1的整型数据。 指针类…

单元测试二(实验)-云计算2023.12-云南农业大学

1、实践系列课《深入浅出Docker应用》 https://developeraliyun.com/adc/scenarioSeries/713c370e605e4f1fa7be903b80a53556?spma2c6h.27088027.devcloud-scenarioSeriesList.13.5bb75b8aZHOM2w 容器镜像的制作实验要求 创建Dockerfile文件: FROM ubuntu:latest WORKDIR data…

Git应用——代码提交规范 feat ,fix ,style

当前使用 feat 增加新功能fix 修复问题/BUGstyle 代码风格相关无影响运行结果的perf 优化/性能提升refactor 重构revert 撤销修改test 测试相关docs 文档/注释chore 依赖更新/脚手架配置修改等workflow 工作流改进ci 持续集成types 类型定义文件更改wip 开发中 别处看到 fea…

玩转大数据14:分布式计算框架的选择与比较

1. 引言 随着大数据时代的到来,越来越多的企业和组织需要处理海量数据。分布式计算框架提供了一种有效的方式来解决大数据处理的问题。分布式计算框架将计算任务分解成多个子任务,并在多个节点上并行执行,从而提高计算效率。 2. 分布式计算…

【操作系统导论】内存篇——分页

引入 采用 「分段」 的方式,将空间切成 不同长度的分片,会出现 碎片化 问题,随着时间推移,分配内存会越来越困难。 因此,值得考虑「分页」的方法: 将空间分割成 固定长度的分片 ; 将物理内存…

斑马zebra目标检测数据集VOC+YOLO格式2300张

斑马是由四百万年前的原马进化出来的,最早出现的斑马可能是细纹斑马。有关史前马科动物的化石现存于美国爱达荷州克文的克文化石床国家博物馆。斑马的史前马为“克文马”(美洲斑马或者克文斑马),学名为“Equussimplicidens”&…

智能守护,数据安全稳中求胜!上海迅软DSE助力家具家电行业引领潮流!

随着中国经济的蓬勃发展,家具家电企业正迎来“精品制造”的时代,业内竞争日益激烈。为了提升产品竞争力、扩大市场占有率,企业亟需加强对自主品牌的安全建设,确保品牌的自主知识产权、产品生产资料以及销售信息等核心数据不受泄漏…

Docker真的好难用啊,为什么说它移植性好啊?

看起来你对Docker有点困惑和挑战呀。Docker刚开始确实有点难以入门,但是一旦掌握了它的核心概念和操作,你会发现它其实非常强大和便利。 接下来我会根据你提出的问题和场景,详细地解答。 关于你的实际问题: 刚接触时的困难是正。…

如何实现服务注册与发现?

本文主要讲解如何实现服务注册与发现。 在分布式服务中,服务注册和发现是一个特别重要的概念,为什么需要服务注册和发现?常用的服务发现组件有哪些?服务注册和发现对一致性有哪些要求呢?下面我们就来学习服务发现相关的知识。 …

【五】Python 代理模式

文章目录 5.1 代理模式概述5.1.1 代理介绍5.1.2 代理模式的作用 5.2 代理模式的UML类图5.3 了解不同类型的代理5.3.1虚拟代理5.3.2 远程代理5.3.3 保护代理5.3.4 智能代理 5.4 现实世界中的代理模式5.5 代理模式的优点5.6 门面模式和代理模式之间的比较 5.1 代理模式概述 5.1.…

用XAMPP在Windows系统构建一个本地Web服务器

用XAMPP在Windows系统构建一个本地Web服务器 Build a Local Web Server for Windows with XAMPP By JacksonML 本文简要介绍如何获取和安装XAMPP以实现Windows环境下本地Web服务器的过程,希望对广大网友和学生有所帮助。 所谓本地Web服务器,即使用本地…

Python框架篇(5):FastApi-中间件使用

1.介绍 1.1 官网介绍 "中间件"是一个函数,它在每个请求被特定的路径操作处理之前,以及在每个响应返回之前工作. 它接收你的应用程序的每一个 请求. 然后它可以对这个 请求做一些事情或者执行任何需要的代码. 然后它将 请求传递给应用程序的其他部分 (通过某种 路径操…

slurm 23.11.0集群 debian 11.5 安装

slurm 23.11.0集群 debian 11.5 安装 用途 Slurm(Simple Linux Utility for Resource Management, http://slurm.schedmd.com/ )是开源的、具有容错性和高度可扩展的Linux集群超级计算系统资源管理和作业调度系统。超级计算系统可利用Slurm对资源和作业进行管理&a…

变电站蓄电池在线监测系统(论文+源码)

1. 系统设计 本次课题为变电站蓄电池在线监测系统的设计,其系统架构如图3.1所示,包括了主控制器STC89C52单片机,液晶显示器LCD1602,模数转换器ADC0832,电流传感器ACS712,分压电阻,蜂鸣器以及温度传感器。在…

Amazon SageMaker: 拓展机器学习边界,塑造未来创新趋势

授权说明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 亚马逊云科技开发者社区, 知乎,自媒体平台,第三方开发者媒体等亚马逊云科技官方渠道。 近期在 re:Invent 2023 大会上,亚马逊云科技发布了一…

如何将Galaxybase图数据库应用于电力设备管理

导读 近日,受强冷空气影响,部分北方地区出现不同程度的降雪,并持续降温。据国家电网发布的预警通知,要求启动预警响应和应急机制,密切跟踪灾害预警信息和应急响应情况,滚动研判分析覆冰、积雪、低温等对电…

vite+vue3+electron搭建项目

编辑器使用vscode,打开一个空文件夹 第一步 初始化vite项目 初始化vite项目,命令 npm init vite 第二步 下载依赖 进入新建的项目,下载依赖,命令 cd vite-projec npm i第三步 使用cnpm下载 electron依赖 新建一个终端&#…

雪花算法详细讲解

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…