机器学习没那么难,Azure AutoML帮你简单3步实现自动化模型训练

news2024/10/7 20:32:01

在Machine Learning 这个领域,通常训练一个业务模型的难点并不在于算法的选择,而在于前期的数据清理和特征工程这些纷繁复杂的工作,训练过程中的问题在于参数的反复迭代优化。

AutoML 是 Azure Databricks 的一项功能,它自动的对数据进行清理和特征工程并使用数据尝试多种算法和参数来训练最佳机器学习模型。使用这种自动化模型训练可以满足以下业务问题的模型训练:

1、分类问题:

AutoML可以用于解决二分类或多分类问题,如客户流失预测、邮件是否为垃圾邮件的判断等。

2、回归问题:

在涉及连续数值预测的场景中,如销售额预测、房价预测等,AutoML能够提供有效的解决方案。

3、时间序列预测:

对于时间相关的数据,如股票价格预测、需求预测等,AutoML可以通过时间序列分析提供预测。

下面来演示如何使用:

本教程需要Azure Data Bricks工作区,启动工作区方法,请参照下面链接:

想学习云计算么?教你如何免费白嫖微软和AWS的云资源一年-CSDN博客

利用 Azure Data Bricks的免费资源学习云上大数据-CSDN博客

一、启动Data Bricks SQL仓库

在工作区的 Azure Databricks 门户中,在边栏的“SQL”,选择“SQL 仓库

请注意,工作区已包含一个名为 Starter Warehouse SQL 仓库

SQL 仓库的操作菜单中,选择编辑。然后,将群集大小属性设置为2X-Small”并保存更改。

使用启动按钮启动 SQL 仓库(这可能需要一两分钟)

二、上传训练数据

1、将penguins.csv上传到平台中,如下图:

 2、上传之后如下图:选择“创建表格”按钮

三、创建机器学习计算节点

创建机器学习计算节点,注意:需要选择单一用户,单节点,Runtime选择ML 14.2ML Scala.2.12,spark3.5.0 ,不要选带GPU的。如下图:

创建成功之后的Cluster配置如下: 注意要去掉使用photon加速这个复选项,然后选择“创建计算”

四、创建 AutoML试验

如下图:在DataBricks工作区中,选择新建--》AutoML试验

1、选择上一步创建好的机器学习类型的集群:

2、ML问题类型:选择“分类” 如下图 

3、选择训练用的数据如下图:

4、其它参数配置如下图: 

 

5、选择 最下边的 启动 AutoML按钮开始试验

训练结束之后,如下图:

 6、Species_penguins页中,选择查看笔记本的最佳模型”        

 下面就是打开的笔记的最佳模型的全部训练脚本,可以基于这个最佳模型进行修改优化,或者重新训练。

 关闭包含笔记本的浏览器选项卡以返回到实验页面,在运行列表中,选择第一个运行的名称(生成最佳模型)以将其打开

五、在系统中注册模型

选中训练的最佳模型之后,在右上角,选择“注册模型”按钮,出现下面的界面:

在 Model Name 输入库,输入模型名称,然后选择"注册"

注册成功之后,则在左侧菜单栏的“模型” 选项中可以看到已经注册的模型

选择 test-penguins 模型之后,显示该模型的相关信息

  1. “test-penguins页面上,使用使用模型进行推理按钮,使用以下设置创建新的实时终端节点:
    1. 型号 Penguin-Classifier
    2. 型号版本1
    3. 端点classify-penguin
    4. 计算大小:小

创建终结点后,使用右上角的“查询终结点”按钮打开一个界面,您可以从中测试终结点。然后,在测试界面的“浏览器”选项卡上,输入以下 JSON 请求,并使用“发送请求”按钮调用终结点并生成预测。

{ "dataframe_records": [ { "Island": "Biscoe", "CulmenLength": 48.7, "CulmenDepth": 14.1, "FlipperLength": 210, "BodyMass": 4450 } ] }

自此,一个完整的AutoML的流程就跑完了,自动化机器学习可以帮助大家快速建立AI模型,其实门槛也没那么高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1400018.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GRU门控循环单元神经网络的MATLAB实现(含源代码)

在深度学习领域,循环神经网络(RNN)因其在处理序列数据方面的卓越能力而受到广泛关注。GRU(门控循环单元)作为RNN的一种变体,以其在捕捉时间序列长距离依赖关系方面的高效性而备受推崇。在本文中&#xff0c…

ros2学习笔记-CLI工具,记录命令对应操作。

目录 环境变量turtlesim和rqt以初始状态打开rqt node启动节点查看节点列表查看节点更多信息命令行参数 --ros-args topic话题列表话题类型话题列表,附加话题类型根据类型查找话题名查看话题发布的数据查看话题的详细信息查看类型的详细信息给话题发布消息&#xff0…

推荐两个工具:DeepSpeed-FastGen和DataTrove

DeepSpeed-FastGen 通过 MII 和 DeepSpeed-Inference 加速LLM生成文本 仓库地址:https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-fastgen GPT-4 和 LLaMA 等大型语言模型 (LLM) 已成为服务于各个级别的人工智能应用程序的主要工作负载。从一…

UE5 独立程序的网络TCP/UDP服务器与客户端基础流程

引擎源码版,复制\Engine\Source\Programs\路径下的BlankProgram空项目示例。 重命名BlankProgram,例如CustomTcpProgram,并修改项目名称。 修改.Build.cs内容 修改Target.cs内容 修改Private文件夹内.h.cpp文件名并修改.cpp内容 刷新引擎 …

SpringMVC获取参数与页面跳转

获取参数 第一种 直接当成方法的参数,需要与前台的name一致 相当于Request.getAttribute("username") Controller 第二种 使用对象接收 页面的name也要和对象的字段一致 创建一个对应的实体类 Controller 将参数更换为User对象就行 SpringMVC获取到…

【设计模式】你知道游戏SL大法是什么设计模式吗?

什么是备忘录模式? 老规矩,我们先来看看备忘录模式 (Memento) 的定义:在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态。这样以后就可将该对象恢复到原先保存的状态。 它的UML类图如下&a…

keep-alive组件缓存

keep-alive组件缓存 从a跳b,a已经销毁,b重新渲染;b跳a,b销毁a重新渲染 源组件销毁,目标组件渲染 组件缓存:组件实例等相关( 包括vnode)存储起来 重新渲染指的是:把视图重…

MySQL---多表查询综合练习

创建dept表 CREATE TABLE dept ( deptno INT(2) NOT NULL COMMENT 部门编号, dname VARCHAR (15) COMMENT 部门名称, loc VARCHAR (20) COMMENT 地理位置 ); 添加dept表主键 mysql> alter table dept add primary key(deptno); Query OK, 0 rows affected (0.02 s…

正则表达式初版

一、简介 REGEXP: Regular Expressions,由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能,类似于增强版的通配符功能,但与通…

YOLOv5改进 | 主干篇 | 华为GhostnetV1一种移动端的专用特征提取网络

一、本文介绍 本文给大家带来的改进机制是华为移动端模型Ghostnetv1,华为GhostnetV1一种移动端的专用特征提取网络,旨在在计算资源有限的嵌入式设备上实现高性能的图像分类。GhostNet的关键思想在于通过引入Ghost模块,以较低的计算成本增加了特征图的数量,从而提高了模型的…

消除噪音:Chain-of-Note (CoN) 强大的方法为您的 RAG 管道提供强大动力

论文地址:https://arxiv.org/abs/2311.09210 英文原文地址:https://praveengovindaraj.com/cutting-through-the-noise-chain-of-notes-con-robust-approach-to-super-power-your-rag-pipelines-0df5f1ce7952 在快速发展的人工智能和机器学习领域&#x…

数据结构 | 红黑树

二叉搜索树 节点的左边比节点的值小,右边比节点的值大。 红黑树 红黑树的性质 节点要么是红色,要么是黑色根节点是黑色叶子节点都是黑色的空节点红黑树中红色节点的子节点都是黑色从任一节点到叶子节点的所有路径都包含相同数目的黑色节点 在添加或者…

Rustdesk自建服务搭建好了,打开Win10 下客户端下面状态一直正在接入网络,无法成功连接服务器

环境: Rustdesk1.2.3 自建服务器 有域名地址 问题描述: Rustdesk自建服务搭建好了,打开Win10 下客户端下面状态一直正在接入网络,无法成功连接服务器 解决方案: RustDesk是一款免费的远程桌面软件,它允许用户通过互联网远程连接和控制其他计算机。它是用Rust编程语…

爬虫进阶之selenium模拟浏览器

爬虫进阶之selenium模拟浏览器 简介环境配置1、建议先安装conda2、创建虚拟环境并安装对应的包3、下载对应的谷歌驱动以及与驱动对应的浏览器 代码setting.py配置scrapy脚本参考中间件middlewares.py 附录:selenium教程 简介 Selenium是一个用于自动化浏览器操作的…

web开发学习笔记(10.postman请求响应,后端接口基础知识)

1.springboot使用get请求接受简单参数 上述写法不去别get或者post请求 2.postman各种提交方式的区别 1、form-data: 就是http请求中的multipart/form-data,它会将表单的数据处理为一条消息,以标签为单元,用分隔符分开。既可以上传键值对,也可…

huggingface学习 | 云服务器使用hf_hub_download下载huggingface上的模型文件

系列文章目录 huggingface学习 | 云服务器使用git-lfs下载huggingface上的模型文件 文章目录 系列文章目录一、hf_hub_download介绍二、找到需要下载的huggingface文件三、准备工作及下载过程四、全部代码 一、hf_hub_download介绍 hf_hub_download是huggingface官方支持&…

【C++】文件操作

文件操作 一、文本文件(一)写文件读文件 二、二进制文件(一)写文件(二)读文件 程序运行时产生的数据都属于临时数据,程序一旦运行结束都会被释放,通过文件可以将数据持久化&#xff…

支付宝小程序开发踩坑笔记(支付宝、学习强国小程序)

1、接口请求安卓端回调 success,IOS 端回调 fail 原因:dataType 设置不对,默认是 json 格式,对返回数据会进行 json 解析,如果解析失败,就会回调 fail 。加密传输一般是 text 格式。 2、input 禁止输入空格…

【动态规划】【数学】【C++算法】805 数组的均值分割

作者推荐 【动态规划】【数学】【C算法】18赛车 本文涉及知识点 动态规划 数学 805 数组的均值分割 给定你一个整数数组 nums 我们要将 nums 数组中的每个元素移动到 A 数组 或者 B 数组中,使得 A 数组和 B 数组不为空,并且 average(A) average(B)…

2788.按分隔符拆分字符串

前言 力扣还挺上道(bushi),今天第一次写每日一题,给了个简单等级的数组题,我只能说,首战告捷(小白的呐喊),看看这每日一题我能坚持一天写出来, ok&#xff…