在Machine Learning 这个领域,通常训练一个业务模型的难点并不在于算法的选择,而在于前期的数据清理和特征工程这些纷繁复杂的工作,训练过程中的问题在于参数的反复迭代优化。
AutoML 是 Azure Databricks 的一项功能,它自动的对数据进行清理和特征工程并使用数据尝试多种算法和参数来训练最佳机器学习模型。使用这种自动化模型训练可以满足以下业务问题的模型训练:
1、分类问题:
AutoML可以用于解决二分类或多分类问题,如客户流失预测、邮件是否为垃圾邮件的判断等。
2、回归问题:
在涉及连续数值预测的场景中,如销售额预测、房价预测等,AutoML能够提供有效的解决方案。
3、时间序列预测:
对于时间相关的数据,如股票价格预测、需求预测等,AutoML可以通过时间序列分析提供预测。
下面来演示如何使用:
本教程需要Azure Data Bricks工作区,启动工作区方法,请参照下面链接:
想学习云计算么?教你如何免费白嫖微软和AWS的云资源一年-CSDN博客
利用 Azure Data Bricks的免费资源学习云上大数据-CSDN博客
一、启动Data Bricks SQL仓库
在工作区的 Azure Databricks 门户中,在边栏的“SQL”下,选择“SQL 仓库”。
请注意,工作区已包含一个名为 Starter Warehouse 的 SQL 仓库。
在 SQL 仓库的“操作”菜单中,选择“编辑”。然后,将“群集大小”属性设置为“2X-Small”并保存更改。
使用“启动”按钮启动 SQL 仓库(这可能需要一两分钟)
二、上传训练数据
1、将penguins.csv上传到平台中,如下图:
2、上传之后如下图:选择“创建表格”按钮
三、创建机器学习计算节点
创建机器学习计算节点,注意:需要选择单一用户,单节点,Runtime选择ML 14.2ML Scala.2.12,spark3.5.0 ,不要选带GPU的。如下图:
创建成功之后的Cluster配置如下: 注意要去掉使用photon加速这个复选项,然后选择“创建计算”
四、创建 AutoML试验
如下图:在DataBricks工作区中,选择新建--》AutoML试验
1、选择上一步创建好的机器学习类型的集群:
2、ML问题类型:选择“分类” 如下图
3、选择训练用的数据如下图:
4、其它参数配置如下图:
5、选择 最下边的 “启动 AutoML”按钮开始试验
训练结束之后,如下图:
6、在“Species_penguins”页中,选择“查看笔记本的最佳模型”
下面就是打开的笔记的最佳模型的全部训练脚本,可以基于这个最佳模型进行修改优化,或者重新训练。
关闭包含笔记本的浏览器选项卡以返回到实验页面,在运行列表中,选择第一个运行的名称(生成最佳模型)以将其打开
五、在系统中注册模型
选中训练的最佳模型之后,在右上角,选择“注册模型”按钮,出现下面的界面:
在 Model Name 输入库,输入模型名称,然后选择"注册"
注册成功之后,则在左侧菜单栏的“模型” 选项中可以看到已经注册的模型
选择 test-penguins 模型之后,显示该模型的相关信息
- 在“test-penguins”页面上,使用“使用模型进行推理”按钮,使用以下设置创建新的实时终端节点:
- 型号: Penguin-Classifier
- 型号版本:1
- 端点:classify-penguin
- 计算大小:小
创建终结点后,使用右上角的“查询终结点”按钮打开一个界面,您可以从中测试终结点。然后,在测试界面的“浏览器”选项卡上,输入以下 JSON 请求,并使用“发送请求”按钮调用终结点并生成预测。
{ "dataframe_records": [ { "Island": "Biscoe", "CulmenLength": 48.7, "CulmenDepth": 14.1, "FlipperLength": 210, "BodyMass": 4450 } ] }
自此,一个完整的AutoML的流程就跑完了,自动化机器学习可以帮助大家快速建立AI模型,其实门槛也没那么高。