详解数据科学自动化与机器学习自动化

news2024/11/23 14:58:44

过去十年里,人工智能(AI)构建自动化发展迅速并取得了多项成就。在关于AI未来的讨论中,您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语。事实上,这些术语有着不同的定义:如今的自动化机器学习,即AutoML,特指模型构建自动化。但是,数据科学家的工作内容并不仅止于此。简单地说,数据科学家从数据中获取信息,以解决现实世界中的问题;机器学习只是数据科学家的众多工作方法之一。 从数据预处理到解决方案部署,自动化贯穿数据科学生命周期的每个阶段。毋庸置疑,AutoML极大地提升了数据科学生命周期的自动化程度,尤其是在模型构建阶段。在大多数情况下,自动化主要针对最耗时、最复杂的任务,以降低任务难度,提高效率。借助先进的自动化技术,数据科学家可以将更多时间花在训练任务上:利用数据洞察为其服务的企业开发差异化解决方案。

数据生命周期中的自动化

在解决方案开发过程中,数据科学家完成的每一项任务都包括在数据科学生命周期中。于我们而言,我们需要关注数据科学家在构建AI模型时需要完成的任务。数据生命周期的每个阶段,都涉及到某种程度的自动化。鉴于AI构建过程中有几个步骤较为耗时,这一事实并不出人意料。

数据准备

假设数据科学家需要解决某一问题,则他们的首要任务就是收集和准备数据。通常情况下,数据准备包括将数据转换成正确格式、识别数据错误、以及修复数据异常。目前,数据准备任务已经实现部分自动化。数据科学家可以使用简单的探索法或第三方数据清理工具来清理数据。例如,探索法可以指定自动删除实际范围以外的任何数字。数据清理工具可以自动清理模式、执行统计分析,并根据需要完成其他准备步骤。 为何数据清理仍未实现完全自动化?主要原因是数据科学家需要经常对数据做出主观决策。另外,数据集可能会包含许多边缘数据;数据清理工具或探索法可能无法轻易解决这些问题。

数据探索

数据科学生命周期的下一阶段是数据探索。在这一阶段中,数据科学家使用可视化工具来获得数据概览。与第一阶段相同,数据探索阶段只能实现部分自动化。数据科学家可以自动创建图表,但图表分析仍需要其专业知识。

特征工程

特征工程正逐渐成为AutoML的一部分,并且可能有利于提升ML的自动化程度。特征工程是指从现有输入中创建新的输入变量,新的输入变量与您试图解决的问题相关。如果操作正确,特征工程可以促使模型关注数据中未明确呈现的重要变量,从而提升模型性能。 借助自动化,工具可以从各种表格、文本、地理空间和时间序列数据以及其他来源获得特征。这些工具可以快速评估数百个,甚至数百万个特征,并输出与模型最相关的特征。因此,在自动化的帮助下,数据科学家可以更高效地完成这些传统的人工选择任务。

模型构建

模型构建包括模型选择、验证和超参数优化(HPO)。模型构建可以完全实现自动化,这正是AutoML的真正亮点。AutoML工具可以循环使用同一组输入数据来训练各类模型,以选出性能最佳的模型。工具可以通过超参数优化和重复验证措施自动调整模型,以提高模型准确度。但是,AutoML模型仍会保持高准确性和高置信度,模型质量不会成为模型效率提高的代价。 关于自动化模型构建的更多信息,请参阅我们的文章“关于AutoML,其中包含了您想了解的一切信息。”

持续部署

数据科学生命周期并不止于部署阶段。在实践过程中,每个AI模型都需要持续维护。因此,建立一个再训练流程将是成功的关键。在这一阶段中,我们使用自动化工具为模型提供定期维护检查,以确保模型始终满足准确度和置信度阈值。虽然在这一阶段中保持人机协同仍然大有帮助,但以自动化取代完全人工的过程,可以提高问题解决效率。

一个自动化示例:Github Copilot

最近,Github Copilot软件成功上市,是AI自动化的一个现实示例。这款软件由OpenAI Codex提供支持,是一个AI配对程序员,可以帮助工程师编写代码。Github Copilot可以分析您正在开发的代码,在您输入代码时提示行或函数。该款软件旨在提供替代解决方案和测试用例,从而提高工作效率,降低复杂性。Github Copilot只是机器学习自 动化的最新激动人心的应用之一,可以极大地提高AI和工程的效率。

AI自动化的未来

当我们展望AI的未来时,数据科学自动化和AutoML可以告诉我们什么?首先,AI构建是一项具有挑战的任务,但已变得越来越容易。对自动化的需求无疑源于以下事实:实施AI解决方案需要时间、经费、专业知识等大量资源,而这通常导致许多小型企业望而却步。随着自动化工具的出现,准入门槛会降低,允许更多的参与者进入这一领域进行实验和创新。 随着AI和AutoML的发展,高质量训练数据的需求仍会存在,并且还会持续增长。AI从业者需要更多的数据来优化和修正机器学习模型,以及保持模型的实践性能。与外部数据供应商合作,可以为团队提供适合的工具、专业知识和流程,从而为实现长远的AI目标建立可扩展的数据流程。澳鹏(Appen)拥有目前最先进的AI辅助数据标注平台,其解决方案是获取高质量数据的最可靠来源,可以满足日益增长的数据需求。 数据科学家又会如何?机器是否会影响到对数据科学家的需求?当然不可能。数据科学家拥有机器无法比拟的高度专业化领域知识。定义和理解问题,并对数据进行假设等,都需要主观的专业知识。正如我们在软件工程中所看到的,当软件工程变得更容易时,软件工程师的需求只会上升;数据科学家当然也不例外。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1326194.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ros2机器人常规控制流程

The joint_state_publisher reads the robot_description parameter from the parameter server, finds all of the non-fixed joints and publishes a JointState message with all those joints defined.也就是说如果我们不需要控制机器人运动,只需要一个节点就可…

基于SMU数字源表的微电子和集成电路实训平台系统方案

PART/1 构建微电子和集成电路 实验教学平台 微电子和集成电路涵盖物理学、电子学、材料科学、集成电路设计与制造等学科,在产业上又分为设计、制造和封测三大环节,封测是集成电路产品制造的后道工序,测试环节价值占封测比例约15%-20%&#…

Lammps错误:domain too large for neighbor bins

关注 M r . m a t e r i a l , \color{Violet} \rm Mr.material\ , Mr.material , 更 \color{red}{更} 更 多 \color{blue}{多} 多 精 \color{orange}{精} 精 彩 \color{green}{彩} 彩! 主要专栏内容包括: †《LAMMPS小技巧》: ‾ \textbf…

开放式耳机和骨传导耳机有什么区别?一文读懂开放式和骨传导耳机

很多人都不知道开放式耳机和骨传导耳机的区别是什么,其实骨传导耳机也是开放式耳机的一种! 首先开放式耳机分为两种:分别是气传导耳机和骨传导耳机,这两种耳机都属于开放式耳机,跟传统的入耳式耳机不同,这两…

人工智能大模型互相“薅羊毛”,AI时代的数据侵权问题何去何从?

近期,字节跳动和OpenAI的争议以及谷歌Gemini使用百度文心一言进行中文语料训练等事件引发了行业关注。这些事件暴露了AI领域大模型训练中数据版权侵权的问题,表明行业需要规范和完善数据使用的版权问题。 这些大模型互相“薅羊毛”的事件引起行业关注和…

Jackson 注解及配置大全

Jackson JSON 框架中包含了大量的注解来让我们可以干预 Jackson 的 JSON 处理过程, 例如我们可以通过注解指定 java pojo 的某些属性在生成 json 时被忽略。。本文主要介绍如何使用 Jackson 提供的注解。 Jackson注解主要分成三类,一是只在序列化时生效的…

基本shell功能实现(exec系列程序替换函数练习)

shell 功能描述思路介绍1.实现常驻进程功能2.实现命令读取功能3. 实现命令解析功能4.实现子进程执行命令功能5.完善功能 补充内容让父进程运行内置命令实现子进程能够获得父进程的环境变量功能(export命令)shell实现重定向功能 全部代码如下:…

TCP协议:可靠传输的基石

目录 1. 数据完整性的保证 2. 数据的有序传输 3. 确认应答机制 4. 流量控制 5. 拥塞控制 6. 重传机制 结论 引言 TCP(Transmission Control Protocol)是计算机网络中的一个重要协议,它以其可靠性而闻名。TCP是一种面向连接的协议&…

Hive执行计划

Hive提供了explain命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,Hive 调优,排查数据倾斜等很有帮助。 使用语法如下: explain query;在 hive cli 中输入以下命令(hive 2.3.7): explain select s…

Hadoop 集群环境搭建

目录 第一部分:系统安装... 3 1:图形化安装... 3 2:选择中文... 3 3:安装选项... 3 4:软件选项... 4 5:安装位置... 4 6:网络配置... 6 7:开始安装... 7 8:创建用户... 7…

oracle怎样才算开启了内存大页?

oracle怎样才算开启了内存大页? 关键核查下面三点: 1./etc/sysctl.conf vm.nr_hugepages16384这是给了32G,计划sga给30G,一般需多分配2-4G sysctl -p生效 看cat /proc/meminfo|grep Huge啥结果? 这种明显是配了…

海康威视对讲广播系统 RCE漏洞复现(CVE-2023-6895)

0x01 产品简介 Hikvision Intercom Broadcasting System是中国海康威视(Hikvision)公司的一个对讲广播系统。 0x02 漏洞概述 Hikvision Intercom Broadcasting System 3.0.3_20201113_RELEASE(HIK)版本存在操作系统命令注入漏洞,该漏洞源于文件/php/ping.php的参数jsonda…

WooCommerce Step Filter商城网站步骤过滤器

点击阅读WooCommerce Step Filter商城网站步骤过滤器详情 WooCommerce Step Filter商城网站步骤过滤器是强大而灵活的插件,用于为您的产品创建不同类型的过滤器。它可以通过回答问题和给出每个步骤的描述来帮助您的客户始终如一地选择产品。或者只是将其用作小部件…

Ubuntu20.04.2-mate上Lazarus安装与测试

简言 Lazarus采用RAD方式界面开发,一套代码可交差编译出windows、ios、android、solaris、BSD等 各平台运行的程序,在unbuntu的repo中有2.2.0版本可用,在sourceforge上有2.2.6版本和3.0.0的Rolling版可下载安装,但感觉上2.2.0和2…

基于华为atlas的烟火检测实战

1、下载官方yolov5的v6.1版本 git clone https://github.com/ultralytics/yolov5.git git checkout v6.1 2、烟火数据集准备: tree -d Images/train/目录下图片 Labels/train/目录下标签 3、数据格式转化: 数据集采用labelimg标注,xml文件…

利用prometheus+grafana进行Linux主机监控

文章目录 一.架构说明与资源准备二.部署prometheus1.上传软件包2.解压软件包并移动到指定位置3.修改配置文件4.编写启动脚本5.启动prometheus服务 三.部署node-exporter1.上传和解压软件包2.设置systemctl启动3.启动服务 四.部署grafana1.安装和启动grafana2.设置prometheus数据…

python画图【01】

前提:使用anaconda环境,且安装好,使用的是jupyter pandas 和 matplotlib 安装教程可以参考:miniconda安装与使用 import pandas as pd读取xlsx表格数据 data pd.read_excel("data1.xlsx",sheet_nameSheet1) #data p…

Ubuntu中文本编辑器和编译器

你好,这里是争做图书馆扫地僧的小白。 个人主页:争做图书馆扫地僧的小白_-CSDN博客 目标:希望通过学习技术,期待着改变世界。 目录 前言 一、vim编辑器 (一)打开vim编辑器 (二)v…

Opencv 入门三(视频滑动条窗口)

视频滑动条窗口源码如下&#xff1a; #include "opencv2\highgui\highgui.hpp" #include "opencv2/imgproc/imgproc.hpp" #include <iostream> #include <fstream> using namespace std; int g_slider_position 0; // 滑动条的位置 …

转行小白历险记-2023.12.19 如何解决跨域问题

讨厌突如其来的破坏计划的感觉&#xff0c;真的好烦 一、跨域以及如何解决跨域问题(反向代理) 跨域 同源&#xff1a;协议、端口、域名相同 如何解决跨域问题 jsonp:<script> 不受同源策略限制跨源域资源共享 CORS:允许 Web 应用服务器进行跨源访问控制使不同的源变成同…