以数据为中心 的AI v.s. 以模型为中心的AI

news2024/12/24 16:53:51

原文:Data-Centric AI vs. Model-Centric AI · Introduction to Data-Centric AI

当你学习关于机器学习相关的课程时,通常是给你一个清洁好的数据,你的任务是利用这个数据集训练出一个最好的模型。所有在机器学习课程教的技巧都是为了这个目标:模型(神经网络,决策树等等),训练技巧(正则化,优化算法,损失函数等等),以及模型/超参数选择(还有模型融合,集成学习)。这种方式我们称为以模型为中心的AI

当我们从事现实世界的机器学习相关工作时,你的公司或者你的用户并不关心你是如何应用一些聪明的模型技巧在质量很好的数据上去训练出一个预测效果很好的模型。跟课堂上不同,现实世界的应用中数据是没有处理好的。你可以随意改变数据集甚至付费收集更多数据使得你的模型表现更好。现实世界的数据通常质量不好一团糟,所以提高数据质量是构造准确模型的前提。老练的数据科学家懂得比起鼓捣模型,探索和处理好数据集更加值得投入精力,但是这个过程对于大型数据集会有点繁复。提高数据质量可以通过人工去做,凭借人们的直觉或专业知识。

与人工处理数据集的方式相比,以数据为中心的AI是使用AI技术更加系统地诊断和处理现实世界中数据集的问题。以数据为中心的AI的形式有:

1.使用AI算法理解数据,然后用这些信息提高模型表现。Curriculum learning是一种这样的算法。

2.AI算法改变数据以提高模型表现。Confident learning是一种这样的算法,这种算法中机器学习模型在一个去除糟糕样本的过滤好的数据集上训练。

在以上例子中,通过把算法应用在训练好的AI模型的输出上,算法自动评估那个样本是糟糕。

适用于监督型机器学习的方法

以数据为中心的AI的工作流程大概是这样:

1.探索数据,处理基本的数据问题,然后转换数据使得数据可以用于机器学习。

2.在整理好的数据集上训练一个机器学习基线模型。

3.使用这个模型帮助你提升数据的质量。(用本教程的技巧)

4.在提升质量之后的数据集上使用不同的模型技巧提高模型的表现,最后得到最好的模型。

以数据为中心的AI例子

这个领域的方法论包括:

--离群检测以及去除离群点(处理数据集中的异常值)

--错误检测以及纠正(处理数据集中不正确的数据/标签)

--达成共识(从多个来源的注释者的决定中得到一个真正的决定,比如决定一个样本的标签的时候,可以综合多个打标签的注释者的意见)

--数据增量(给数据集增加样本)

--特征工程和特征选择(对数据的表达的处理)

--积极学习active learning(下一个打标签的样本要选择信息量最大的样本)

--知识表示curriculum learning(把样本从最简单到最复杂排序)

Tesla的自动驾驶系统对比竞争者的更加先进。他们指出数据工程是关键:(图片来源 https://vimeo.com/274274744)

为什么我们需要以数据为中心的AI

质量差的数据每年花费美国3万亿美金。数据质量问题是每个行业都要面对的问题而且花费巨大。随着数据集增大,如果没有算法的帮助,处理大型数据集是不可能的。在大量数据上训练的机器学习模型比如ChatGPT很大程度依赖人力(人类的反馈)去处理低质量的数据的缺陷。但是全靠人力也不能处理所有的数据缺陷。我们需要自动化的方法和系统化的工程法则去确保机器学习模型能够在清洁的数据上训练。机器学习已经深入到我们生活的方方面面,医疗保健、金融、交通等等,系统以一种可靠的方式得到训练是很有必要的。

近年的研究强调了以数据为中心的AI在各种应用中的价值。对于使用含有有噪声标签的数据训练的图片分类,最近有一项基准研究在逐渐增加著名的Cifar-10数据集噪声率的情况下,使用不同的方法训练模型。研究显示对数据集做一些适应性的改变,然后使用简单的模型训练比起使用噪声数据集训练的复杂模型的准确率更高。

本课程所讲的技巧适用于大部分监督刑机器学习模型以及训练模型的方法。

一些参考:(扩展阅读)

[G21] Press, G. Andrew Ng Launches A Campaign For Data-Centric AI. Forbes, 2021.

[B09] Bengio, Y., et al. Curriculum Learning. ICML, 2009.

[NJC21] Northcutt, C., Jiang, L., Chuang, I.L. Confident Learning: Estimating Uncertainty in Dataset Labels. Journal of Artifical Intelligence Research, 2021.

[R16] Redman, T. Bad Data Costs the U.S. $3 Trillion Per Year. Harvard Business Review, 2016.

[S22] Strickland, E. Andrew Ng: Unbiggen AI. IEEE Spectrum, 2022.

[C23] Chiang, T. ChatGPT is a Blurry JPEG of the Web. New Yorker, 2023.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1085155.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RT-Thread SMP介绍与移植(学习)

RT-Thread SMP介绍与移植 SMP:对称多处理(Symmetrical Multi-Processing)简称SMP,是指在一个计算机上汇集了一组处理器(多CPU),各CPU之间共享内存子系统以及总线结构。 RT-Thread自4.0.0版本开…

Burstormer论文阅读笔记

这是CVPR2023的一篇连拍图像修复和增强的论文,一作是阿联酋的默罕默德 本 扎耶得人工智能大学,二作是旷视科技。这些作者和CVPR2022的一篇BIPNet,同样是做连拍图像修复和增强的,是同一批。也就是说同一个方向,22年中了…

基于SpringBoot的精准扶贫管理系统

目录 前言 一、技术栈 二、系统功能介绍 用户信息管理 贫困户信息管理 新闻类型管理 志愿者招聘管理 志愿者招聘 留言反馈管理 贫困户 三、核心代码 1、登录模块 2、文件上传模块 3、代码封装 前言 随着信息技术在管理上越来越深入而广泛的应用,管理信息…

【笔记】【信息论与编码】第三章 离散信源

本文是笔者在学习《信息论与编码》课程中所做的笔记,供个人学习记忆使用。 第三章 离散信源 文章目录 一、离散信源概念离散无记忆信源K重符号序列离散信源 二、离散信源的熵单符号离散无记忆信源熵K重符号序列离散无记忆信源熵K重符号序列离散有记忆信源熵马尔可夫…

如何在Docker部署Drupal并结合内网穿透实现远程访问

文章目录 前言1. Docker安装Drupal2. 本地局域网访问3 . Linux 安装cpolar4. 配置Drupal公网访问地址5. 公网远程访问Drupal6. 固定Drupal 公网地址 前言 Dupal是一个强大的CMS,适用于各种不同的网站项目,从小型个人博客到大型企业级门户网站。它的学习…

NZ系列工具NZ05:VBA不打开工作簿获取其内容

我的教程一共九套及VBA汉英手册一部,分为初级、中级、高级三大部分。是对VBA的系统讲解,从简单的入门,到数据库,到字典,到高级的网抓及类的应用。大家在学习的过程中可能会存在困惑,这么多知识点该如何组织…

Linux 测试端口是否放行

Linux 测试端口是否放行 1、准备2、在 CentOS 7 上放行端口,你可以使用以下方法:4、错误解决:[rootlocalhost backup]# netcat -l -p 11111 netcat: cannot use -p and -l 装了netcat不能用5、能用telnet去测试吗6、效果: 1、准备…

简易计算器的实现:使用C语言进行基础算术运算

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

S/4 HANA 大白话 - 财务会计-4 应付、应收账款

Business Partner 业务伙伴 业务伙伴现在包括供应商伙伴和客户伙伴。 只要不是个搞空壳玩泡沫的公司,你基本都得有从供应商那里拿原材料或者购买零部件,然后进行生产,再售卖给客户。你得和银行打交道,同时也得有员工。所有这些关…

【python自动化神器pyautogui使用步骤】

python自动化神器pyautogui使用步骤 这篇文章主要给大家介绍了关于python自动化神器pyautogui使用步骤的相关资料,在Python当中不仅代码简单,而且有着非常丰富的模块,pyautogui就可以称之为自动化操作的"神器",需要的朋友可以参考下 文章目录 python自动化神器pyauto…

关于SpringBoot2.x集成SpringSecurity+JJWT(0.7.0-->0.11.5)生成Token登录鉴权的问题

项目场景: 问题:遵循版本稳定的前提下,搭建权限认证框架,基于SpringBoot2.xSpringSecurity向上依赖jjwt0.7.0构建用户认证鉴权,起因是某L觉得jjwt0.7.0版本,官方已经放弃维护,且从maven仓库对0…

C++11发展史

文章目录 1.ChatGpt怎么说?2.C官方文档3.C11的诞生4.C11的意义 1.ChatGpt怎么说? C11是C编程语言的一个重要版本,也被称为C0x。它于2011年发布,并引入了许多新的特性和改进,使得C编程更加现代化和强大。 下面是C11的一些主要特性和发展历…

IDEA报Error:java:无效的源发行版13解决方式

出现问题原因:原本项目是spingboot2.0版本开发的,IDEA启动正常,后期新项目使用spingboot3.0,通过原来的IDEA版本及JDK1.8启动报上述错误,以下为版本文件 解决方式: 项目背景:项目已经上线&…

C++算法:图中的最短环

题目 现有一个含 n 个顶点的 双向 图,每个顶点按从 0 到 n - 1 标记。图中的边由二维整数数组 edges 表示,其中 edges[i] [ui, vi] 表示顶点 ui 和 vi 之间存在一条边。每对顶点最多通过一条边连接,并且不存在与自身相连的顶点。 返回图中 …

【Python中单引号、双引号和三引号具体的用法及注意点】

Python中单引号、双引号和三引号具体的用法及注意点 这篇文章主要给大家介绍了关于Python中单引号、双引号和三引号具体的用法及注意点的相关资料,Python中单引号、双引号、三引号中使用常常困惑,想弄明白这三者相同点和不同点,需要的朋友可以参考下 文章目录 Python中单引号、…

Zabbix监控系统详解1 :zabbix服务部署、自定义监控项、自动发现与自动注册

文章目录 1. Zabbix 概述1.1 简介1.2 zabbix的功能组件1.2.1 Zabbix Server1.2.2 数据库1.2.3 Web 界面1.2.4 Zabbix Agent1.2.5 Zabbix Proxy1.2.6 Java Gateway 1.3 工作原理1.4 常用端口号1.5 zabbix中预设的键值1.6 自定义监控项相关流程1.7 邮件报警配置思路1.8 Zabbix自动…

气膜建筑的可持续性:能源效益与环境影响

气膜建筑作为现代建筑技术的一种创新形式,不仅为城市景观增添了未来感,同时也在建筑领域引发了可持续性发展的讨论。本文将探讨气膜建筑在可持续性方面的关键议题,特别聚焦于其能源效益和环境影响,以期为未来气膜建筑设计和规划提…

dm关键字提示报错

问题出现 还是那个项目,然后呢因为其中涉及到了关键字,导致查询报错, 提示是REFERENCE出现错误。 问题处理 对于所有的关键字增加双引号可以处理。

服务器中了balckhoues勒索病毒怎么办?勒索病毒解密,数据恢复

近日,云天数据恢复中心发现,有多位用户的服务器中了一种名为balckhoues的勒索病毒,因为绝大多数用户是第一次遇到这种情况,所以对这种类型的勒索病毒并不是很了解。那接下来我们将对balckhoues勒索病毒做一个分析。 中毒特征 服务…

10.12作业

以下是一个简单的比喻,将多态概念与生活中的实际情况相联系: 比喻:动物园的讲解员和动物表演 想象一下你去了一家动物园,看到了许多不同种类的动物,如狮子、大象、猴子等。现在,动物园里有一位讲解员&…