小数据 vs 大数据:为AI另辟蹊径的可操作数据

news2025/1/19 8:17:12

在人工智能背景下,您可能已听说过“大数据”这一流行语,那“小数据”这一词呢,您有听说过吗?无论您听过与否,小数据都无处不在:线上购物体验、航空公司推荐、天气预报等均依托小数据。小数据即一种采用可访问和可操作格式,且易于人类理解的数据。通常,数据科学家会利用小数据分析现状。 在机器学习(ML)领域,小数据的应用越来越多,这很大可能是因为数据可用性的普遍增强,以及新数据挖掘技术的试验。随着AI在各行各业的发展,数据科学家越来越多地关注小数据,因为小数据只需要低水平的计算能力,且易于使用。  

 

小数据与大数据

与大数据相比,小数据到底有何不同? 大数据由大块的结构化和非结构化数据组成。大数据规模庞大,比小数据更难理解和分析,需要高水平的计算机处理能力来解释。 小数据能够为公司提供可操作的洞察,而不是像大数据分析一样,需要复杂的算法。因此,公司不需要在数据挖掘过程投入太多。通过应用计算机算法,可以将大数据转换成小数据。这些计算机算法将数据转换成可操作的小数据块,每个小数据块都是大数据集的组成部分。 大数据转换成小数据的一个示例:在品牌发布期间,对社交媒体进行监控。网上每分每秒都会涌现大量的社交媒体帖子。数据科学家需要根据发布平台、时间段、关键词或其他相关特征,对数据进行筛选。这一过程将大数据转换成更易于管理的数据块,可以从中获取相关洞察。  

小数据的优势

在上文中,我们提及了小数据较之大数据的优势,但有几点仍值得强调。 大数据的管理难度高:大规模使用大数据是一项艰巨任务,数据分析需要依靠强大的计算机能力。 小数据的管理难度低:小数据块分析的效率高,不需要投入太多的时间和精力。这意味着小数据比大数据更具有可操作性。 小数据无所不在许多行业已在广泛应用小数据。例如,社交媒体提供了大量可操作的数据,这些数据的用途各异,比如市场营销或其他用途。 小数据关注终端用户:通过小数据,研究人员可以关注终端用户,将用户需求放在首位。小数据可以用来解释终端用户的行为动机。 在许多应用场景中,小数据是一种快速、有效的分析方法,可以帮助我们深入了解各行业的客户。  

机器学习中的小数据处理方法

监督学习是最传统的机器学习方法,是指利用大量标注的训练数据来训练模型。但除此以外,还有许多模型训练方法。其中,还有很多训练方法成本效益高、耗时低,越来越备受青睐。虽然这些方法要经常依赖于小数据,但在这种情况下,数据质量变得至关重要。 当模型只需要少量数据或模型训练数据不足时,数据科学家就会使用小数据。此时,数据科学家可以使用以下任何一种机器学习技术。

少样本学习

通过少样本学习技术,数据科学家为机器学习模型提供少量训练数据。少样本学习技术经常应用于计算机视觉领域。在计算机视觉中,模型可能不需要很多示例来识别某一对象。例如,如果具有用于解锁智能手机的面部识别算法,则无需数千张您的照片便可开启手机。手机只需要几张照片,就可以开启安全功能。 少样本学习技术成本低且工作量小。在模型处于完全监督学习状态而训练数据不足时,就非常适合使用少样本学习。

知识图谱

知识图谱属于二级数据集,因为知识图谱是通过筛选原始的大数据而形成的。知识图谱由一组具有定义含义并描述特定域的数据点或标签组成。例如,一个知识图谱可能由一系列著名女演员名字的数据点组成,共事过的女演员之间以线(或称之为边)连接起来。知识图谱是一种非常有用的工具,以一种高度可解释和可重复使用的方式组织知识。

迁移学习

当一个机器学习模型作为另一模型的训练起点,以帮助此模型完成相关任务时,就需要用到迁移学习技术。从本质上讲,是将一个模型的知识迁移到另一个模型。以原始模型为起点,再使用额外数据来进一步训练模型,从而培养模型处理新任务的能力。如果新任务不需要原始模型的某些构成部分,也可以将其删除。 在自然语言处理和计算机视觉等需要大量计算能力和数据的领域,迁移学习技术尤为有效。应用迁移学习技术可以减少任务的工作量和所需时间。

自监督学习

自监督学习的原理是,让模型从现有的数据中收集监督信号。模型利用现有数据来预测未观测到的或隐藏的数据。例如,在自然语言处理中,数据科学家可能会在模型中输入一个缺少单词的句子,然后让这个模型预测所缺少的单词。从未隐藏的单词中获得足够的背景线索后,模型便学会识别句中隐藏的单词。

合成数据

当给定数据集存在缺失,而现有数据无法填补时,就可以利用合成数据。比较普遍的示例是面部识别模型。面部识别模型需要包含人类全部肤色的面部图像数据;但问题是,深色人脸的照片比浅色人脸的照片数据要少。数据科学家可以人工创建深色人脸数据,以实现其代表的平等性,而不是创建一个难以识别深色人脸的模型。但机器学习专家必须在现实世界中更彻底地测试这些模型,并在计算机生成的数据集不足时,添加额外的训练数据。 本文所提到的方法并不详尽,但也展现出机器学习多方向发展的前景。一般而言,数据科学家正在减少使用监督学习技术,转向尝试依赖小数据的方法。  

数据科学总监Rahul Parundekar的专业洞察

明确小数据的“小”并不代表数据量小,这一点尤为重要。小数据是指使用符合需求的数据类型构建模型,从而生成商业洞察和实现自动化决策。我们经常会看到有人对AI功能期望过高,仅仅收集几张图片数据,就期望获得一个高质量的模型,但这不是我们在这里要讨论的内容。我们讨论的是,找出最适合用于模型构建的数据,在实际部署时,模型可以输出正确内容,满足您的需求。 以下是在创建“小”数据集时需要谨记的一些事项:

数据相关性

明确数据集构成数据的类型,选择正确的数据。您应确保数据集只包含模型在实践中(或生产中)接触到的数据类型。例如,如果您对一条生产输送线的一种产品进行缺陷检测,您就应该准备一组包含有缺陷和无缺陷零件、传送带上无物体的图像数据集,并输入安装在这条生产输送线上的摄像机中。

数据多样性与重复性

重要的是,涵盖模型在实践中可能接触到的所有数据应用场景,且要保证各类数据之间的平衡。不要使用已有数据来填充数据集,以避免出现数据填充过度问题。在缺陷检测示例中,您要确保模型可以捕获无缺陷物品、有不同类型缺陷的物品,无论是在工厂车间不同的照明条件下,在传送带上的各种旋转和位置,还是在维护模式下可能会出现的几个样品。因为没有缺陷的成品都一样,您不需要过度填充这类数据。另一个不必要重复的示例是变化很少或没有变化的视频帧。

依靠强劲技术构建

上文提及的小数据处理技术提供了坚实的技术基础。也许,您可以从迁移学习技术中获益,这种技术将经过训练且性能较佳的模型的知识迁移到相关领域的另一模型,并利用小数据来修正新模型。对于缺陷检测示例,这可能是您先前训练过的另一个缺陷检测模型,而不是修正基于MS COCO数据集来训练的模型,这与您在传送带线场景上的缺陷检测不同。

以数据为中心的AI与以模型为中心的AI

AI行业的最新研究表明,如果通过合适的数据训练模型,模型性能会受到更大的影响。通过找到边缘数据和数据差别,就可以产生更佳结果,而不是使用多个超参数、不同的模型架构,总之,就是假设有能力的数据科学家会“弄清楚”。如果缺陷检测模型无法准确地检测某些类型的缺陷,您应该投入更多精力来增加这些类型的图像数据,而不是尝试不同的模型架构或超参数优化。

与训练数据专家合作

对于以数据为中心的AI,您也希望将调试工作集中在领域专家更擅长的数据工作上,而不是数据科学家擅长的模型工作上。在模型失败的情况下,与领域专家一起确定模式,并假设模型可能的失败原因。这有利于帮助您确定所需的正确数据。例如,对象缺陷工程师专家可以帮助您确定模型所需的正确数据的优先级,清理上文提到的噪音或不需要的数据,甚至可能会指出,数据科学家可能用于选择更好的模型架构的细微差别。 总而言之,小数据比大数据更“密集”。您希望在尽可能小的数据集中获得最高质量的数据,使数据具有成本效益,并且可以通过上文所述的任一种技术来构建您的“冠军”模型。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/896027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

webpack 和 ts 简单配置及使用

如何使用webpack 与 ts结合使用 新建项目 ,执行项目初始化 npm init -y会生成 {"name": "tsdemo01","version": "1.0.0","description": "","main": "index.js","scripts&…

java_免费文本翻译API_小牛翻译

目录 前言 开始集成API 纯文本翻译接口 双语对照翻译接口 指定术语翻译接口 总结 前言 网络上对百度,有道等的文本翻译API集成的文章比较多,所以集成的第一篇选择了小牛翻译的文本翻译API。 小牛翻译文本翻译API,支持388个语种&#xff0…

CrossOver2023快速在Mac和Linux系统上运行Windows软件

让您可以在 Mac 和 Linux 系统上运行 Windows 应用,不必购买 Windows 授权,不必重启系统,不必使用虚拟机。通过 CrossOver, 您可以从 dock 直接启动 Windows 应用,与您的 Mac 和 Linux 系统功能无缝集成。 无需重启 Cr…

强训第35天

选择 A 经过一个1->2 经过两个2->4 开始慢增长 4->5 5->6....9->10 到达4KB时变成慢增长,最多增长到10 D 网络号是180.80.76 但题目让向主机所在子网发广播 180 .80 .(01001101 | 111111 11)79 .255 标红的两位属于主机号所以答案为D A C 分片的组…

排名算法简介:对搜索结果进行排序的主要排名算法

一、介绍 学习排名 (LTR) 是一类监督式机器学习算法,旨在根据项目与查询的相关性对项目列表进行排序。在分类和回归等问题中的经典机器学习中,目标是根据特征向量预测单个值。LTR 算法对一组特征向量进行操作,并预测项…

【FAQ】视频集中存储EasyCVR安防监控平台接入AI分析时的通道显示问题排查

安防视频监控平台视频集中存储EasyCVR可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。 安防监控视频云存储平台EasyCVR既具…

为什么贴片电阻的阻值不规律?为了在某精度下做到阻值的全覆盖(对,但不全对),E系列电阻的算法(E12系列值不对的猜想)

1、先放上E系列的电阻表格 E12精度10%,E24精度5%,E96精度1%; 2、以精度作为条件的演算 通常我们选择电阻,要确定电阻的精度,如果以精度作为条件。 以10%精度来说:(数值少,好算&am…

STM32 CubeMX (第二步Freertos任务通信:队列、信号量、互斥量,事件组,任务通知)

STM32 CubeMX STM32 CubeMX ____Freertos任务通信:队列、信号量、互斥量,事件组,任务通知 STM32 CubeMX一、STM32 CubeMX设置时钟配置HAL时基选择TIM1(不要选择滴答定时器;滴答定时器留给OS系统做时基)使用…

超分辨率地震速度模型

文献分享 1. Multitask Learning for Super-Resolution 原题目:Multitask Learning for Super-Resolution of Seismic Velocity Model 全波形反演(FWI)是估算地下速度模型的强大工具。与传统反演策略相比,FWI充分利用了地震波的…

计算机丢失msvcp110.dll是什么意思?如何修复?

在日常使用电脑的时候,有时候会遇到一些使用问题。 比如,有一次遇到了这样一个问题。 那就是,因为“msvcp110.dll”这个文件丢失,有些软件安装不了。 计算机丢失msvcp110.dll是什么意思?该如何修复呢? ​…

05-微信小程序常用组件-表单组件

05-微信小程序常用组件-表单组件 文章目录 表单组件button 按钮案例代码 form 表单案例代码 image 图片支持长按识别的码案例代码 微信小程序包含了六大组件: 视图容器、 基础内容、 导航、 表单、 互动和 导航。这些组件可以通过WXML和WXSS进行布局和样式设…

LC-二叉树最大深度

LC-二叉树最大深度 链接:https://leetcode.cn/problems/maximum-depth-of-binary-tree/description/ 描述: 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 例1: …

一力破万法,Fiddler跟Charles抓包图文详解教程

一、Fiddler 1.1 Fiddler抓取HTTPS设置 1.1.1 配置证书 Tools菜单 —> Options —> HTTPS —> 勾选Decrypt HTTPS traffic选项。 说明: 勾选Decrypt HTTPS traffic选项:Decrypt HTTPS traffic:意思是解密HTTPS流量(…

[VS/C++]如何更好的配置DLL项目中的成品输出

注意,解决方案与项目不放在同一个文件夹中,即不选中图中选项 直入主题 首先右键项目选择属性,或者选中项目然后AltEnter 选择配置属性下的常规 分别在四种配置中编辑输出目录如下 注意,四种配置要分别配置,一个个来…

leetcode做题笔记86分隔链表

给你一个链表的头节点 head 和一个特定值 x ,请你对链表进行分隔,使得所有 小于 x 的节点都出现在 大于或等于 x 的节点之前。 你应当 保留 两个分区中每个节点的初始相对位置。 示例 1: 输入:head [1,4,3,2,5,2], x 3 输出&am…

用pytorch实现google net

GoogleNet(也称为Inception v1)是由Google在2014年提出的一个深度卷积神经网络架构。它在ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2014比赛中取得了优秀的成绩,并引起了广泛的关注。 GoogleNet的设计目标是构建一个更…

【学会动态规划】最长湍流子数组(23)

目录 动态规划怎么学? 1. 题目解析 2. 算法原理 1. 状态表示 2. 状态转移方程 3. 初始化 4. 填表顺序 5. 返回值 3. 代码编写 写在最后: 动态规划怎么学? 学习一个算法没有捷径,更何况是学习动态规划, 跟我…

LeetCode49.字母异味词分组

我一开始的思路就是用1个hashmap<Integer,List<String>>,Integer存的的是字符串所有字母ASCLL值的和&#xff0c;List里面放异位字符串&#xff0c;但是不是异位的字符串的ascll值也可能相同比如acd和abe&#xff0c;所以这个hashmap只能降低一点时间复杂度我还是要…

整理mongodb文档:索引

个人博客 整理mongodb文档:索引 个人博客&#xff0c;求关注&#xff0c;有问题的地方欢迎指出&#xff0c;觉得讲解的繁琐的也请指出 文章概叙 本文主要还是在shell下的操作。让大家了解下mongodb中index的用途&#xff0c;基本的索引的新增、查看、删除等&#xff0c;最后…

使用Dockker创建vwas容器时报错的解决方法

执行命令 docker run -it -d -p 13443:3443 --cap-add LINUX_IMMUTABLE secfa/docker-awvs没有详细看报错之前找了各种各样的解决办法&#xff0c;都无法解决。因此以后在看报错提示的时候耐心一点看关键词Error 后来才发现启动vwas时docker报了这个错&#xff1a; OSError: …