5 个章节、25 条规范,全方位 Get 数据集选择与创建的「百科全书」

news2024/12/29 8:18:52

By 超神经

内容一览:如果你正在学习如何创建或选择一个合适的数据集,那么这篇文章会给你一些实用的建议,帮助你在选择和创建数据集时做出明智的决策。

关键词:机器学习 数据集

本文首发自 HyperAI 超神经微信公众平台~

作者 | xixi

审校 | 三羊

一个高质量的数据集不仅可以提高模型的准确率和运行效率,还可以节省训练时间和算力资源。

本篇文章中,我们参考 Jan Marcel Kezmann 的文章「The Dos and Don’ts of Dataset Selection for Machine Learning You Have to Be Aware of」,对创建和选择数据集的方式方法进行了详细说明,希望帮助各位数据科学工程师避免陷阱、践行模型训练的最佳实践,一起来看看都有哪些 Tips 吧~

阅读英文原文:
https://medium.com/mlearning-ai/the-dos-and-donts-of-dataset-selection-for-machine-learning-you-have-to-be-aware-of-8b14513d94a

目录

  1. 选择数据集的最佳实践

  2. 注意规避的陷阱

  3. 5 个 Tips

  4. 创建数据集的最佳实践

  5. 数据集评估

适用人群:

初学者,数据科学家,机器学习相关从业者

1. 选择数据集的最佳实践

这部分将深入探讨选择公开数据集的最佳实践,需要牢记以下 6 个关键步骤:

1.1 理解问题

理解要解决的问题非常重要,包括确定输入和输出变量、问题类型(分类、回归、聚类等)以及性能指标。

1.2 定义问题

通过指定行业或领域、需要的数据类型(文本、图像、音频等)以及数据集相关的限制条件,从而缩小数据集的范围。

1.3 关注质量

**寻找可靠、准确且与问题相关的数据集。**检查缺失数据、异常值和不一致性,因为这些问题可能会对模型的性能产生负面影响。

1.4 考虑数据集大小

**数据集的大小会影响模型的准确性和泛化能力。**较大的数据集虽然有助于提高模型的准确性和稳健性,但也意味着更多的计算资源和更长的训练时间。

1.5 检查Bias

数据集中的 Bias 可能会导致不公平或不准确的预测。要注意与数据收集过程相关的 bias,例如抽样偏差,以及与社会问题相关的偏差,例如性别、种族或社会经济地位。

1.6 寻求多样性

选择不同来源、人群或地点多样化的数据集,有助于帮助模型从各种不同的例子中学习,避免过拟合。

2. 注意规避的陷阱

本部分适用于预定义数据集及自行创建的数据集。

2.1 数据不足

数据不足会导致模型无法捕捉数据中的潜在模式,从而使得性能不佳。如果没有足够的数据,可以考虑借助数据增强或迁移学习等技术,来增强数据集或模型能力。如果标签一致,可以将多个数据集合并成一个。

2.2 不平衡的类别

类别不平衡是指一个类 (class) 的样本数明显多于另一个类,这会导致预测偏差或其他模型错误。为了解决这个问题,建议使用过采样、欠采样或类别加权等技术。增强代表性不足的类也可以减少这个问题。

温馨提示:
不同的机器学习任务,类不平衡问题对模型的影响也不一样,例如在异常检测任务中,类严重不平衡是正常现象;而在标准图像分类问题中,这种情况比较少见。

2.3 异常值 (Outlier)

异常值是与其他数据样本明显不同的数据点,可能会对模型性能产生负面影响。如果数据集中包含太多的异常值,机器学习或深度学习模型通常会难以学习所需的分布。

可以考虑使用诸如 winsorization 之类的技术删除或校正异常值,或者使用均值/中位数插补方法,将样本中出现的所有缺失值替换为均值或中位数。

2.4数据窥探和泄漏

数据窥探 (data snooping) 会导致过拟合和性能降低,为了避免这种情况,应该将数据集分为训练集、验证集和测试集,并只使用训练集来训练模型。

另一方面,用测试集的数据训练模型会引发数据泄漏,从而导致过于乐观的性能估计。为了避免数据泄漏,应该始终保持验证和测试集的隔离,并只使用它们来评估最终模型。

3. 5 个 Tips

借助迁移学习,用预训练模型解决相关问题,对于特定问题,可以使用较小的数据集进行微调。

合并多个数据集以增加数据集的大小和多样性,从而得到更准确和更稳健的模型。需要注意数据兼容性和质量问题。

用众包方式以较低成本快速收集大量标记数据。需要注意质量控制和偏差问题。

留意各种公司和组织的数据 API,以便以代码方式访问其数据。

检查提供标准化数据集及评估指标的可用 benchmark,便于比较针对同一问题不同模型的性能区别。

4. 创建数据集的最佳实践

4.1 定义问题和目标

在收集任何数据之前,明确想要预测的目标变量、想要解决的问题范围以及数据集的预期用途。

明确问题和目标有助于专注收集相关数据,避免在无关或嘈杂的数据上浪费时间和资源,同时有助于理解数据集的假设和局限性。

4.2 收集多样化和具有代表性的数据集

**从不同的来源和领域收集数据,可以确保数据集能够代表现实世界的问题。**这包括从不同的地点、人口统计学和时间段收集数据,保证数据集不偏向于特定的群体或领域。

此外,要确保数据不含任何混淆变量 (confounding variable),影响假定原因和假定结果的第 3 个未测量变量,会对结果产生影响。

4.3 仔细标注数据

使用明确并且能清晰反映 ground truth 的标签标注数据,通过多位标注人员 (annotator) 或众包方式,减少个人偏见对数据的影响,提高标签的质量和可靠性。建议对数据进行版本控制,以更轻松地跟踪、共享和重现训练和评估过程。

温馨提示:
如果数据集只包含 80% 的正确标签,那么即使是最好的模型,在大多数情况下其准确率也不会超过 80%。

4.4 确保数据的质量和完整性

**数据质量是指数据的准确性 (accuracy)、完整性 (completeness) 和一致性 (consistency)。**借助数据清洗、异常值检测和缺失值插补等技术,有助于提高数据集质量。此外,还需要确保数据格式易于机器学习算法的理解和处理。

4.5 确保数据隐私和安全

为了保护隐私,需要确保数据的收集和存储都是安全的,任何敏感信息都已被匿名化或加密处理。此外,还可以考虑使用加密技术来保护数据在传输和静态存储时的安全。

温馨提示:
注意验证数据的使用规范,确保其符合法律法规。

5. 数据集评估

检查数据集是否已经充分满足以下 5 个标准:

  • 数据规模:通常来说,数据越多越好。

    数据分布:确保数据集是平衡和有代表性的。

    数据质量:干净、一致和无误的数据至关重要

    数据复杂度:确保数据不过于复杂。

    数据相关性:数据应与问题相关。


以上就是数据集选择与创建指南的完整内容,选择一个合适的数据集是机器学习的关键,希望这份指南可以帮助各位选择或创建优质数据集,训练出准确、稳健的模型!

海量公开数据集在线下载

截至目前,HyperAI超神经官网已上线 1200+ 优质公开数据集,完成近 50 万次下载,贡献 2000+TB 流量,极大降低了海内外优质公开数据集的访问门槛。

请添加图片描述

访问以下链接,即刻搜索下载你需要的数据集,开启模型训练之旅!

访问官网:https://hyper.ai/datasets

*本文首发自 HyperAI 超神经微信公众平台~

—— 完 ——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/559167.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

星标3.5k,一款国产的轻量级开源在线项目任务管理工具

今天给大家推荐一个轻量级的开源在线项目任务管理工具:DooTask 图片 DooTask 提供各类文档协作工具、在线思维导图、在线流程图、项目管理、任务分发、即时IM,文件管理等工具。 高效便捷的团队沟通工具 针对项目和任务建立群组,工作问题可…

SRP Batcher在真机上失效

1)SRP Batcher在真机上失效 ​2)Shader里面对同一张纹理多次采样会影响效率吗 3)为什么纹理开启了mipmap后,纹理内存反而下降了 4)TMP为什么有多次Delegate.Combine()的GC 这是第336篇UWA技术知识分享的推送&#xff0…

如何减少电脑内存占用?

内存(Memory)是计算机一个重要的组成部件,也称为内存储器或主存储器。它可以暂时存放CPU中运算的数据,以及与硬盘等外部存储器交换的数据,是CPU和硬盘之间的桥梁。若电脑内存占用过高,这会影响到电脑运行的速度,那该如…

网络安全行业推荐考取的证书有哪些?

下面就让知白小编来给解读一下这个问题~作为网络安全行业从业者或者相关专业的大学生,如果相应的职业证书在手,肯定是会身价倍增。 咳咳,但是如果你还是网络安全小白,知白小编不建议你直接去考认证,应该是先打好基础学…

三、LLC 谐振变换器

电压增益特性分析 根据搭建的 LLC 谐振变换器主电路等效模型,可推导出变换器直流电压 增益为 M: λ 4时的增益曲线如下图所示: 根据变换器直流电压增益表达式,利用 Mathematica 绘制出λ4 时,变换器取不同 Q 值的直…

创建型设计模式01-简单工厂模式

✨作者:猫十二懿 ❤️‍🔥账号:CSDN 、掘金 、个人博客 、Github 🎉公众号:猫十二懿 这里只是简单的将《大话设计模式【Java溢彩加强版】》的内容简单是复述一下,并加上自己的理解 简单工厂模式 1、引入问…

windows环境下sublime的nodejs插件详细安装图解

前面的话 搜索了好多文档后,才成功地安装了sublime text3的nodejs插件。为了存档,也为了方便有同样需求的朋友,将其安装过程详细记录如下 安装nodejs 虽然nodejs官网提供了node的msi文件,但本人在win7系统下多次尝试,…

在阿里干了6年自动化测试,30岁即将退休的我,告诉你自动化测试工程师有多吃香...

测试人员需要具备自动化测试或者测试开发能力,已经成为测试行业内容的一种显在趋势,而且这种趋势呈放大态势,其发展前景是十分明朗的。 2022这种疫情期间,就业大环境不是很理想,目前呢,企业倾向于招自动化…

Win11下Microsoft Store安装Ubuntu报错解决指南

目录 从Microsoft Store下载Ubuntu下载安装完毕后,打开安装时报错: 一. WslRegisterDistribution failed with error: 0x8007019e 二. WslRegisterDistribution failed with error: 0x800701bc 如果帮到你的话,麻烦点个免费的关注吧bro♥…

测试开发工程师的薪资上限究竟在哪?年薪50W都不是梦...

在说测试开发工程师的薪资待遇之前,咱们要先了解软件测试岗位是用来做什么的,岗位是否重要,只有你知道了这些,才能判断这个岗位是否有价值!软件测试是依据需求分析和测试用例,运用手工和自动化的手段来验证…

市场需求升级,cv5200带来新的WiFi传输解决方案,远距离无线通信技术

近年来,随着无线通信技术的不断发展,越来越多的应用需要高速率、远距离、稳定的数据传输。 远距离WiFi传输是指通过WiFi信号实现在远距离范围内的无线通信和数据传输。 为此,cv5200采用了先进的技术,并提供了较远的传输距离、高…

高速高密PCB高级验证技巧(四): 扫除信号线的意外回音

现今电子产品复杂度越趋增加,信号速度越来越快,在信号传输的过程中,如果信号不断反射便会对电子产品的运作造成影响,而这又与阻抗连续性以及阻抗匹配息息相关;而如何避免信号反射,除了在硬件设计时的规划外…

我用过的这5款小工具,你用了其中几款?

有时候一些小工具,能给你带来一些意想不到的效果,我们来看看下面这5款工具,你又用过其中几款呢? 1.文件差异比较工具——WinMerge WinMerge是一款文件和文件夹比较工具,它可以查看文件和文件夹之间的差异,并进行合并。这个工具有…

uCOSii任务管理

uCOSii任务管理 主要用来测试uCOSii“创建任务,挂起任务,恢复任务,发送删除任务请求,删除任务”。 在os_cfg.h中 #define OS_LOWEST_PRIO 63u //设置最低优先级为63,则空闲任务优先级OS_TASK_IDLE_PRIO就等于63 //OS_PRIO_SELF为255,因此OS_LOWEST_PRIO<255 注意&a…

目标检测数据预处理——非宫格与宫格混合拼图(大宽高比图片)

之前一直用的是宫格的正方形拼图&#xff0c;但比如对“人”框的截图是这种高宽高比的长方形图片&#xff0c;按照最大边resize最小边等比例缩放后放入宫格中对造成最小边resize太多&#xff0c;整体图片缩小很多。所以本片专门针对高宽高比的图片拼图进行编辑。 本篇的拼图方式…

一些好用的软件推荐给你

软件一&#xff1a;nTrun nTrun 是一款非常实用的快速启动工具&#xff0c;它可以帮助用户快速启动各种常用的应用程序、网站和文件。此外&#xff0c;nTrun 还具有以下强大的功能&#xff1a; 自定义快捷键&#xff1a;用户可以根据自己的需求为每个应用程序、网站或文件设置…

Mysql链接工具

众所周知为了可以更好的操作 Mysql 数据库&#xff0c;我们都会采用远程连接工具的方式连接 Mysql 数据库&#xff0c;使用远程连接工具连接的好处在于&#xff1a; 方便远程访问&#xff1a;如果你需要在外部网络环境中访问 MySQL 数据库&#xff0c;使用远程连接工具可以方便…

《人生十二法则》- 解决人生80%不如意

法则一获胜的龙虾从不低头&#xff1a;笔直站 立&#xff0c;昂首挺胸。 法则二像照顾生病的宠物一样关心自 己&#xff1a;待己如助人。 法则三放弃损友&#xff1a;与真心希望你好的人 做朋友。 法则四战胜内心的批评家&#xff1a;和昨天的自 己比&#xff0c;别和今天的…

微软官方Microsoft Remote Desktop for Mac

microsoft-remote-desktop-for-mac 时候还是需要用到windows系统上的数据或者软件&#xff0c;除了使用第三方开发商的远程桌面工具外&#xff0c;微软公司也提供了Mac版&#xff08;iMac和MacBook&#xff09;的远程桌面软件&#xff08;Microsoft Remote Desktop&#xff09…

大数据Doris(二十五):Doris数据Binlog Load导入方式介绍

文章目录 Doris数据Binlog Load导入方式介绍 一、基本原理 二、Canal原理及配置 1、Canal同步MySQL数据原理 2、开启MySQL binlog 3、Canal配置及启动 三、Doris同步MySQL数据案例 1、MySQL中创建源表 2、Doris中创建目标表 3、创建同步作业 四、注意事项 1、关于配…