1. 数据集和数据集的分类
数据集是一组数据的集合,通常用于机器学习、统计分析、数据挖掘等领域,帮助算法训练、模型验证和评估。可以是各种形式的数据,如表格、图像、机器学习相关的文件等。
根据在机器学习中的应用,数据集可以分为训练集、验证集和测试集。
训练集:用于训练模型
验证集:训练过程中,用于调整超参和选择最佳模型
测试集:训练完成后,用于评估最终模型的准确率
2. 数据集收集
数据集的来源多种多样,涵盖了不同的领域和用途。以下是一些常见的数据集来源:
- 公开数据集
Kaggle:一个广泛使用的数据科学和机器学习竞赛平台,提供大量开源数据集,涵盖图像、文本、时间序列等多种类型。(https://www.kaggle.com/datasets)
UCI机器学习库:UCI机器学习库是一个历史悠久的机器学习数据集存储库,包含多个用于教学和研究的数据集。(https://archive.ics.uci.edu/datasets.html)
Paper(比较重要):
1. 明确自己的目标任务,去搜索相关的论文。这里给出一个网站叫做PaperWithCode。(Machine Learning Datasets | Papers With Code)
2. Google 一下相关方向的 Summary Paper。Summary Paper中常含有这个领域常用的一些数据集。下面给出一个例子:
任务:文档去阴影算子
- 科研机构和政府部门
政府数据:data.gov(美国)、data.gov.uk(英国)、data.gov.cn(中国)
科研机构:哈佛大学Dataverse、斯坦福大学的Stanford Large Network Dataset Collection
- 企业和行业数据
技术公司:Google的开源数据集(https://toolbox.google.com/data)、Microsoft的MS MARCO数据集(https://msropendata.com/)、亚马逊数据集(https://registry.opendata.aws/)
- 搜索一些深度学习框架的开源AI社区,里面会有大量的项目、相关的数据集。
eg: PaddlePaddle, MMLab, Huggingface(NLP用的较多)。
其他方式有:开源社区、客户数据
3. 数据集的评估标准
区分数据集的好坏对数据科学和机器学习项目的成功至关重要。以下是评估数据集质量的一些关键标准:
- 数据完整性:数据集包含所有情况,异常情况是否处理得当。
- 数据准确性:数据真实反映了显示情况,以及数据标注的精度。
- 数据多样性:数据涵盖了足够的变异性和多样性
- 数据量:数据量足够进行模型的训练和评估。