本文重点
数据集、样本、特征和标签是机器学习中的重要概念,这些概念在机器学习算法的设计和实现过程中起着至关重要的作用。在本文中,我们将对这些概念进行详细的讲解,以便更好地理解机器学习算法的基本原理和应用。
一、数据集
数据集是机器学习中最基本的概念之一,它是指一组相关数据的集合,如下所示,是一个房价预测的数据集,整个数据集总共又四条数据,也就是四条样本。
在机器学习中,数据集通常被用来训练集和测试集,有时候还会有验证集(后面会讲解不同数据集的作用)。
二、样本
在机器学习中,样本通常被用来表示一个实例或一个事件,例如一张图片、一段文本或一笔交易等,是数据集中的一条数据,样本是数据集中的一个个数据点,它是数据集中最基本的单位。
如上所示,(size=2104、Number of bedrooms=5、Number of floors=1、Age of home(year)=45、Price=460)就是数据集中的一条样本。
样本通常由一组特征和一个标签组成(监督学习有标签、无监督学习没有标签),特征表示样本的属性或特性,标