数据集由数据对象组成,一个数据对象代表一个实体。数据对象又称样本、实例、数据点或对象。属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。
属性有不同类型:标称属性(nominal attribute)、二元属性(binary attribute)、序数属性(ordinal attribute)、 数值属性(numerical attribute)、离散属性与连续属性。
属性:(Attribute)是一个数据字段,表示数据对象的一个特征。在文献中,属性、维(Dimension)、特征(Feature)和变量(Variable)表示相同的含义,可以在不同场合互换使用。
数据对象的属性,可以做以下的分类:
一、从定量和定性分类:
(1)定性:标称的(名义的)、序数的、二元的
(2)定量:区间的、比率的
(1)定性:
标称值,一般不用于数据符号的运算。它无法量化或排序。比如,符号、字符、单词、性别和其他标称数据都是标称数据的实例。除此之外,还有国家,民族,语言等等。
虽然无量化意义,但是该属性最常出现的值,这个值称为众数(mode ),是一种中心趋势度量,这也是一件有意义的事情。在计算机科学中,这些值也被看做是枚举的(enumeration )。
二元的,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,如果两种状态对应于true。和false的话。比如,倘若属性:cooker描述患者对象,1表示患者抽烟,0表示患者不抽烟。类似地,假设患者进行具有两种可能结果的医学化验。属性medical_ test是二元的,其中值1表示患者的化验结果为阳性,0表示结果为阴性。
序数的,是自然的,有序的。比如,月份、日期、一天的时间描述(早上、上午、中午、下午、晚上、夜里),调查问卷的反馈(十分满意、比较满意、满意、一般、不满意、比较不满意、十分不满意),还有军衔、职级等等。同样,无量化意义,但是可以通过分组来分析占比。其可能的值之间具有有意义的序或秩评定( ranking ),但是相继值之间的差是未知的。对于记录不能客观度量的主观质量评估,序数属性是有用的。因此,序数属性通常用于等级评定调查。
注意,标称、二元和序数属性都是定性的。即,它们描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常是代表类别的词。如果使用整数,则它们代表类别的计算机编码,而不是可测量的量(例如,0表示小杯饮料,1表示中号杯,2表示大杯)。
(2)定量:
区间的,区间标度(interval- scaled)属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。因此,除了值的秩评定之外,这种属性允许我们比较和定量评估值之间的差。
例: temperature(温度)属性是区间标度的。假设我们有许多天的室外温度值,其中每天是一个对象。把这些值排序,则我们得到这些对象关于温度的秩评定。此外,我们还可以量化不同值之间的差。例如,温度20℃比5℃高出15 0C。日历日期是另一个例子。例如,2002年与2010年相差8年。所以,除了秩评定之外,这种属性允许比较和定量评估值之间的差。例如,身高属性是区间标度的。假设我们有一个班学生的身高统计值,将每一个人视为一个样本,将这些学生身高值排序,可以量化不同值之间的差。A同学身高170cm比B同学165cm高出5cm。 对于没有真正零点的摄氏温度和华氏温度,其零值不表示没有温度。例如,摄氏温度的度量单位是水在标准大气压下沸点温度与冰点温度之差的1/100。尽管可以计算温度之差,但因没有真正的零值,因此不能说10℃比5℃温暖2倍,不能用比率描述这些值。但比率标度属性存在真正的零点。
比率的,比率标度(ratio- scaled)属性是具有固有零点的数值属性。也就是说,如果度量是比率标度的,则我们可以说一个值是另一个的倍数(或比率)。此外,这些值是有序的,因此我们可以计算值之间的差,也能计算均值、中位数和众数。
例: 不像摄氏和华氏温度,开氏温标(K)具有绝对零点(00K =-273. 150C ):在该点,构成物质的粒子具有零动能。比率标度属性的其他例子包括诸如工作年限(例如,对象是雇员)和字数(对象是文档)等计数属性。其他例子包括度量重量、高度、速度和货币量(例如,100美元比1美元富有100倍)的属性。
温度标度 温度能够非常好地解释前面介绍的一些概念。
首先。温度能够是区间属性或比率属性,这取决于其測量标度。当温度用绝对标度測量时,从物理意义上讲,2°的温度是1°的两倍。当温度用华氏或摄氏标度測量时则并不是如此,由于这时1°温度与2°温度相差并不太多。问题是从物理意义上讲,华氏和摄氏标度的零点是硬性规定的,因此,华氏或摄氏温度的比率并无物理意义。
前面介绍的几种属性类型之间是不互斥的,我们还可以用许多其他方法来组织属性类型,使类型间不互斥。
二、数据属性从值的个数的角度,可以分为:二元的,离散的,连续的。
离散的(discrete),离散属性具有有限个值或无限可数个值。这种属性能够是分类的。如邮政编码或ID号。也能够是数值的,如计数。通常。离散属性用整数变量表示。二元属性(binary attribute)是离散属性的一种特殊情况,并仅仅接受两个值,如真/假、是/否、男/女或0/1。通常。二元属性用布尔变量表示。或者用仅仅取两个值0或1的整型变量表示。
连续的(continuous),连续属性是取实数值的属性。如温度、高度或重量等属性。通常,连续属性用浮点变量表示。实践中,实数值仅仅能用有限的精度測量和表示。
从理论上讲,不论什么測量标度类型(标称的、序数的、区间的和比率的)都能够与基于属性值个数的随意类型(二元的、离散的和连续的)组合。然而。有些组合并不常出现,或者没有什么意义。比如,非常难想象一个实际数据集包括连续的二元属性。
通常,标称和序数属性是二元的或离散的,而区间和比率属性是连续的。然而,计数属性(count attribute)是离散的,也是比率属性。
本文部分来源:《数据挖掘概念与技术》