数据对象属性分类

news2024/11/19 2:42:17

  数据集由数据对象组成,一个数据对象代表一个实体。数据对象又称样本、实例、数据点或对象。属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。

属性有不同类型:标称属性(nominal attribute)、二元属性(binary attribute)、序数属性(ordinal attribute)、 数值属性(numerical attribute)、离散属性与连续属性。 

 属性:(Attribute)是一个数据字段,表示数据对象的一个特征。在文献中,属性、维(Dimension)、特征(Feature)和变量(Variable)表示相同的含义,可以在不同场合互换使用。

数据对象的属性,可以做以下的分类:

一、从定量和定性分类:

(1)定性:标称的(名义的)、序数的、二元的

(2)定量:区间的、比率的

(1)定性:

标称值,一般不用于数据符号的运算。它无法量化或排序。比如,符号、字符、单词、性别和其他标称数据都是标称数据的实例。除此之外,还有国家,民族,语言等等。

虽然无量化意义,但是该属性最常出现的值,这个值称为众数(mode ),是一种中心趋势度量,这也是一件有意义的事情。在计算机科学中,这些值也被看做是枚举的(enumeration )。

二元的,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,如果两种状态对应于true。和false的话。比如,倘若属性:cooker描述患者对象,1表示患者抽烟,0表示患者不抽烟。类似地,假设患者进行具有两种可能结果的医学化验。属性medical_ test是二元的,其中值1表示患者的化验结果为阳性,0表示结果为阴性。

序数的,是自然的,有序的。比如,月份、日期、一天的时间描述(早上、上午、中午、下午、晚上、夜里),调查问卷的反馈(十分满意、比较满意、满意、一般、不满意、比较不满意、十分不满意),还有军衔、职级等等。同样,无量化意义,但是可以通过分组来分析占比。其可能的值之间具有有意义的序或秩评定( ranking ),但是相继值之间的差是未知的。对于记录不能客观度量的主观质量评估,序数属性是有用的。因此,序数属性通常用于等级评定调查。

注意,标称、二元和序数属性都是定性的。即,它们描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常是代表类别的词。如果使用整数,则它们代表类别的计算机编码,而不是可测量的量(例如,0表示小杯饮料,1表示中号杯,2表示大杯)。

(2)定量:

区间的,区间标度(interval- scaled)属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。因此,除了值的秩评定之外,这种属性允许我们比较和定量评估值之间的差。

例: temperature(温度)属性是区间标度的。假设我们有许多天的室外温度值,其中每天是一个对象。把这些值排序,则我们得到这些对象关于温度的秩评定。此外,我们还可以量化不同值之间的差。例如,温度20℃比5℃高出15 0C。日历日期是另一个例子。例如,2002年与2010年相差8年。所以,除了秩评定之外,这种属性允许比较和定量评估值之间的差。例如,身高属性是区间标度的。假设我们有一个班学生的身高统计值,将每一个人视为一个样本,将这些学生身高值排序,可以量化不同值之间的差。A同学身高170cm比B同学165cm高出5cm。   对于没有真正零点的摄氏温度和华氏温度,其零值不表示没有温度。例如,摄氏温度的度量单位是水在标准大气压下沸点温度与冰点温度之差的1/100。尽管可以计算温度之差,但因没有真正的零值,因此不能说10℃比5℃温暖2倍,不能用比率描述这些值。但比率标度属性存在真正的零点。  

比率的,比率标度(ratio- scaled)属性是具有固有零点的数值属性。也就是说,如果度量是比率标度的,则我们可以说一个值是另一个的倍数(或比率)。此外,这些值是有序的,因此我们可以计算值之间的差,也能计算均值、中位数和众数。

例: 不像摄氏和华氏温度,开氏温标(K)具有绝对零点(00K =-273. 150C ):在该点,构成物质的粒子具有零动能。比率标度属性的其他例子包括诸如工作年限(例如,对象是雇员)和字数(对象是文档)等计数属性。其他例子包括度量重量、高度、速度和货币量(例如,100美元比1美元富有100倍)的属性。

温度标度  温度能够非常好地解释前面介绍的一些概念。

首先。温度能够是区间属性或比率属性,这取决于其測量标度。当温度用绝对标度測量时,从物理意义上讲,2°的温度是1°的两倍。当温度用华氏或摄氏标度測量时则并不是如此,由于这时1°温度与2°温度相差并不太多。问题是从物理意义上讲,华氏和摄氏标度的零点是硬性规定的,因此,华氏或摄氏温度的比率并无物理意义。

 

 

前面介绍的几种属性类型之间是不互斥的,我们还可以用许多其他方法来组织属性类型,使类型间不互斥。

二、数据属性从值的个数的角度,可以分为:二元的,离散的,连续的。

离散的(discrete),离散属性具有有限个值或无限可数个值。这种属性能够是分类的。如邮政编码或ID号。也能够是数值的,如计数。通常。离散属性用整数变量表示。二元属性(binary attribute)是离散属性的一种特殊情况,并仅仅接受两个值,如真/假、是/否、男/女或0/1。通常。二元属性用布尔变量表示。或者用仅仅取两个值0或1的整型变量表示。

连续的(continuous),连续属性是取实数值的属性。如温度、高度或重量等属性。通常,连续属性用浮点变量表示。实践中,实数值仅仅能用有限的精度測量和表示。

从理论上讲,不论什么測量标度类型(标称的、序数的、区间的和比率的)都能够与基于属性值个数的随意类型(二元的、离散的和连续的)组合。然而。有些组合并不常出现,或者没有什么意义。比如,非常难想象一个实际数据集包括连续的二元属性。

通常,标称和序数属性是二元的或离散的,而区间和比率属性是连续的。然而,计数属性(count attribute)是离散的,也是比率属性。

本文部分来源:《数据挖掘概念与技术》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/537444.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL之单表访问方法

前言 本文章收录在MySQL性能优化原理实战专栏,点击此处查看更多优质内容。 本文摘录自 ▪ 小孩子4919《MySQL是怎样运行的:从根儿上理解MySQL》 对于我们这些MySQL的使用者来说,MySQL其实就是一个软件,平时用的最多的就是查询功…

快码住!!! 二叉树概念、重要性质、存储结构 技巧大总结!

文章目录 树树的概念树的表示树在实际中的应用 二叉树二叉树的概念特殊的二叉树 二叉树的性质二叉树性质应用的练习题 二叉树的存储结构顺序结构链式结构 树 树的概念 树是一种非线性的数据结构,它是由n(n>0)个有限结点组成的一个具有层次关系的集合。把它叫做…

语言模型及Word2vec与Bert简析

语言模型可以对一段文本的合理性概率进行估计,对信息检索,机器翻译,语音识别等任务有着重要的作用。就以前的学习笔记,本文简单总结了NLP语言模型word2vec和bert分享给大家,疏漏之处,望请指出, …

Go语言的简介和环境搭建

Go语言的简介和环境搭建 带你了解什么是Go语言 如何安装和配置Go的开发环境 静态强类型,编译型语言!!! 1.简介 1.1介绍 Go 也称为 Golang,两个是一个东西。谷歌弄得。创造者都是大佬,所以说这个编程语言很…

PSP - AlphaFold2 Multimer 的 Heteromer (异聚体) MSA 逻辑

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/130733737 同源多聚体 (Homomer) 是由相同的蛋白质亚基组成的,而异源多聚体 (Heteromer) 是由不同的蛋白质亚基组成的。同源多聚体的亚基之间通常有对称的相…

BFT 最前线 | OpenAI开放网络浏览和插件;“360AI商店”上线;Bing市场份额不升反降;亚马逊机器人配送中心投产

原创 | BFT机器人 AI视界 TECHNOLOGY NEWS 01 OpenAI将向所有ChatGPT Plus用户推出网络浏览和插件 OpenAI将向所有ChatGPT Plus用户推出网络浏览和插件近日,OpenAI发文称,将在本周(5.15-5.21日)内向所有ChatGPT Plus用户推出网络…

【Python scikit-learn】零基础也能轻松掌握的学习路线与参考资料

Python是一种广泛使用的编程语言,随着数据科学领域的不断发展,Python成为了数据科学的主要工具之一。scikit-learn是Python中一款非常流行的机器学习库,它为广大科学家和工程师提供了一种简单而有效的方法来解决机器学习问题。 本文将从以下…

客服软件强攻略——改善客户自助服务

客户自助服务相对容易采用并集成到您现有的客户服务产品中。也就是说,任何自助服务计划都应该经过充分研究,跟踪明确的目标和成功指标,以确保其成功。 有效的自助服务通常可以通过软件工具形成,比如SaleSmartly(ss客服…

微服务保护(线程隔离、降级、熔断)

线程隔离 线程隔离有两种方式实现: 线程池隔离信号量隔离 线程池隔离 假设服务A依赖于服务B和服务C,那么服务A就会分别对服务B和服务C创建线程池,当有请求进来时不会使用服务A本身的线程,而是到对应的线程池中取一个线程来调用feign的客户…

ViLT论文精读笔记

ViLT论文精读笔记 0.摘要1.引言2.背景知识(小综述)2.1对VLP模型分类2.2模态的融合2.3融合前特征的抽取 3.模型方法3.1预训练目标函数:3.1.1 Image Text Matching:3.1.2 Masked Language Modeling3.1.3 Masked Image Modeling 3.2W…

本周刷题记录

截至周三刷了六道题 题目1: 这是个交互题,目前遇到的交互题都是用二分解决的。 本题使用二分精准定位拥有重量为2的石头的堆。 为避免时间超限,应该再输入数据时计算好前缀和。 二分过程中,如果哪边的重量总和不等于石头数&…

关键词采集软件-关键词自动生成器

网站关键词对于SEO优化至关重要,在搜索引擎排名和流量中扮演着重要的角色。而147seo关键词生成软件可以帮助用户更好地发现与他们的业务和目标相关的关键词和话题。其中的147SEO关键词挖掘软件是其核心功能之一,能够自动批量实时挖掘关键词和短语&#x…

day33_css

今日内容 零、 复习昨日 一、CSS 零、 复习昨日 见代码 一 、引言 1.1CSS概念 ​ 层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文…

以转账案例说明Spring事务

文章目录 1 Spring事务简介1.1 相关概念介绍1.2 转账案例-需求分析1.3 转账案例-环境搭建步骤1:准备数据库表步骤2:创建项目导入jar包步骤3:根据表创建模型类步骤4:创建Dao接口步骤5:创建Service接口和实现类步骤6:添加jdbc.properties文件步骤7:创建JdbcConfig配置类步骤8:创建…

Istio零信任安全架构设计

主要分为几个模块 安装安全概念整体安全架构源码 1.安装istio (windows环境) windows安装Rancher的步骤 : https://docs.rancherdesktop.io/getting-started/installation, docker desktop开始面向中大型企业收费: https://baijiahao.baidu.com/s?id1709665495660071676&…

CVE-2022-39197(Cobalt Strike XSS <=4.7)漏洞复现(超详细)

0x00 漏洞概述 2022年09月22日,360CERT监测发现了Cobalt Strike远程代码执行漏洞,漏洞编号为CVE-2022-39197,漏洞等级:严重,漏洞评分:9.8   Cobalt Strike(也称CS)由美国Red Team开…

互联网内卷严重?你咋不看看其他行业呢?无非是三十晚上无月亮,大家都一样

一千个人眼中有一千个哈姆雷特,互联网行业就像一座围城,城外的人想进来,城内的人要么卷要么躺要么润 ​ 真实的感受你可以现在约几个面试体验一下。内卷到什么程度? 产品和运营岗,业务经验不完全对口简历都过不了&am…

洛谷P1036题解

一、问题引出 [NOIP2002 普及组] 选数 题目描述 已知 n n n 个整数 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1​,x2​,⋯,xn​&#xff0c;以及 1 1 1 个整数 k k k&#xff08; k < n k<n k<n&#xff09;。从 n n n 个整数中任选 k k k 个整数相加&…

nginx keepalive 高可用原理和实操

文章目录 前言一、nginxkeepalive搭建高可用服务方案&#xff1f;二、方案解析1.keepalive是什么2.nginx是什么 三、keepalive与nginx环境安装四、高可用配置实例总结 前言 一、nginxkeepalive搭建高可用服务方案&#xff1f; 使用nginx-keepalived双机热备机制&#xff0c;vi…

Java-锁相关

线程不安全的原因 1.调度器随机调度,抢占式执行(无能为力) 举个例子 有一个int变量 叫count 就俩线程同时count一万次 结果应该为两万 可多次运行程序 这结果每次都不一样(而且小于2w) 是为什么呢 因为count这行代码是分三步运行的 load 把数据读到cpu add 在cpu寄存器实现加法…