数据挖掘(三)特征构造

news2025/1/22 14:56:55
前言

基于国防科技大学 丁兆云老师的《数据挖掘》课程
数据挖掘
数据挖掘(一)数据类型与统计
数据挖掘(二)数据预处理

3、特征构造

在这里插入图片描述

3.1 基本特征构造方法:

3.1.1 运用已有知识直接构造:

一般是根据原有特征挖掘新的更有用的特征,比如给出了质量和体积,则可以构造出密度特征

3.1.2 其它常见技巧:

常见构造特征技巧及运用场景:

在这里插入图片描述

3.1.3 时间类型数据特征构造:

时间特征(Time-Based Features):
如果数据中包含时间信息,可以从中提取各种时间特征,如年、月、日、季节、工作日、周末等。这些时间特征可以帮助模型捕捉到时间的周期性和趋势性,对于时间序列数据或具有时间相关性的数据集特别有用。

例:

在这里插入图片描述

在这里插入图片描述

3.2 离散数据进行哑编码:

哑编码(Dummy Encoding)和独热编码(One-Hot Encoding)是常用的特征编码方法,用于将分类变量转换为数值表示。它们在不同的情况下有不同的适用性,选择哪种编码方法取决于数据的特点和机器学习算法的需求。

  1. 哑编码(Dummy Encoding):
    哑编码是一种将分类变量转换为二进制(0和1)表示的编码方法。对于具有k个类别的分类变量,哑编码会创建k-1个二进制特征(或称为哑变量),并用0和1表示类别的存在与否。其中,k-1个特征中的每一个对应于一个类别,而最后一个类别作为参考类别,不需要单独编码。哑编码的主要优点是编码后的特征具有较低的维度,适用于线性模型和一些需要较少特征的机器学习算法。
  2. 独热编码(One-Hot Encoding):
    独热编码是一种将分类变量转换为二进制向量表示的编码方法。对于具有k个类别的分类变量,独热编码会创建k个二进制特征,每个特征对应一个类别,并且只有一个特征的值为1,其余特征的值为0。独热编码的优点是它能够保留所有类别之间的相互独立性,适用于大多数机器学习算法,特别是需要考虑类别之间距离或关系的算法,如决策树、支持向量机等。
import pandas as pd

# 创建包含分类变量的数据集
data = pd.DataFrame({'颜色': ['红', '蓝', '绿', '红', '绿']})

# 哑编码
dummy_encoded = pd.get_dummies(data['颜色'], prefix='颜色')
print(dummy_encoded)

# 独热编码
one_hot_encoded = pd.get_dummies(data['颜色'], prefix='颜色', drop_first=True)
print(one_hot_encoded)
颜色_红  颜色_蓝  颜色_绿
0      1      0      0
1      0      1      0
2      0      0      1
3      1      0      0
4      0      0      1

   颜色_蓝  颜色_绿
0      0      0
1      1      0
2      0      1
3      0      0
4      0      1

例题:

1.类别无序:

在这里插入图片描述

采用哑编码或者onehot编码

2.类别有序:

在这里插入图片描述

直接映射到[0,m]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1673384.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nurbs曲线

本文深入探讨了Nurbs曲线的概念、原理及应用,揭示了其在数字设计领域的独特价值和广泛影响。Nurbs曲线作为一种强大的数学工具,为设计师们提供了更加灵活、精确的曲线创建方式,从而极大地提升了设计作品的质感和表现力。文章首先介绍了Nurbs曲…

[FlareOn1]Bob Doge

[FlareOn1]Bob Doge Hint:本题解出相应字符串后请用flag{}包裹,形如:flag{123456flare-on.com} 得到的 flag 请包上 flag{} 提交。 密码:malware 没什么思路,原exe文件运行又install了一个challenge1.exe文件 c#写的&#xff…

618购物狂欢不知道怎么买?请收下这份好物清单,直接闭眼入!

在繁忙的618购物狂欢节来临之际,面对琳琅满目的商品,你是否感到无从下手?别担心,我们精心整理了一份好物清单,汇聚了各类热销与口碑兼具的精品。无论你是追求品质生活的消费者,还是寻找实惠好物的网购达人&…

618值得入手的数码产品怎么选?2024 买过不后悔的数码好物分享

在数字时代的浪潮中,每一次的购物狂欢节都如同一场科技盛宴,让我们有机会接触到最前沿、最实用的数码产品,而“618”无疑是这场盛宴中最为引人瞩目的日子之一。面对琳琅满目的商品,如何选择那些真正值得入手的数码好物&#xff0c…

社交媒体数据恢复:派派

派派是一款非常流行的社交软件,但是如果你在使用派派的过程中,不小心删除了一些重要的聊天记录或者其他数据,那么该怎么办呢?下面是一些简单的步骤,可以帮助你进行数据恢复。 1. 首先打开派派,并进入需要恢…

idea使用gitee基本操作流程

1.首先,每次要写代码前,先切换到自己负责的分支 点击签出。 然后拉取一次远程master分支,保证得到的是最新的代码。 写完代码后,在左侧栏有提交按钮。 点击后,选择更新的文件,输入描述内容(必填…

深度解析Nginx:高性能Web服务器的奥秘(下)

🐇明明跟你说过:个人主页 🏅个人专栏:《洞察之眼:ELK监控与可视化》🏅 🔖行路有良友,便是天堂🔖 目录 一、前言 1、Nginx概述 二、Nginx核心功能 1、URL重写与重…

C语言易错提醒选择题精选

Ⅰ 易错题 1.设有double p;&#xff0c;为变量p声明一个引用名称rp,则定义语句为 double& rpp; 2.已知‘A’一‘Z’的ASCII码为65—90&#xff0c;当执行“char ch14*52&#xff1b;cout<<ch<<endl;”语句序列后得到的输出结H &#xff0c;72对应ASCII码中…

视觉SLAM十四讲:从理论到实践(Chapter3:三维空间刚体运动)

前言 学习笔记&#xff0c;仅供学习&#xff0c;不做商用&#xff0c;如有侵权&#xff0c;联系我删除即可 目标 理解三维空间的刚体运动描述方式&#xff1a;旋转矩阵、变换矩阵、四元数和欧拉角。掌握Eigen库的矩阵、几何模块的使用方法。 3.1 旋转矩阵 3.1.1 点、向量和…

详解xlsxwriter 操作Excel的常用API

我们知道可以通过pandas 对excel 中的数据进行处理分析&#xff0c;但是pandas本身对格式化数据方面提供了很少的支持&#xff0c;如果我们想对pandas进行数据分析后的数据进行格式化相关操作&#xff0c;我们可以使用xlsxwriter&#xff0c;本文就对xlsxwriter的常见excel格式…

一觉醒来 AI科技圈发生的大小事儿 05月13日

&#x1f4f3;博弈论让 AI 更加正确、高效&#xff0c;LLM 与自己竞争 研究团队设计了共识博弈&#xff0c;通过让语言模型的生成器和判别器相互博弈来提高模型的准确性和内部一致性。这种方法不需要对基础模型进行训练或修改&#xff0c;可以在笔记本电脑上快速执行。研究结果…

山洪灾害无线预警广播系统的主要设备和功能

一、背景 山洪泥石流是指在山区或者其他沟谷深壑&#xff0c;地形险峻的地区&#xff0c;因为暴雨、暴雪或其他自然灾害引发的洪水、山体滑坡并携带有大量泥沙以及石块的特殊洪流。山洪泥石流等地质灾害具有突然性以及流速快&#xff0c;流量大&#xff0c;物质容量大和破坏力…

C# SortedList 用法

文章目录 基本用法主要属性和方法注意事项 SortedList 的一些高级用法和注意事项。自定义排序规则线程安全性性能考量与其他集合的对比 SortedList 是 C# 中的一个集合类&#xff0c;它是一个键/值对集合&#xff0c;其中的键自动按顺序排序。这个类位于 System.Collections.G…

在Windows环境下安装CPU版的PyTorch

PytTorch是基于Python开发的&#xff0c;首先需要安装Python&#xff0c;Python的安装很简单&#xff0c;这里不再赘述。而 Windows用户能直接通过conda、pip和源码编译三种方式来安装PyTorch。 打开PyTorch官网&#xff08;PyTorch&#xff09;&#xff0c;在主页中根据自己的…

2024年NOC大赛创客智慧(西瓜创客)Python复赛编程真题模拟试卷包含答案

NOC复赛python模拟题 1.编写一个程序&#xff0c;提示用户输人一个矩形的长度和宽度&#xff0c;并输出其面积, 2.试计算在区间 1 到 n的所有整数中,数字x(0≤x≤9)共出现了多少次?例如在 1到11 中&#xff0c;即在 1,2,3.45,6.7,8.9,10,11 中&#xff0c;数字 1出现了 4 次.…

买货查窜货过程中的可能情况

控价除了要管控渠道中的低价、乱价链接外&#xff0c;还可能需要解决窜货问题&#xff0c;当窜货问题蔓延不及时解决时&#xff0c;渠道会越来越受影响&#xff0c;所以治理窜货也是控价过程中很重要的一步&#xff0c;窜货问题的治理多通过买货溯源来解决&#xff0c;买货要先…

关于LED的小事

基础知识 LED&#xff08;Light Emitting Diode&#xff09;是一种能够将电能转换为光能的发光二极管。LED的发明者是美国的物理学家罗伯特诺伊斯和化学家哈里贾斯特。LED的原理是利用半导体材料中的电子和空穴在禁带中产生复合&#xff0c;从而释放出光子&#xff0c;达到发光…

QLExpress入门及实战总结

文章目录 1.背景2.简介3.QLExpress实战3.1 基础例子3.2 低代码实战3.2.1 需求描述3.2.1 使用规则引擎3.3.2 运行结果 参考文档 1.背景 最近研究低代码实现后端业务逻辑相关功能&#xff0c;使用LiteFlow作为流程编排后端service服务, 但是LiteFlow官方未提供图形界面编排流程。…

深入 Go 语言:使用 math/rand 包实现高效随机数生成

深入 Go 语言&#xff1a;使用 math/rand 包实现高效随机数生成 介绍math/rand 包的核心功能设计哲学应用场景 基础使用方法初始化和种子设置设置种子创建私有随机数生成器 基础函数详解生成整数生成特定范围的整数生成浮点数随机置乱数组 进阶技巧随机数的统计属性生成正态分布…

背背佳卷土重来90天爆卖一个亿,这次盯上了成年人……

提起背背佳这三个字&#xff0c;除了00后不熟悉外&#xff0c;在座的柴油们应该没有陌生的吧&#xff01;不管你是90后&#xff0c;80后&#xff0c;还是70后&#xff0c;60后。 但是&#xff0c;似乎好多年&#xff0c;这三个字没出现过了。 但是这两天&#xff0c;背背佳这三…