常见三种编码方式

news2024/10/7 0:51:02

常见三种编码方式

  • 1. one-hot 编码
  • 2. 虚拟编码
  • 3. 效果编码

最近复习一些书,记录一下。在特征工程中,数据集经常会出现分类变量,这时候的分类变量可能是字符型,通常不能直接用于训练模型,这时需要对分类变量进行编码,用编码后的结果代入训练模型。下面以房子朝向为例:

import pandas as pd
df = pd.DataFrame({'房子编号':[1, 2, 3, 4, 5],
                  '朝向':['东', '南', '西', '北', '南']})
df

在这里插入图片描述
这里介绍三种常见的编码方式,直接编数字没有放进来。这三种分别是 one-hot 编码、虚拟编码、效果编码。编码方式可以从 one-hot 编码开始,也就是对于一个有 n n n 个种类的分类变量,通过 0 , 1 0,1 0,1 构造出 n n n 个特征,对应特征就用 1 1 1 表示,其余特征用 0 0 0 表示;虚拟编码就是用 n − 1 n-1 n1 列表示 n n n 个特征,相比于 one-hot 编码,这里有一个类别会用全 0 0 0 来表示;效果编码相比于虚拟编码,就是将全 0 0 0 表示的类别用全 − 1 -1 1 表示。

编码方式 n n n 个类别的特征数特点
one-hot n n n每一类都有 n − 1 n-1 n1 0 0 0 1 1 1 1 1 1
虚拟编码 n − 1 n-1 n1其中一类全是 0 0 0
效果编码 n − 1 n-1 n1其中一类全是 − 1 -1 1
数值编码 1 1 1直接给类别标序号,无实际意义

1. one-hot 编码

df_one_hot = pd.get_dummies(df, columns=['朝向'])
df_one_hot

在这里插入图片描述

2. 虚拟编码

df_xn = pd.get_dummies(df, columns=['朝向'], drop_first=True)
df_xn

在这里插入图片描述

3. 效果编码

df_xg = df_xn.copy().astype('int')
df_xg.iloc[0,1:4] = -1.0
df_xg

在这里插入图片描述
参考书籍:
【1】爱丽丝 ⋅ \cdot 郑,阿曼达 ⋅ \cdot 卡萨丽.《精通特征工程》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/482858.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaWeb《CSS》

本笔记学习于Acwing平台 目录 1. 样式定义方式 2.1 行内样式表(inline style sheet) 2.2 内部样式表(internal style sheet) 2.3 外部样式表(external style sheet) 2. 选择器 2.1 标签选择器 2.2 …

ChatGPT服务器配置部署-chatGPT国内入口搭建

chatGPT国内入口 ChatGPT是由OpenAI公司开发的一种自然语言生成模型,国内入口一般是通过API接口或者SDK对接实现的。具体的对接方式可以参考以下步骤: 了解ChatGPT的API接口或者SDK: 首先需要了解ChatGPT提供的API接口或者SDK,包括使用方式、…

文件上传漏洞靶场

目录 第一关 源码 前端 后端 代码审计 前端 后端 绕过原理 抓包后未修改 抓包后修改且文件上传成功 第二关 源码 后端 代码审计 绕过原理 抓包后未修改 抓包后修改且文件上传成功 ​编辑 第三关 源码 后端 代码审计 绕过原理 第四关 源码 后端 代码审…

linux以太网(二)

内核版本:linux-3.14.16 基于imx6 一、文件fec_main.c分析 路径:drivers\net\ethernet\freescale\fec_main.c 1、platform总线 标准的平台总线使用方式 设备树匹配 设备树节点 2、平台总线probe 1)分配net_device相关结构 分配 与平…

单源最短路问题

全部代码 全部代码在github acwing 上 正在更新 https://github.com/stolendance/acwing 图论 欢迎大家star与fork 单源最短路问题 先用spfa算法 不行再换其他的 spfa-超级万能 说不定比dijsktra还快 dis[] 代表第k到某一点的最短距离 queue 代表刚被更新的点 它有可能更…

【Java校招面试】基础知识(三)——多线程与并发

目录 前言一、基础概念二、互斥锁三、Java内存模型(JMM)四、线程池后记 前言 本篇主要介绍Java多线程与并发相关内容。 “基础知识”是本专栏的第一个部分,本篇博文是第三篇博文,如有需要,可: 点击这里&a…

每日一题——反转字符串—II

每日一题 反转字符串——II 题目链接 思路 我们先来举几个例子来理解题目意思 字符串“ abcdefgh ”,k 2,那么依据题目意思,反转后的字符串应该是“ bacdfegh ”(即每2k个字符,就反转前k个字符,且无剩余…

基于 Python+Flask+SQLite 的网易云音乐评论情感分析系统

基于 PythonFlaskMySQL 的网易云音乐评论情感分析系统,采用Echart构建图表,支持一键切换颜色主题,通过连接数据库获取评论数据。对失效的爬虫代码进行了更新,可通过歌曲id_半_自动获取评论,具体可以看下方的过程展示。…

展望Flink各版本及新特性

展望Flink各版本及新特性 一 Flink 1.9 版本1.1 细粒度批作业恢复1.2 State Processor API1.3 Stop-with-Savepoint1.4 新 Blink SQL 查询处理器预览1.5 Table API / SQL 的其他改进 二 Flink 1.10 [重要版本 : Blink 整合完成]2.1 内存管理及配置优化2.2 统一的作业提交逻辑2.…

图像去噪简单介绍—并给出示例代码

文章目录 图像去噪简单介绍—并给出示例代码去噪的基本原理常见的噪声类型高斯噪声椒盐噪声马赛克噪声脉冲噪声 添加噪声的代码添加高斯噪声添加椒盐噪声 noise_pic常用的去噪方法均值滤波中值滤波高斯滤波双边滤波基于深度学习的图像去噪 总结图片来源 图像去噪简单介绍—并给…

Win11如何下载安装java?

一、问题描述 我在复现论文代码的时候,遇到了这样的问题: 我没有下载java,那么该如何解决呢? 下载 Java 的作用是为了能够在计算机上运行使用 Java 语言编写的应用程序。Java 是一种广泛使用的编程语言,可用于开发各…

【leetcode刷题总结】——代码随想录(数组总结)

代码随想录按照数组-> 链表-> 哈希表->字符串->栈与队列->树->回溯->贪心->动态规划->图论->高级数据结构,再从简单刷起,做了几个类型题目之后,再慢慢做中等题目、困难题目。 以下是个人刷题总结,…

多线程编程的安全问题和解决措施

线程不安全的概念 由于多线程并发执行,导致结果出错,我们称这种线程是不安全的。 多线程编程出错的原因 一:线程之间并发执行的随机性导致线程不安全 二:多个线程对同一个对象进行修改 三:线程的操作不是原子性的…

Vscode搭建ESP-IDF开发环境指南-Ubuntu ESP32-C3 合宙

文章目录 1.Ubuntu环境搭建2.vscode安装3.esp-idf插件如果到这里没出现问题的话,就能顺利安装了,如果出现问题会在输出那一栏里报错,根据错误去找原因就好,常见的错误就是网络原因以及之前的依赖包没有装好 ![](https://img-blog.…

优思学院|受控文件在质量管理体系中的作用?

在质量管理体系中,受控文件是指受到控制和管理的文件,包括政策、程序、指南、规程、说明书、作业指导书、记录等,它们记录了组织内各种活动的要求和实施方法,并规定了文件的创建、审批、发布、变更和废止等流程,以确保…

宝塔怎么安装青龙面板-跑京东豆脚本

一、搭建青龙面板 安装docker管理器 我们使用宝塔的Docker管理器来一键安装Docker 在软件商店内搜索Docker,直接安装第一个应用即可。 拉取镜像运行容器 在安装完docker之后我们就可以开始拉取docker镜像并运行容器了,ssh连接服务器命令行中输入下面的代码: docker run …

TOGAF架构内容—TOGAF 内容框架和企业元模型

一、概述 TOGAF ADM 提供了一个流程生命周期,用于在企业内创建和管理架构。在 ADM,对输入、输出和步骤的讨论,描述了许多架构工作产品或工件,例如过程和 应用。 此处提供的内容框架和企业元模型为这些术语定义了正式结构&#x…

【python】NameError: No such file or directory 问题解决

前言 大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 1. 问题 最近有小伙伴经常问到这个报错,今天来分享一下具体怎么解决。 [Errno 2] No such file or directory: ./mnist_image_label/mnist_train_jpg_60000.txt这个没有查找到子文件或者子文件夹的问题 2. 解决…

WIZnet 的 TOE 设计大赛

链接: TOE Design Contest 介绍 欢迎来到 WIZnet 的年度物联网设计大赛! TOE 竞赛是对您的 IoT 技能和创造力的终极考验。 借助强大的 W5300 网络控制器芯片,您将能够以前所未有的方式将您的物联网愿景变为现实。 无论您是经验丰富的专业人士还是刚刚起…

计算机提示vcruntime140.dll丢失是什么意思?vcruntime140.dll丢失的解决方法(详细方法)

计算机丢失vcruntime140.dll是什么意思?经常看到有小伙伴有在网上问这样的问题,电脑上这个vcruntime140.dll文件丢失的问题经常发生吧,那么就很有必要给大家详细的说说这一方面的问题了,下面我们来看看 第一:vcruntim…