OneHotEncoder独热编码

news2024/10/7 10:18:02

    首先了解机器学习中的特征类别:连续型特征和离散型特征。 

    拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].如果使用logistic回归,w1*x1+w2*x2,因为x1的取值太大了,所以x2基本起不了作用。所以,必须进行特征的归一化,每个特征都单独进行归一化。

对于离散的特征基本就是按照one-hot(独热)编码,该离散特征有多少取值,就用多少维来表示该特征。

什么是独热编码

独热码,在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。举例如下:

    假如有三种颜色特征:红、黄、蓝。 在利用机器学习的算法时一般需要进行向量化或者数字化。那么你可能想令 红=1,黄=2,蓝=3. 那么这样其实实现了标签编码,即给不同类别以标签然而这意味着机器可能会学习到“红<黄<蓝”,但这并不是我们的让机器学习的本意,只是想让机器区分它们,并无大小比较之意。所以这时标签编码是不够的,需要进一步转换。因为有三种颜色状态,所以就有3个比特。即红色:1 0 0 ,黄色: 0 1 0,蓝色:0 0 1 。如此一来每两个向量之间的距离都是根号2,在向量空间距离都相等,所以这样不会出现偏序性,基本不会影响基于向量空间度量算法的效果。

    自然状态码为:000,001,010,011,100,101

    独热编码为:000001,000010,000100,001000,010000,100000

from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])    # fit来学习编码
print(enc.transform([[0, 1, 3]]).toarray())    # 进行编码

为什么要独热编码?

独热编码(哑变量 dummy variable)是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到原点是等距的。使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1

为什么特征向量要映射到欧式空间?

    将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。

独热编码优缺点

  • 优点:独热编码解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用。它的值只有0和1,不同的类型存储在垂直的空间。
  • 缺点:当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用

 什么情况下(不)需要归一化?

  • 需要: 基于参数的模型或基于距离的模型,都是要进行特征的归一化。
  • 不需要:基于树的方法是不需要进行特征的归一化,例如随机森林,bagging 和 boosting等。

 标签编码 LabelEncoder

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit([1,5,67,100])
print(le.transform([1,1,100,67,5]))

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/73467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker-compose编排

一、Docker Compose前言 Docker Compose的前身是Fig&#xff0c;Fig被Docker收购之后正式更名为Compose&#xff0c;Compose向下兼容Fig Docker Compose是一个用于定义和运行多容器Docker应用的工具&#xff0c;只需要一个Compose的配置文件和一个简单的命令就可以创建并运行应…

STC 51单片机61——呼吸灯

#include "reg52.h" sbit LedHuxi1P1^0; #define time (65536-1000) // 单次定时1ms unsigned char T_High, T, ti, dir; void InitTimer0(void) { TMOD0x01; TL0 time; //initial timer1 low byte TH0 time >> 8; …

从来没有一家互联网公司不问【设计模式+SSM框架底层源码】

结构型模式 创建型模式 行为型模式 六大原则 免费分享学习设计模式整理的学习笔记文档 Spring5源码解读 **其实&#xff0c;学习编程不是学习配置东西&#xff0c;然后写编程套路。写程序最重要的是你能心中有自己的一套架构思路&#xff0c;比如我现在就没有写Java的项目…

还在公域流量里面投入大量广告费而无法变现,不如试试私域流量吧

大家好&#xff0c;我是林工&#xff0c;不知道大家听说过私域流量这个词没有&#xff0c;听起来是一个听起来很模糊的概念。很多人都知道它大概的意思&#xff0c;但具体要落实到“私域流量怎么做”这件事情上&#xff0c;大都都是一问三不知&#xff0c;不知道该如何入手。 其…

艾美捷魔力红组织蛋白酶B活性分析试剂盒研究手册

艾美捷ICT魔力红组织蛋白酶B活性分析试剂盒包含&#xff1a; 套件937:25测试 魔红基质&#xff08;MR-RR2&#xff09;&#xff0c;1 25测试小瓶&#xff0c;#6133 Hoechst 33342&#xff0c;1毫升&#xff0c;#639 吖啶橙&#xff0c;0.5 mL&#xff0c;#6130 工具包手册…

低版本docker cp报错Error: Path not specified未指定路径解决办法

大概就是版本过低。此时我们可以通过另外得途径解决 1&#xff1a;查找启动容器得id docker inspect -f ‘{{.Id}}’ 40e8c27c975f 例如我这里找es得 2&#xff1a;进入到docker容器挂在到本地得共享盘地址 一般就事 以我得乌班图为例 /var/lib/docker rootubuntu:/var/lib/do…

Android动画 补间动画

目录 1.什么是补间动画 2.XML实现方式 3.代码实现方式 4.展现形式 1.什么是补间动画 补间动画&#xff1a;属于Android中View动画的一种&#xff0c;就是涵盖了 平移、缩放、旋转 和 透明度四种变化的动画。实现方式有两种&#xff1a;xml文件 和 java代码。 四种补间动…

[附源码]计算机毕业设计大学生志愿者服务管理系统Springboot程序

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

擎创技术流 | ClickHouse实用工具—ckman教程(6)

哈喽~小伙伴们&#xff0c;今天依旧是每一周一期的技术分享~ 关于“ckman”的技术分享已经第6期了&#xff0c;大家是不是跟小编一样收获颇丰&#xff1f;新知识虽然新鲜有趣&#xff0c;但也别忘了回顾旧知识巩固基础噢~↓↓↓ 擎创技术流 | ClickHouse实用工具—ckman教程&…

10万字208道Java经典面试题总结(附答案)

前言 最近有很多粉丝问我&#xff0c;有什么方法能够快速提升自己&#xff0c;通过阿里、腾讯、字节跳动、京东等互联网大厂的面试&#xff0c;我觉得短时间提升自己最快的手段就是背面试题&#xff0c;最近总结了Java常用的面试题&#xff0c;分享给大家&#xff0c;希望大家都…

[附源码]Python计算机毕业设计SSM基于微信平台的车险投保系统设计与实现(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

VINS、MAVROS等的坐标系统一(草稿,未得出明确结果)

由于不同算法之间的坐标系不同&#xff0c;导致计算的结果混乱&#xff0c;该博客的目的是记录和统一不同算法之间的坐标系&#xff0c;保证坐标系的统一 一、VINS算法 vins算法&#xff0c;使用D435I相机。该坐标方向为&#xff1a;右前上分别为xyz。角度&#xff1a;由于是四…

SpringBoot+Vue实现前后端分离的心理咨询系统

文末获取源码 开发语言&#xff1a;Java 使用框架&#xff1a;spring boot 前端技术&#xff1a;JavaScript、Vue.js 、css3 开发工具&#xff1a;IDEA/MyEclipse/Eclipse、Visual Studio Code 数据库&#xff1a;MySQL 5.7/8.0 数据库管理工具&#xff1a;phpstudy/Navicat JD…

代码随想录刷题记录 day38 最后一块石头的重量+目标和+1和0

代码随想录刷题记录 day38 最后一块石头的重量目标和1和0 参考&#xff1a;代码随想录 1049. 最后一块石头的重量 II 思想 把数组的石头尽可能地分成大小相等地两个集合 即sum/2&#xff1b; 容量为sum/2地背包尽可能地装满石头。 代码 class Solution {public int last…

C/C++入门002-C语言组成

文章目录1. C工程创建1.1 基于Code::Blocks创建工程1.2 Code::Blocks界面设置2. C语言程序组成2.1函数2.1.1 主函数2.1.2 其它函数2.1.3 如何执行定义好的函数2.2 输出函数printf2.2.1 编译输出为exe可执行文件2.3 C语言要求2.3.1 注释2.4 C语言程序练习2.4.1 输出三角形代码1&…

【MySQL基础】数据库定义语言DDL相关操作有那些?

目录 一、什么是DDL? 二、对数据库的常用操作 三、对表结构的常见操作 四、修改表结构格式 &#x1f49f; 创作不易&#xff0c;不妨点赞&#x1f49a;评论❤️收藏&#x1f499;一下 一、什么是DDL? DDL(Data Definition Language) 被称为数据库定义语言&#xff0c;该…

如何基于企业微信通讯录,同步生成对外的LDAP服务?

不少企业使用企业微信作为办公协同的工具&#xff0c;并通过企业微信的组织架构&#xff08;即通讯录&#xff09;来管理员工身份。那么如何利用当前企业微信的组织架构和用户身份&#xff0c;同步生成对外的 LDAP 服务呢&#xff1f; 为什么要同步创建 LDAP 服务&#xff1f; …

【超级详细步骤】pyinstaller 打包 exe 其实特别简单

文章目录为什么要打包&#xff1f;安装pyinstaller技术提升pyinstaller 打包单个.py文件步骤1&#xff1a;单击以下区域输入 cmd 切换到目标文件目录2&#xff1a;输入 pyinstaller -F -w Analog_clock.py 回车即可3&#xff1a;打包成功会在.py文件同级目录下出现以下文件&…

VM——http协议及json解析

1、http协议实现参考&#xff1a;(180条消息) C# Http通讯协议的整理_C#Code- Sheep的博客-CSDN博客_c# http协议 2、Json解析参考&#xff1a;c#解析json字符串处理&#xff08;最清晰易懂的方法&#xff09; - 轩辕箭 - 博客园 (cnblogs.com) 3、VM中http实现步骤&#xff…

WordPress 主题模板QUX9.1.4开心版无授权限制 DUX二开增强主题

源码测评&#xff1a;WordPress主题QUX9.1.4开心版&#xff0c;我安装测试了下&#xff0c;看来没什么问题&#xff0c;想学习参考的网友可以试下。 更新日志&#xff1a; 2020/3/19更新 V9.1.4 推荐&#xff1a;★★★★★ 新增 新增夜间模式&#xff08;主题设置 – 客服 –…