机器学习入门教学——标签编码、序号编码、独热编码

news2024/12/23 22:29:58

1、前言

  • 在机器学习过程中,我们经常需要对特征进行分类,例如:性别有男、女,国籍有中国、英国、美国等,种族有黄、白、黑。 但是分类器并不能直接对字符型数据进行分类,所以我们需要先对数据进行处理。
  • 如果要将其作为机器学习算法的输入,通常我们需要对特征进行数字化处理,常用的方法有:标签编码、独热编码等。

2、标签编码

  • 标签编码(Label Encoding)是把分类类型数据转换为数值编码的一种方法,即直接对类别特征进行了大量映射,每个分类都被赋予唯一的数字编号。
  • 【注】标签编码后的数据并没有大小关系,只是数字替代类别标签。
  • 假设特征取值有n个不同值,即n个类别,那么将按照特征数据的大小将其编码成0~(n-1)之间的整数。
  • 例如:
    • 性别:["男", "女"] => 0, 1
    • 国籍:["中国", "英国", "美国"] => 0, 1, 2
    • 种族:["黄", "白", "黑"] => 0, 1, 2
    • 此时,某个样本的特征为["女", "美国", "白"],就可以用[1, 2, 1]来表示。
  • 当标签过多时,编码会变得很大并使得计算机难以处理,同时,标签编码不能反映分类之间的关系。可以进一步采用独热编码使其转化成有序且连续的数据。

3、序号编码

  • 序号编码(Ordinal Encoding)是一种对分类特征进行编码的方法,它会考虑类别之间的顺序和大小关系,并将其映射到数字中。
  • 例如:
    • 学历:["专科","本科", "硕士", "博士"] => 1, 2, 3, 4
    • 成绩:["D","C", "B", "A"] => 1, 2, 3, 4
    • 可以看到,序号编码保留了类别的顺序信息,专科<本科<硕士<博士,D<C<B<A。
  • 序号编码适用于有明显顺序关系的分类特征,它通过映射序号保留了类别顺序信息。但也需要注意合理设置顺序,否则可能会引入偏差。 

2、独热编码

2.1、简介

  • 独热编码(One-Hot Encoding),又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。即只有一位是1,其余都是零值。
  • 独热编码是利用0和1来表示一些参数,使用N位状态寄存器来对N个状态进行编码。
  • 例如:
    • 性别:["男", "女"]
      • 男 => 10
      • 女 => 01
    • 国籍:["中国", "英国", "美国"]
      • 中国 => 100
      • 英国 => 010
      • 美国 => 001
    • 种族:["黄", "白", "黑"]
      • 黄 => 100
      • 白 => 010
      • 黑 => 001
    • 此时,某个样本的特征为["女", "美国", "白"],转换的结果就为:[0, 1, 0, 0, 1, 0, 1, 0]
  • 也就是说,将所有的特征排列在一起,有该特征即为1,没有该特征即为0。

2.2、作用

  • One-hot编码是用于编码分类变量的技术,可以用于神经网络。对数据进行预处理去偏时,通常要确定2个相似个体特定特征之间的度量距离,One-hot编码能更加合理的计算特征之间的距离,从而达到去偏的效果。
  • 也就是把特征之间距离的问题,转换为了计算向量之间距离的问题。
  • 例如:
    • 性别:["男", "女"]
      • 男 => 10
      • 女 => 01
    • 国籍:["中国", "英国", "美国"]
      • 中国 => 100
      • 英国 => 010
      • 美国 => 001
    • 计算样本1:["女", "美国"]=[0, 1, 0, 0, 1],样本2:["男", "中国"]=[1, 0, 1, 0, 0]之间的距离。
    • 距离=

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1000213.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

索引失效有哪些?

在工作中&#xff0c;如果我们想要提高一条语句的查询速度&#xff0c;通常都会想对字段建立索引。 但是索引不是万能的。建立了索引&#xff0c;并不意味着任何查询语句都能走索引扫描。 稍不注意&#xff0c;可能查询语句就会导致索引失效&#xff0c;从而走了全表扫描&…

美业创新之路:广告电商模式让你的品牌脱颖而出

美业是一个巨大的市场&#xff0c;但也面临着激烈的竞争和消费者的多样化需求。如何在这个市场中脱颖而出&#xff0c;实现品牌的增长和盈利呢&#xff1f;答案就是广告电商模式。 广告电商模式是一种结合了社交电商和广告分佣的新型电商模式&#xff0c;它可以让消费者在购物的…

几种研发管理流程

一、CMMI 1.初始阶段 软件过程混乱&#xff0c;有时甚至混乱。几乎没有流程的定义。成功取决于个人的努力。管理是被动的。 2.可重复/可管理 建立了基本的项目管理流程来跟踪成本&#xff0c;进度和功能特征。已经建立了必要的过程规程&#xff0c;以便能够重复先前类似应用…

RPC框架核心技术

一、RPC框架整体架构 RPC Client && RPC Server RPC Client 1、动态代理&#xff0c;根据lookUp信息&#xff08;接口-实现-方法&#xff09;动态创建出代理类&#xff0c;&#xff08;创建代理类RPC服务端的目标接口&#xff09;。即Lookup为远端目标接口地址&#…

localStorage是什么?有哪些特点?

localStorage的主要作用是本地存储&#xff0c;它可以将数据按照键值对的方式保存在浏览器中&#xff0c;直到用户或者脚本主动清除数据&#xff0c;否则该数据会一直存在。也就是说&#xff0c;使用了本地存储的数据将被持久化保存。 localStorage与sessionStorage的区别是存…

Cpolar+Tipas:在Ubuntu上搭建私人问答网站,为您提供专业的问题解答

文章目录 前言2.Tipask网站搭建2.1 Tipask网站下载和安装2.2 Tipask网页测试2.3 cpolar的安装和注册 3. 本地网页发布3.1 Cpolar临时数据隧道3.2 Cpolar稳定隧道&#xff08;云端设置&#xff09;3.3 Cpolar稳定隧道&#xff08;本地设置&#xff09; 4. 公网访问测试5. 结语 前…

什么是JavaScript中的严格模式(strict mode)?应用场景是什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 严格模式&#xff08;Strict Mode&#xff09;&#xff1a;⭐ 使用场景⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅&…

shell脚本指令:for循环、函数、数组、grep等指令的使用

1、实现一个对数组求和的函数&#xff0c;数组通过实参传递给函数 2、写一个函数&#xff0c;输出当前用户的uid和gid 并使用变量接收结果 #!/bin/bash echo "请输入一个数组" read -a arr function add_arr() {var1${#arr[*]}for i in ${arr[*]} do((sumi))doner…

技术解码 | GB28181/SIP/SDP 协议--EasyGBS国标GB28181平台国标视频技术SIP解析

EasyGBS国标视频云服务是基于国标GB/T28181协议的视频能力平台&#xff0c;可实现的视频功能包括&#xff1a;实时监控直播、录像、检索与回看、语音对讲、云存储、告警、平台级联等功能。平台部署简单、可拓展性强&#xff0c;支持将接入的视频流进行全终端、全平台分发&#…

中国人民大学与加拿大女王大学金融硕士——人生总要逼自己一把

我们每个人都是一个独特而丰富的个体&#xff0c;身上蕴藏着各种潜力和可能性。要不断去开发自己的潜能&#xff0c;不断学习和提升自己的知识和技能&#xff0c;保持对新知识和趋势的敏感。想要在职场上走得更远&#xff0c;就要逼自己一把&#xff0c;在职继续攻读硕士学位是…

82 # koa-bodyparser 中间件的使用以及实现

准备工作 安装依赖 npm init -y npm i koakoa 文档&#xff1a;https://koajs.cn/# koa 中不能用回调的方式来实现&#xff0c;因为 async 函数执行的时候不会等待回调完成 app.use(async (ctx, next) > {console.log(ctx.path, ctx.method);if (ctx.path "/login…

518抽奖软件,是否会重复中奖,还是没人只能抽中一次

518抽奖软件简介 518抽奖软件&#xff0c;518我要发&#xff0c;超好用的年会抽奖软件&#xff0c;简约设计风格。 包含文字号码抽奖、照片抽奖两种模式&#xff0c;支持姓名抽奖、号码抽奖、数字抽奖、照片抽奖。(www.518cj.net) 不会重复中奖 类似抽奖箱的概念&#xff0c…

【1++的数据结构】之哈希(二)

&#x1f44d;作者主页&#xff1a;进击的1 &#x1f929; 专栏链接&#xff1a;【1的数据结构】 文章目录 一&#xff0c;前言二&#xff0c;位图1. 位图2. 位图的应用 三&#xff0c;布隆过滤器 一&#xff0c;前言 上一节我们讲解了哈希表&#xff0c;简单的了解了哈希思想…

探索工业4.0:数字孪生如何重塑工业生产流程?

在过去的几十年里&#xff0c;工业生产经历了从机械化、自动化到数字化的巨大转变。随着工业4.0的到来&#xff0c;我们正处于第四次工业革命的边缘&#xff0c;这次革命将由数字孪生技术引领。本文将深入探讨数字孪生在工业生产中的应用和潜力。 数字孪生&#xff08;Digital …

第六章 进程管理与系统监控

第六章 进程管理与系统监控 ​ 一个具有较好的安全性和稳定性的系统是用户所需要的。无论进行何种操作和业务处理&#xff0c;用户都希望系统始终处于安全、稳定的状态。因此&#xff0c;即时地进行系统的进程管理和系统监控工作是保证系统安全、稳定的状态。 1.进程管理 1.…

C++项目实战——基于多设计模式下的同步异步日志系统-⑥-日志等级类与日志消息类设计

文章目录 专栏导读日志等级类设计日志等级划分to_string函数设计日志等级类整理 日志消息类设计 专栏导读 &#x1f338;作者简介&#xff1a;花想云 &#xff0c;在读本科生一枚&#xff0c;C/C领域新星创作者&#xff0c;新星计划导师&#xff0c;阿里云专家博主&#xff0c;…

第4篇 vue的 ECMAScript 6的学习

一 ECMAScript 6 1.1 ECMAScript 6 ECMAScript 和 JavaScript 的关系是&#xff0c;前者是后者的规格&#xff0c;后者是前者的一种实现&#xff08;另外的 ECMAScript 方言还有 Jscript 和 ActionScript&#xff09;。 因此&#xff0c;ES6 既是一个历史名词&#xff0c;也…

java+ssm+mysql高校图书管理系统

项目介绍&#xff1a; 本系统为基于jspssmmysql的高校图书管理系统&#xff0c;包含管理员、学生角色&#xff0c;功能如下&#xff1a; 管理员&#xff08;高级管理和普通管理&#xff09;&#xff1a;用户管理&#xff08;管理员和学生管理&#xff09;&#xff1b;图书管理…

ps制作gif动图

最后存储就可以了

问道管理:历史市净率在哪看?

市净率是评价一家企业股票价格是否合理的一项重要指标&#xff0c;并且也能够反映企业的财务状况。前史市净率则是指某家企业在曩昔一段时间内&#xff08;比方一年或三年&#xff09;的市净率平均值。那么&#xff0c;前史市净率在哪里能够查询呢&#xff1f;本文将从多个视点…