One-Hot 编码

news2024/10/5 22:23:21

1 原理

One-Hot 编码就是用于将离散的分类(文本)标签转换为二进制向量。

2 代码实现

文本词汇无法直接参与模型训练,所以需要先将其转换成向量表示(与图片类似)。

import numpy as np


# one-hot 编码
def one_hot_encoding(word: str, word2inx: dict):
    """
    将文本转换成向量
    :param word: 目标词汇
    :param word2inx: 词汇到索引的映射字典
    :return:
    """
    # 初始化,[0, 0, 0, 0]
    ndarray = np.zeros(len(word2inx))
    # 将对应词的索引设为 1,[0, 0, 1, 0]
    ndarray[word2inx[word]] = 1

    return ndarray


if __name__ == '__main__':
    word2ids = {"你": 0, "今天": 1, "好": 2, "漂亮": 3, "啊": 4}
    print(one_hot_encoding("你", word2ids))  # [1. 0. 0. 0. 0.]
    print(one_hot_encoding("漂亮", word2ids))  # [0. 0. 0. 1. 0.]

3 缺点

One-Hot 编码后的任意两个词向量是正交的,即余弦相似度为零,这就导致 One-Hot 编码无法表示词汇与词汇间的相似关系,Word2Vec 模型就很好地解决了这一问题。

import numpy as np


# 余弦相似度
def cos2vec(x1, x2):
    """
    值越大,两个向量夹角越小,越相似
    :param x1: 向量 1
    :param x2: 向量 2
    :return: 取值范围 [-1, 1]
    """
    return x1.dot(x2) / (np.linalg.norm(x1) * np.linalg.norm(x2))


if __name__ == '__main__':
    print(cos2vec(np.array([1, 0, 0]), np.array([0, 1, 0])))  # 0.0
    print(cos2vec(np.array([1, 1, 1]), np.array([1, 1, 1])))  # 1.0
    print(cos2vec(np.array([1, 1, 1]), np.array([2, 1, 1])))  # 0.9428
    print(cos2vec(np.array([1, 1, 1]), np.array([3, 1, 1])))  # 0.8704

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2190628.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【深度学习基础模型】神经图灵机(Neural Turing Machines, NTM)详细理解并附实现代码。

【深度学习基础模型】神经图灵机(Neural Turing Machines, NTM)详细理解并附实现代码。 【深度学习基础模型】神经图灵机(Neural Turing Machines, NTM)详细理解并附实现代码。 文章目录 【深度学习基础模型】神经图灵机&#xf…

利用条件概率解决“两个孩子的性别问题”

利用条件概率解决“两个孩子的性别问题”:深入分析与扩展 在日常生活中,概率问题常常会带来直观上的困惑,尤其是在涉及到条件概率的时候。今天我们讨论的这个问题是一个非常经典的例子:已知一对父母有两个孩子,其中一…

二叉树的中序&后序遍历——非递归版本

1.题目解析 题目来源:二叉树的中序遍历——力扣 测试用例 题目来源:二叉树的后序遍历——力扣 测试用例 2.算法原理 中序遍历 中序遍历:左子树->根节点->右子树 与之前前序遍历的思路基本相同,不过需要注意的是中序变量需要…

今日指数项目股票Code联想推荐功能实现

股票Code联想推荐 1 股票Code联想推荐功能介绍 1) 原型效果 输入框输入股票编码后,显示关联的股票信息; 2)接口定义说明 接口说明: 功能描述:根据输入的个股代码,进行模糊查询,返回证券代码和证券名称…

Redis中GEO数据结构实现附近商户搜索

Redis的版本必须是6.2以上 在测试类中将数据导入Redis Testvoid loadShopData(){//1.查询店铺信息List<Shop> list shopService.list();//2.把店铺分组&#xff0c;按照typeId分组&#xff0c;typeId一致的放到一个集合Map<Long, List<Shop>> map list.s…

Spring Boot 三层架构开发模式入门

在 Spring Boot 项目中&#xff0c;构建清晰、易于维护的代码结构至关重要。传统业务逻辑方式往往将所有代码混杂在一起&#xff0c;导致代码难以理解、修改和扩展。三层架构模式的出现正是为了解决这些问题&#xff0c;让我们深入了解它带来的改变。 一、传统业务逻辑方式 假…

实战六:使用嵌套循环输出九九乘法表,总结了五种方法

问题描述: 使用嵌套循环输出九九乘法表&#xff0c;内层循环与外层循环的关系&#xff0c;输出的数据的个数与行数相同&#xff0c;即第一行输出一个&#xff0c;111&#xff0c;第二行输出两个122 2*24依次类推。 编程&#xff1a; 1.方法一&#xff1a; for i in range(1…

昊辰创投注资众见科技,共筑智能眼镜未来:新一轮融资加速技术创新与市场扩张

众见科技:智能眼镜领域的新星,昊辰创投助力新轮融资 在智能眼镜市场日益成为科技创新与资本追逐焦点的今天,深圳众见科技有限公司(以下简称“众见科技”)以其卓越的技术实力和前瞻性的市场布局,成功吸引了昊辰创投的青睐,完成了新一轮融资。此次融资不仅标志着众见科技在…

基于SpringBoot+Vue的高校运动会管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏&#xff1a;…

华为OD机试 - 转骰子(Java 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;E卷D卷A卷B卷C卷&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加…

AIGC实践|AI助力文旅短视频创作全流程

前言&#xff1a; 受到央视《AI我中华》及各地文旅AI宣传片的启发&#xff0c;本次我将尝试使用AI辅助进行城市宣传片的创作探索。我将尽可能详细的展示使用AI辅助创作城市宣传片的全过程&#xff0c;从灵感捕捉到最终成品呈现。现在&#xff0c;让我们一同踏上这段充满创意的探…

中国剩余定理专题

按照m之间的性质来决定采用什么方法 是否互质&#xff1f; 互质——中国剩余定理 不互质——拓展欧几里得 拓展中国剩余定理 互质情况下&#xff0c;是否均为质数&#xff1f; 是—— 费马小定理求逆元 否——拓展欧几里得求逆元 互质条件下的拓展欧几里得中国剩余定理 题…

Spring Boot框架:新闻推荐系统开发新趋势

3系统分析 3.1可行性分析 通过对本新闻推荐系统实行的目的初步调查和分析&#xff0c;提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本新闻推荐系统采用JAVA作为开发语言&#xff0c;Spring Boot框…

序列化与反序列化基础及反序列化漏洞(附案例)

参考文章&#xff1a; [web安全原理]PHP反序列化漏洞 - 笑花大王 - 博客园 (cnblogs.com) 一、概念 为了能有效的存储数据而不丢失数据的类型和内容&#xff0c;经常需要通过序列化对数据进行处理&#xff0c;将数据进行序列化后&#xff0c;会生成一个字符串&#xff0c;字符…

冯诺依曼体系结构与操作系统简介

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 冯诺依曼体系结构与操作系统简介 收录于专栏[Linux学习] 本专栏旨在分享学习Linux的一点学习笔记&#xff0c;欢迎大家在评论区交流讨论&#x1f48c; 目录 1.…

CSP-J Day 5 模拟赛补题报告

姓名&#xff1a;王胤皓&#xff0c;校区&#xff1a;和谐校区&#xff0c;考试时间&#xff1a; 2024 2024 2024 年 10 10 10 月 5 5 5 日 9 : 00 : 00 9:00:00 9:00:00~ 12 : 30 : 00 12:30:00 12:30:00&#xff0c;学号&#xff1a; S 07738 S07738 S07738 请关注作者的…

分治算法(1)_颜色分类

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 分治算法(1)_颜色分类 收录于专栏【经典算法练习】 本专栏旨在分享学习算法的一点学习笔记&#xff0c;欢迎大家在评论区交流讨论&#x1f48c; 目录 1. 分治思…

PostgreSQL 任意命令执行漏洞(CVE-2019-9193)

记一次授权攻击通过PostgreSql弱口令拿到服务器权限的事件。 使用靶机复现攻击过程。 过程 在信息收集过程中&#xff0c;获取到在公网服务器上开启了5432端口&#xff0c;尝试进行暴破&#xff0c;获取到数据库名为默认postgres&#xff0c;密码为1 随后连接进PostgreSql …

(杨辉三角) 攻防世界--->notsequence

学习笔记。(不想看可以直接跳正文。) 前言&#xff1a;仿佛又回到高中 - - 只不过&#xff0c;是以另一种形式再次出现。 学习思维为主&#xff0c;做题位次。&#xff08;后面再补。&#xff09; 前置知识&#xff1a; 什么是杨辉三角&#xff1a; 杨辉三角_百度百科 (bai…