【大模型基础】P2 Bag-of-Words

news2024/9/25 19:20:14

目录

  • 词袋模型 概述
  • 词袋模型 实例
    • 第1步 构建语料库
    • 第2步 对句子进行分词
    • 第3步 创建词汇表
    • 第4步 转换词袋表示
    • 第5步 计算余弦相似度
  • 词袋模型的局限性

词袋模型 概述

词袋模型,Bag-of-Words,是一种简单的文本表示方法,也是 NLP 中的一个经典模型。

它将文本中的词看作一个个独立的个体,不考虑它们在句子中的顺序,只关心每个词出现的频次。

e . g . e.g. e.g. 比如我们有两个句子

+ "我喜欢吃苹果"
+ "苹果是我喜欢的水果"

词袋模型会将这两个句子表示成如下向量:

+ {"我": 1, "喜欢": 1, "吃": 1, "苹果": 1}
+ {"苹果": 1, "是": 1, "我": 1, "喜欢": 1, "的": 1, "水果": 1}

而后,词袋模型通过比较两个向量之间的相似度,判断其关联性的强弱


词袋模型 实例

在这里插入图片描述

第1步 构建语料库

# 构建语料库
corpus = ["我特别特别喜欢看电影", 
          "这部电影真的是很好看的电影", 
          "今天天气真好是难得的好天气", 
          "我今天去看了一部电影", 
          "电影院的电影都很好看"]

第2步 对句子进行分词

使用 jieba 包对句子进行分词。

# 对句子进行分词
import jieba

corpus_tokenized = [list(jieba.cut(sentence)) for sentence in corpus]
corpus_tokenized

结果:

[['我', '特别', '特别', '喜欢', '看', '电影'],
 ['这部', '电影', '真的', '是', '很', '好看', '的', '电影'],
 ['今天天气', '真好', '是', '难得', '的', '好', '天气'],
 ['我', '今天', '去', '看', '了', '一部', '电影'],
 ['电影院', '的', '电影', '都', '很', '好看']]

第3步 创建词汇表

根据分词结果,创建该语料库的词汇表,其中每一个词对应一个编号。

# 创建词汇表
word_dict = {}
for sentence in corpus_tokenized:
    for word in sentence:
        if word not in word_dict:
            word_dict[word] = len(word_dict)

word_dict

结果:

{'我': 0,
 '特别': 1,
 '喜欢': 2,
 '看': 3,
 '电影': 4,
 '这部': 5,
 '真的': 6,
 '是': 7,
 '很': 8,
 '好看': 9,
 '的': 10,
 '今天天气': 11,
 '真好': 12,
 '难得': 13,
 '好': 14,
 '天气': 15,
 '今天': 16,
 '去': 17,
 '了': 18,
 '一部': 19,
 '电影院': 20,
 '都': 21}

第4步 转换词袋表示

由第三步可知,该词袋长度为 21,故对该语料库中5句话的每句话转换词袋表示。长度均为21,按照该词在该句中出现的次数表示为句向量。

# 根据词汇表将句子转换为词袋表示
bow_vectors = []
for sentence in corpus_tokenized:
    sentence_vector = [0] * len(word_dict)
    for word in sentence:
        sentence_vector[word_dict[word]] += 1
    bow_vectors.append(sentence_vector)
bow_vectors

结果:

[[1, 2, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 2, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0],
 [1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0],
 [0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1]]

第5步 计算余弦相似度

余弦相似度(Cosine Similarity),可以衡量两个文本向量之间的相似性。其值在(-1,1)之间波动,1为最相似。

余弦相似度关注向量之间的角度,而非距离。而角度,能够更好地反映文本向量在概念空间中的相对方向和相似性。

# 计算余弦相似度
import numpy as np

def cosine_similarity(vec1, vec2):
    dot_product = np.dot(vec1, vec2)
    norm_a = np.linalg.norm(vec1)
    norm_b = np.linalg.norm(vec2)

    return dot_product / (norm_a * norm_b)

similarity_matrix = np.zeros((len(corpus), len(corpus)))
for i in range(len(corpus)):
    for j in range(len(corpus)):
        similarity_matrix[i][j] = cosine_similarity(bow_vectors[i], bow_vectors[j])

similarity_matrix

结果:

array([[1.        , 0.2236068 , 0.        , 0.40089186, 0.14433757],
       [0.2236068 , 1.        , 0.23904572, 0.23904572, 0.64549722],
       [0.        , 0.23904572, 1.        , 0.        , 0.15430335],
       [0.40089186, 0.23904572, 0.        , 1.        , 0.15430335],
       [0.14433757, 0.64549722, 0.15430335, 0.15430335, 1.        ]])

词袋模型的局限性

词袋模型逻辑清晰,实现简单,但是存在着一个致命的缺陷,那就是忽略了文本中的上下文信息。词袋模型无法捕捉单词之间的语义关系,因为单词在向量空间中的相对位置没有意义。


2024.09.07

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2126079.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Arcgis基础教程】GIS数据制备,空间分析与高级建模实践应用

随着信息技术的发展,数字地球、智慧地球等新概念的出现,人们对信息的需求日益提高,使得地理信息系统(GIS)在国民经济各个行业中获得了日益广泛的应用。尤其在当今大数据时代,面对海量的空间数据及个性化的地理信息服务,如何高效地…

Outlook如何归档?

文章目录 一. 目的二. 问题详述三. 解决办法1、打开ouutlook文件2、设置存档文件夹3、设置存档文件夹4、选中邮箱点击确定5、如果备份失败的操作方法 四. 注意事项 一. 目的 解决OUTLOOK邮箱爆满造成无法接收邮件的问题…

猫头虎分享:看完百度内部讲话,整理出李彦宏关于大模型的10个判断

🦁 猫头虎分享:看完百度内部讲话,整理出李彦宏关于大模型的10个判断 📢 大家好!我是猫头虎技术团队的首席写作官。今天为大家带来一篇重量级内容:从百度内部讲话中,整理了李彦宏对大模型的10大…

LIO-SAM如何保存地图

一、找到LIO-SAM配置文件,路径为config/params.yaml,修改以下两项参数: savePCD: true # https://github.com/TixiaoShan/LIO-SAM/issues/3savePCDDirectory: "/home/slam/catkin_ws/src/maps" …

通讯录 - 动态内存开辟版本

文章目录 前言 一、思想 二、contact.h 三、test.c 四、contact.c 1、初始化通讯录 2、判断容量 3、增加联系人 4、封装的查找的函数 5、删除联系人 6、查找联系人 7、修改联系人 八、展示通讯录 九、排序 十、释放空间 总结 前言 路漫漫其修远兮,吾将上下而求索&…

盘点2024年4款高质量的英语翻译工具

英语目前对我们来说仍然是一门很重要的语言,在日常生活中,如果我们需要频繁的接触到英语的话,除了要积极提升自己的英语翻译能力之外,借助一些高效的英语翻译工具也是很有必要的。所以今天就跟大家分享一些我觉得比较好用的翻译工…

Kotlin 特性之扩展函数

什么是扩展函数 扩展函数是 Java 不具备的,而 Kotlin 独有的特性,在日常开发中使用频率很高,类似于设计模式中的装饰模式,其作用就是在不改变原有类的情况下,扩展新的功能。 如何使用扩展函数和扩展属性 扩展函数的…

通信工程学习:什么是ASK振幅键控、FSK频移键控、PSK相移键控

ASK振幅键控、FSK频移键控、PSK相移键控 ASK(振幅键控)、FSK(频移键控)和PSK(相移键控)是三种常见的数字调制技术,它们各自通过不同的方式改变载波的某个参数来传输数字信息。以下是对这三种调制…

微软 Power Apps MDA 模型驱动应用解决Image字段查询出来缩略图问题变原图方法(c#+Plugin方式)

微软 Power Apps MDA 模型驱动应用解决Image字段查询出来缩略图问题变原图方法(c#Plugin方式) 在某些特定的场景中,需要将Image字段中的图片取出来,一般来说直接查询这个字段可以直接取,取出来的就是一个Base64格式的图…

【linux-Day2】linux下的基本指令

【linux-Day2】linux下的基本指令 一键查看操作系统的重要地位linux下的基本指令📢ls:显示当前目录下所有的子目录和文件📢pwd:显示用户当前所在的目录,在windows中,相当于显示当前目录的绝对路径。&#x…

推理与训练,分布式训练

什么是推理training 在人工智能领域,推理是指经过训练的机器学习模型从全新的数据(输入)中得出结论(输出)的过程。通俗地讲,推理是模型的实际运行。 什么是训练 inference 在人工智能领域,训…

Linux内核初始化过程中加载TCP/IP协议栈

Linux内核初始化过程中加载TCP/IP协议栈 Linux内核初始化过程中加载TCP/IP协议栈,从start_kernel、kernel_init、do_initcalls、inet_init,找出Linux内核初始化TCP/IP的入口位置,即为inet_init函数。 Linux内核启动过程 之前的实验中我们设…

差值图中像素总和的正负性(极性)含义

1. 正总和的含义 当 I1 减去 I2 的差值图总和为正时,这意味着整体上 I1 的像素值比 I2 高。即: 表示: 2. 局部亮度变化 即便差值图的总和为正,也不能确保 I1 在所有区域都比 I2 亮。差值图的正总和只是表明在整个图像中&#xf…

webpack5 创建多页面应用配置

简单版webpack创建多页面应用,只要把配置文件复制下来,然后npm安装相应插件,正常是能跑起来了 创建 初始化 npm init生成package.json文件安装webpack npm i -D webpack webpack-cli webpack-dev-server创建main.js入口文件和webpack.config…

云计算实训48——k8s环境搭建(详细版)

1.创建主机、设置ip、设置hostname 2.设置免密登录 # 生成私钥 [rootk8s-master ~]# ssh-keygen Generating public/private rsa key pair. Enter file in which to save the key (/root/.ssh/id_rsa): /root/.ssh/id_rsa already exists. Overwrite (y/n)? y Enter passphr…

智能化转型的基石:精心策划楼宇自控系统的选择与部署

智能化转型的基石:精心策划楼宇自控系统的选择与部署 在智慧城市的宏伟蓝图中,建筑智能化已成为推动城市进步的强劲动力。楼宇自控系统,作为这一进程中的核心组件,其选择与部署策略不仅关乎建筑内部的运营效率与能源管理&#xff…

十大排序算法的特点及应用场景

一.十大经典排序算法介绍 1. 冒泡排序(Bubble Sort) 原理:通过重复遍历要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。遍历数列的工作是重复进行的,直到没有再需要交换的元素为止。…

视频编辑SDK解决方案,完整的前端代码+SDK功能交付

繁琐的视频编辑过程往往成为创作者们提升作品质量的瓶颈,美摄科技凭借其深厚的AI技术积累与创新的移动端视频编辑SDK解决方案,正引领着视频编辑领域的新潮流,让每一位创作者都能轻松驾驭创意,实现从灵感闪现到作品呈现的无缝对接。…

点餐小程序实战教程05登录界面搭建

目录 1 设置tab栏2 添加页面3 搭建登录界面3.1 显示头像3.2 显示昵称3.3 注册按钮 总结 上一篇我们讲解了如何在首页加载的时候获取用户信息,一般小程序会在底部放置tab栏,将不同的菜单放置在tab栏中。我们的用户注册逻辑是,如果用户点击了底…

Java码农人生开启手册——多态与重写

一、多态 概念:通俗来说,就是多种形态;具体点,就是去完成某个行为,当不同的对象去完成时会产生不同的状态。 1、多态的实现条件 三个条件,缺一不可: 必须在继承体系下子类必须对父类中方…