自然语言处理 TF-IDF

news2025/1/23 7:22:50

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。
🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


本文目录

    • TF-IDF 简介
    • TF-IDF 算法
      • TF
      • IDF
      • TF-IDF
    • TF-IDF 的缺点


TF-IDF 简介

TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的常用加权技术,它用于评估一个单词对于一个文档集合中某个特定文档的重要程度。在自然语言处理、搜索引擎优化和机器学习等领域中,TF-IDF 被广泛应用于关键词抽取、相似性计算、文档排名等多个场景。

组成部分:

  1. TF (Term Frequency)

    • TF 表示词频,即一个给定词语在特定文档中出现的次数或频率。
    • 通常,TF 的计算方法是对单个文档中的词频进行归一化,可以简单地计算为该词语在文档中出现的次数除以文档总词汇数,或者使用更复杂的加权方式来降低非常长文档中高频但不一定重要的词语的影响。
  2. IDF (Inverse Document Frequency)

    • IDF 是逆文档频率,反映了一个词语在整个文档集合(语料库)中的普遍重要性。
    • 它是通过将所有文档的数量除以包含该词语的文档数量,然后对得到的商取对数来计算的。
    • IDF 值越大,说明这个词越稀有,即它在较少的文档中出现过,因此具有更高的鉴别度。

TF-IDF 综合指标:

  • 将 TF 和 IDF 结合起来,就得到了 TF-IDF 值,用来衡量一个词语对于特定文档的重要性。
  • 当一个词语在某文档中出现得越频繁(TF 高),且在全体文档中出现得越少(IDF 大),则其 TF-IDF 值越高,表明该词语对于区分这份文档来说越关键。

通过应用 TF-IDF 算法,我们可以过滤掉那些在所有文档中都常见的词语(如“的”、“和”等停用词),同时提升那些在个别文档中频繁出现且在整个语料库中较罕见的词语的权重,从而更好地识别文档的主题和关键内容。

TF-IDF 算法

TF

TF 表示词频,即一个给定词语在特定文档中出现的次数或频率,通常由以下公式计算:

TF ( t ) = t 在文档中出现的次数 文档中的总词数 \text{TF}(t) = \frac{t\text{在文档中出现的次数}}{\text{文档中的总词数}} TF(t)=文档中的总词数t在文档中出现的次数

其中, t t t 表示一个词语, TF ( t ) \text{TF}(t) TF(t) 表示该词语的 TF 值。

IDF

IDF 是逆文档频率,反映了一个词语在整个文档集合(语料库)中的普遍重要性,通常由以下公式计算:

IDF ( t ) = log ⁡ 语料库中的文档总数 包含词语 t 的文档数目 + 1 \text{IDF}(t) = \log \frac{\text{语料库中的文档总数}}{\text{包含词语}t\text{的文档数目}+1} IDF(t)=log包含词语t的文档数目+1语料库中的文档总数

其中, t t t 表示一个词语, IDF ( t ) \text{IDF}(t) IDF(t) 表示该词语的 IDF 值,分母加 1 为拉普拉斯平滑,避免分母为 0。

使用 log 函数不仅可以使一些在每篇文档中几乎都有出现的常用词语(如“的”、“和”等停用词)的 IDF 值趋近于 0,从而降低它们的权重,同时也可以使那些仅在极个别文档中出现但不是很重要的词(如错别字)的 IDF 值不至于过高。

TF-IDF

TF-IDF 是 TF 和 IDF 的结合,用来衡量一个词语对于特定文档的重要性,通常由以下公式计算:

TF-IDF ( t ) = TF ( t ) × IDF ( t ) \text{TF-IDF}(t) = \text{TF}(t) \times \text{IDF}(t) TF-IDF(t)=TF(t)×IDF(t)

其中, t t t 表示一个词语, TF-IDF ( t ) \text{TF-IDF}(t) TF-IDF(t) 表示该词语的 TF-IDF 值。

TF-IDF 的缺点

TF-IDF(词频-逆文档频率)算法在自然语言处理和信息检索中广泛应用,但存在以下主要缺点:

  1. 无法捕捉语义信息:TF-IDF 仅基于词频和文档频率计算单词的重要性,并未考虑词语之间的语义关系。这意味着对于具有相似含义的词汇,尽管它们在不同的文本中可能有不同的出现形式,但算法无法自动识别并给予相同的权重。

  2. 忽略词序与上下文:TF-IDF 不考虑词语在句子或文档中的具体顺序和上下文依赖关系,这对于理解某些语境下的确切含义至关重要。

  3. 对长文档和稀有词汇处理不足:由于单纯依赖频率统计,TF-IDF 可能会过于强调出现在长文档中次数多但实际重要性一般的词汇,同时赋予罕见词汇过高的权重,即使这些词汇可能是噪音或者无关紧要的。

  4. 不能反应词的位置信息:TF-IDF 没有包含词在文档中的位置信息,而标题、开头或结尾的词通常具有更重要的意义。

  5. 数据集偏斜的影响:如果一个词汇在少数几个文档中频繁出现,但在整个语料库中并不常见,TF-IDF 可能错误地认为这个词对那些文档非常关键,但实际上它可能只代表了那些特定文档的主题特性而非普遍重要性。

  6. 生僻词的问题:一些生僻词或专业术语可能会得到较高的 IDF 值,但这并不能保证它们在所有情况下都构成相关或重要的关键词。

因此,在处理复杂的自然语言理解和语义相关的任务时,往往需要结合其他技术,例如使用深度学习模型如 BERT 等来补充 TF-IDF 方法的不足。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1419194.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java强训day10(选择题编程题)

选择题 public class Test01 {public static void main(String[] args) {try{int i 100 / 0;System.out.print(i);}catch(Exception e){System.out.print(1);throw new RuntimeException();}finally{System.out.print(2);}System.out.print(3);} }编程题 题目1 import jav…

重构改善既有代码的设计-学习(六):处理继承关系

1、函数上移(Pull Up Method) 无论何时,只要系统内出现重复,你就会面临“修改其中一个却未能修改另一个”的风险。通常,找出重复也有一定的难度。 所以,某个函数在各个子类中的函数体都相同(它们…

leetcode hot100跳跃游戏Ⅱ

本题和上一题还是有不一样的地方,这个题中,我们需要记录我们跳跃的步数并尽可能的满足最小的跳跃步数到达终点。 那么我们还是采用覆盖范围的概念,但是我们需要两个,一个是在当前位置的覆盖范围,另一个是下一步的覆盖…

Linux的 .bashrc 有什么作用?

一、.bashrc 是什么? 有什么用? .bashrc是一个存储在你的home目录下的隐藏文件,它用来配置和自定义你的终端环境和行为。 每次你启动一个新的终端时,.bashrc文件就会被执行,加载你设置的环境变量,别名,函数…

深度学习-自注意力机制

文字编码 one-hot编码,让模型自己去学习怎么进行编码 常见的输出 1.每个词都有一个输出值 2.每个句子输出一个值,情感分类 3.输入与输出长度不对应,翻译任务,生成任务。 RNN最早的语言处理 RNN解决的是模型去考虑前面的输入…

数字图像处理(实践篇)二十八 使用OpenCV Python中的K-means对图像进行颜色量化处理

目录 1 颜色量化 2 实践 在某些时候,不可避免的某些设备只能生成有限数量的颜色。因此需要执行颜色量化。选择使用cv2.kmeans()函数对颜色量化应用k-means聚类。 1 颜色量化 使用K-means聚类在图像中实现颜色量化的步骤如下: ① 导入依赖库

js实现动漫拼图2.0版

比较与1.0版,2.0版就更像与华容道类似的拼图游戏,从头到尾都只能控制白色块移动,而且打乱拼图和求助的实现与1.0都不相同 文章目录 1 实现效果2 实现思路2.1 打乱拼图2.2 求助功能2.3 判赢 3 代码实现 js实现动漫拼图1.0版 https://blog.csdn…

【千亿生意】一张眼底图,浮现你未来十年身体1000多种疾病风险

【千亿生意】一张眼底图,浮现你未来十年身体1000多种疾病风险 一眼看全身鹰瞳思路眼底看全身论文眼底成像技术眼底看肝脏眼底看多囊卵巢综合征眼底看肺部眼底看贫血眼底看少肌症眼底看神经退行眼底看心血管眼底看肾脏 鹰瞳视网膜论文 一眼看全身 眼病,是…

Redisson分布式锁介绍及实战应用(防止缓存击穿)

本地锁 浏览器把100w请求由网关随机往下传,在集群情况下,每台服务都放行10w请求过来,这时候每台服务都用的是本地锁是跨JVM的, 列如这些服务都没有49企业,此时有几个服务进行回原了打击在DB上面,那后期把这…

fastapi报错

初始化报错,非常低级错,扇自己10八张 app FastApi()

如何在Shopee越南站点进行有效的选品

在如今的电商市场中,选品是卖家们取得成功的关键之一。在Shopee越南站点进行选品时,卖家可以采取一些策略来提高产品的竞争力和销售业绩。本文将介绍一些有效的选品策略,帮助卖家在Shopee越南站点取得成功。 先给大家推荐一款shopee知虾数据…

算法沉淀——二分查找(leetcode真题剖析)

算法沉淀——二分查找 01.二分查找02.在排序数组中查找元素的第一个和最后一个位置03.搜索插入位置04.x 的平方根05.山脉数组的峰顶索引06.寻找峰值07.寻找旋转排序数组中的最小值08.LCR 173. 点名 二分查找(Binary Search)是一种在有序数组中查找特定元…

【服务器APP】利用HBuilder X把网页打包成APP

目录 🌺1. 概述 🌼1.1 新建项目 🌼1.2 基础配置 🌼1.3 图标配置 🌼1.4 启动界面配置 🌼1.5 模块配置 🌼1.6 打包成APP 🌺1. 概述 探讨如何将网页转化为APP,这似乎…

【大厂AI课学习笔记】1.3 人工智能产业发展(1)

我国人工智能政策,分为5个阶段。从探索期,到后面的4个阶段。 MORE:(以下为文心一言4.0的参考内容,和腾讯课程资料的分阶段,略有不同) 我国的人工智能政策发展可以大致分为以下几个阶段,每个阶段…

网络防御安全知识(第三版)

配置黑洞路由 --- 黑洞路由即空接口路由,在NAT地址池中的地址,建议配置达到这个地址指 向空接口的路由,不然,在特定环境下会出现环路。(主要针对地址池中的地址和出接口地址 不再同一个网段中的场景。) …

一文解锁——那些你不太了解的AI!

ChatGPT现象级走红,国内也有文心一言等模型紧随其后,彻底将大语言模型送上大热门。 不管是你是否深度应用过这些模型,不可否认的是,AI已经彻底地融入我们的生活,甚至成为赚钱利器。除了ChatGPT和百度的文心一言&#…

力扣712. 两个字符串的最小ASCII删除和

动态规划 思路: 假设 dp[i][j] 是 s1 长度 i 和 s2 长度 j 两个字符串的最小 ASCII 删除和;dp[i][j] 可以由: 如果 s1 的第 i 个字符(s1[i - 1])和 s2 的第 j 个字符(s2[j - 1])不相等&#xf…

详解SpringCloud微服务技术栈:ElasticSearch实战(旅游类项目)

👨‍🎓作者简介:一位大四、研0学生,正在努力准备大四暑假的实习 🌌上期文章:详解SpringCloud微服务技术栈:ElasticSearch实践2——RestClient查询并处理文档 📚订阅专栏:…

【JavaScript 基础入门】01 编程语言和计算机基础

编程语言和计算机基础 目录 编程语言和计算机基础1 - 编程语言1.1 编程1.2 计算机语言1.3 编程语言1.4 翻译器1.5 编程语言和标记语言区别1.6 总结 2 - 计算机基础2.1 计算机组成2.2 数据存储2.3 数据存储单位2.4 程序运行 1 - 编程语言 1.1 编程 编程: 就是让计算…

运放反馈电阻上并联小电容的作用

这是一个同相比例运算放大电路, Rf是反馈电阻 有的电路还会在反馈电阻上并联一个小电容,一般在几pF到几十pF。 那么这个电容有什么作用呢?其实这个电容是一个相位补偿电容,防止运放自激振荡的。另外这个电容也有抑制高频噪声的作用…