TF-IDF、BM25传统算法总结

TF-IDF、BM25传统算法总结

news2026/3/14 15:07:04

1. TF-IDF算法

F-IDF（词频-逆文档频率）是一种用于衡量文本中词语重要性的方法，特别适用于信息检索和文本挖掘任务。下面会拆分为两部分深入讲解TF-IDF的计算过程，以便更好地理解。

    TF-IDF的计算过程可以分为两个主要部分：词频（TF）和逆文档频率（IDF）。

1.1 TF(词频)

词频是指某个词语在文档中出现的频率。TF表示了一个词语在文档中的重要性，通常通过以下公式计算：
在这里插入图片描述
计算出的TF值表示了词语在单个文档中的相对重要性，值越大表示词语在文档中越重要。

1.2 IDF(逆文档频率)

逆文档频率度量了一个词语在整个文档集合中的重要性。IDF值越大，表示词语在整个文档集合中越不常见，因此在文档中的重要性越高。IDF通常通过以下公式计算：
在这里插入图片描述
计算出的IDF值反映了词语的全局重要性，较不常见的词语具有较高的IDF值。

1.3 TF-IDF

TF-IDF的计算是将词频（TF）和逆文档频率（IDF）相结合，以确定词语在文档中的整体重要性。计算公式如下：
在这里插入图片描述
计算出的TF-IDF值表示了词语在文档 d 中的重要性，同时考虑了在整个文档集合 D 中的全局重要性。

2. BM25算法

BM25（Best Matching 25）是一种用于信息检索（Information Retrieval）和文本挖掘的算法，它被广泛应用于搜索引擎和相关领域。BM25 基于 TF-IDF（Term Frequency-Inverse Document Frequency）的思想，但对其进行了改进以考虑文档的长度等因素。

2.1 基本思想

TF-IDF 的改进： BM25 通过对文档中的每个词项引入饱和函数（saturation function）和文档长度因子，改进了 TF-IDF 的计算。
饱和函数：在 BM25 中，对于词项的出现次数（TF），引入了一个饱和函数来调整其权重。这是为了防止某个词项在文档中出现次数过多导致权重过大。
文档长度因子： BM25 考虑了文档的长度，引入了文档长度因子，使得文档长度对权重的影响不是线性的。这样可以更好地适应不同长度的文档。

2.2 计算公式

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1865830.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

2.移植freertos到stm32f103c8t6

2.移植freertos到stm32f103c8t6

目录 1.步骤 2.freertos配置时常见的选项卡意思 1.步骤 2.freertos配置时常见的选项卡意思

阅读更多...

typescript学习回顾(三)

typescript学习回顾(三)

今天继续来分享ts的相关概念，枚举，ts模块化，接口和类型兼容性 ts的扩展类型：类型别名，枚举，接口和类枚举基础概念枚举通常用于约束某个变量的取值范围。当然字面量和联合类型配合使用，也可…

阅读更多...

动态规划——123. 买卖股票的最佳时机 III

动态规划——123. 买卖股票的最佳时机 III

目录 1、题目链接 2、题目分析 1.状态表示 2.状态转移方程 3.初始化 4.填表 5.返回值 3、代码解析 1、题目链接 123. 买卖股票的最佳时机 III 2、题目分析 1.状态表示由题目可知，我们分为两种状态，买入和卖出，又因为只能完成两次交易…

阅读更多...

如何从iPhone恢复错误删除的照片

嘿，iPhone 用户！作为一名苹果专业人士，我见过相当多的“哎呀，我删除了它！”的时刻。今天，我在这里指导您完成从iPhone中恢复那些珍贵的，错误删除的照片的迷宫。坐下来，拿起你的设备&…

阅读更多...

【2020-2023】Transformer在小目标检测领域的应用与发展综述

【2020-2023】Transformer在小目标检测领域的应用与发展综述

《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~ 👍感谢小伙伴们点赞、关注！ 《------往期经典推…

阅读更多...

std::enable_if和std::is_base_of

std::enable_if和std::is_base_of

std::enable_if,其主要为了完成模板特偏化，有两个参数，第一个为布尔值类型，第二个如果布尔值为true，其为默认空值，如果已经赋值，则为对应的类型。 std::is_base_of，其一共存在两个参数&#xff…

阅读更多...

windows10/win11截图快捷键和剪贴板历史记录快捷键

windows10/win11截图快捷键和剪贴板历史记录快捷键

后知后觉的我今天又学了两招： windows10/win11截图快捷键按 Windows 徽标键‌ Shift S。选择屏幕截图的区域时，桌面将变暗。默认情况下，选择“矩形模式”。可以通过在工具栏中选择以下选项之一来更改截图的形状：“矩形模式”…

阅读更多...

【每日刷题】Day76

【每日刷题】Day76

【每日刷题】Day76 🥕个人主页：开敲🍉 🔥所属专栏：每日刷题🍍 🌼文章目录🌼 1. 561. 数组拆分 - 力扣（LeetCode） 2. 删除有序链表中重复的元素-II_牛客题霸…

阅读更多...

多接口分线盒在工业自动化中的重要性与应用

多接口分线盒在工业自动化中的重要性与应用

简介多接口分线盒是现代工业自动化中不可或缺的一个组成部分，它主要用于简化复杂的接线系统，提高效率和可靠性。本文将详细探讨多接口分线盒的定义、功能、以及在工业自动化中的应用情况。无源多接口分线盒多接口分线盒的定义与功能多接口分线盒是…

阅读更多...

vue draggable

vue draggable

一、安装： npm i -S vuedraggablenext 二、代码 <draggable :list"projectOptions" item-key"name" class"w-25" ghost-class"ghost"chosen-class"chosen" update"updateSort" animation"3…

阅读更多...

Ubuntu系统安装软件---以安装QQ为例

Ubuntu系统安装软件---以安装QQ为例

以安装QQ为例，首先你的Ubuntu系统需要连上网，连上网的网络状态如下图所示。在ubuntu系统的网页中搜索QQ，如下图所示。进入QQ官网，点击Linux，如下图所示。随后会让你选择什么架构的版本，如何查看自己的是…

阅读更多...

金融企业数据跨境流动的核心需求是什么？如何才能落地？

金融企业数据跨境流动的核心需求是什么？如何才能落地？

在金融行业，涉及到的数据跨境流动的场景多种多样，主要涉及到金融机构的跨国经营、全球贸易以及服务贸易等多个方面： 企业跨国经营：当金融机构进行跨国经营时，如银行在海外设立分支机构或进行跨境投资，会涉及…

阅读更多...

神经网络学习8-反向传播

神经网络学习8-反向传播

back propagation 拿到前面传回来的L对z的偏导，再分别算损失值对x和w的偏导反向传播前馈过程求局部梯度反向传播这里的loss（wxb-y)^2,第一个关于b的偏导为2(wxb-y),第二个关于w的为2w(wxb-y)

阅读更多...

记录待办事项的便签软件哪个好用？

记录待办事项的便签软件哪个好用？

在快节奏的现代生活中，我们经常需要处理各种各样的待办事项，为了更好地管理时间，许多人选择使用便签软件来记录自己的待办事项。那么，记录待办事项的便签软件哪个好用？市面上众多的便签软件中，哪一个才是最…

阅读更多...

【新闻】金融专业“免进”！私募巨头招聘涌现“新剧情”

【新闻】金融专业“免进”！私募巨头招聘涌现“新剧情”

A股市场在2024年逐渐出现新的运行特征，这不禁让部分主动投资的私募巨头公司重新登上招聘舞台。但这一次，他们的招聘方向出现了新的变动。有些机构有意识的为公司投研团队招聘“衔接”岗，有些则把重点放在了投研动作的交易层。但这都不如…

阅读更多...

社区团购小程序开发

社区团购小程序开发

在快节奏的现代生活中，人们越来越追求便利与效率。社区团购小程序应运而生，以其独特的优势成为连接社区居民与优质商品的重要桥梁。本文将探讨社区团购小程序的特点、优势以及未来发展趋势，为大家揭示这一新型购物模式的魅力。社区团购小程序…

阅读更多...

Superset二次开发之导入导出功能源码解读

Superset二次开发之导入导出功能源码解读

可导出的类型支持看板（Dashboard）、图表（Charts）、数据集（Datasets）、SQL（saved_query）、数据库（Database connection）单次或批量的导出，和单次导入操作看板（Dashboard）图表（Charts）数据集（Datasets） SQL (saved_query) 数据库（database connections）…

阅读更多...

为什么需要对数据质量问题进行根因分析？根因分析该怎么做？

为什么需要对数据质量问题进行根因分析？根因分析该怎么做？

在当今的商业环境中，数据已成为企业决策的核心。然而，数据的价值高度依赖于其质量。低质量的数据不仅会降低分析的准确性，还可能导致错误的决策，从而影响企业的竞争力和市场表现。因此，识别和解决数据质量问题是数据管…

阅读更多...

定制汽车霍尔传感器应用及特点

定制汽车霍尔传感器应用及特点

霍尔传感器定制概览霍尔传感器是一种广泛应用于汽车领域的磁性传感器，其工作原理基于霍尔效应，能够将磁场的变化转换为电信号输出。在汽车行业中，霍尔传感器因其高精度、稳定性和无接触式测量的特点而被广泛应用于发动机控制、自动变速控制…

阅读更多...

推荐5款学习工作效率工具

推荐5款学习工作效率工具

Online AudioConvert Online AudioConvert 是一个在线音频格式转换工具，支持多种音频和视频文件格式的转换。用户可以将音频文件从一种格式转换为另一种格式，例如从 MP3 转换为 WAV 或从视频中提取音频。该工具无需注册、安装或文件大小限制，…

阅读更多...

推荐文章

最新文章