信息检索与数据挖掘 | (二)布尔检索与倒排索引

news2024/9/28 1:21:51

文章目录

  • 📚词项-文档关联矩阵
    • 🐇相关名词
    • 🐇词项-文档关联矩阵的布尔查询处理
  • 📚倒排索引
    • 🐇关于索引
    • 🐇建立索引
    • 🐇基于倒排索引的布尔查询处理
    • 🐇查询优化
  • 📚字典数据结构
    • 🐇哈希表
    • 🐇各种树
    • 🐇B树 vs B+树
  • 📚短语查询及含位置信息的倒排记录
    • 🐇二元词索引(Biword indexes)
    • 🐇位置信息索引
    • 🐇混合索引机制
  • 📚基于跳表的倒排记录表快速合并算法

  • 线性扫描是一种最简单的计算机文档检索方式,这个过程通常称为grepping。在使用现代计算机的条件下,对一个规模不大的文档集进行线性扫描非常简单,根本不需要做额外的处理。
  • 但在(1)大规模文档集(2)更灵活的匹配方式(3)需要对结果进行排序的情况下,就不能再用上边的线性扫描。一种非线性扫描的方式是事先给文档建立索引(index)。

📚词项-文档关联矩阵

🐇相关名词

  • 词项(Term):索引的单位,通常用词来表示。
  • 文档(Document):检索系统的检索对象,可以是单独的一条记录或者是一本书的各章。
  • 文档集/语料库(collection/corpus):所有文档的集合。
  • 词项-文档关联矩阵(Term-document incidence matrices)
    在这里插入图片描述
  • 从行看,可以得到每个词项对应的文档向量,表示词项在哪些文档出现或不出现。
  • 从列看,可以得到每个文档对应的词项向量,表示文档中哪些词项出现或不出现。

🐇词项-文档关联矩阵的布尔查询处理

  • 对于采用ANDORNOT等逻辑操作符连接起来的布尔表达式查询,通过对文档向量间接逻辑操作来得到查询结果。
  • 例:响应查询Brutus AND Caesar AND NOT Calpurnia:结果向量中的第1和第4个元素为1,这表明该查询对应的剧本是Antony and Cleo patraHamlet
    在这里插入图片描述
  • 假设有50万个词项和100万篇文档,所以其对应的词项-文档矩阵大概有5000亿个取布尔值的元素,这远远大于一台计算机内存的容量。此外,这个庞大的矩阵实际上具有高度的稀疏性,即大部分元素都是0,而只有极少部分元素为1。
    在这里插入图片描述
  • 也就是说对于词项个数和文档规模很大的情况,构造出的关联矩阵是高度稀疏的。这时,只记录原始矩阵中1的位置的表示方法比词项-文档关联矩阵更好。因此,引出了倒排索引

📚倒排索引

🐇关于索引

  • 索引(Index)由词项词典(Dictionary)和一个全体倒排记录表(Postings)组成。图 1-3 中的词典按照字母顺序进行排序,而倒排记录表则按照文档ID号进行排序。
    在这里插入图片描述

🐇建立索引

在这里插入图片描述在这里插入图片描述

  • 预处理词语切分词项归一化词干还原与词形合并去除停用词
    在这里插入图片描述

  • 构建倒排索引

    • 给每篇文章的所有词项加上文档ID
      在这里插入图片描述

    • 按照字母顺序排序
      在这里插入图片描述

    • 将同一词项合并,并将词项和文档ID分开存储。
      在这里插入图片描述

  • 在字典的每个词项中还可以存储其他信息,如文档频率

  • 每个倒排记录表存储了词项出现的文档列表,还可以存储词项频率、词项在文档中出现的位置

🐇基于倒排索引的布尔查询处理

在这里插入图片描述

求两个倒排记录表交集的合并算法

  • 我们对每个有序列表都维护一个位置指针,并让两个指针同时在两个列表中后移。
  • 该算法对于倒排记录表集(即待合并的两个倒排记录表)的大小而言是线性的。每一步我们都比较两个位置指针所指向的文档 ID,如果两者一样,则将该 ID 输出到结果表中,然后同时将两个指针后移一位。
  • 如果两个文档 ID不同,则将较小的 ID 所对应的指针后移。
  • 假设两个倒排记录表的大小分别是 x 和 y,那么上述求交集的过程需要 O ( x + y ) O(x+y) O(x+y)次操作,也即查询的时间复杂度为 Θ ( N ) Θ(N) Θ(N),其中 N 是文档集合中文档的数目。
    在这里插入图片描述
  • 和线性扫描相比,这种索引方法并没有带来Θ意义上时间复杂度的提高,而最多只是一个常数级别的变化。
  • 但是,实际当中这个常数很大

🐇查询优化

  • 对每个词项,我们必须取出其对应的倒排记录表,然后将它们合并。
  • 一个启发式的想法是,按照词项的文档频率(也就是倒排记录表的长度)从小到大依次进行处理,如果我们先合并两个最短的倒排记录表,那么所有中间结果的大小都不会超过最短的倒排记录表(这是因为多个集合的交集元素个数肯定不大于其中任何一个集合的元素个数) ,这样处理所需要的工作量很可能最少。

  • 布尔查询适合精确查询

📚字典数据结构

Two main choices——Hashtables、Trees

🐇哈希表

数据结构 | 第十章:散列表 | 字典 | 线性探查 | 链式散列 | LZW编码
在这里插入图片描述

🐇各种树

数据结构可视化网站
在这里插入图片描述

数据结构 | 第十一章:二叉树和其他树 | 【前序遍历】【中序遍历】【后序遍历】【层次遍历】 | 并查集
数据结构 | 第十二章:优先级队列 | 堆 | 左高树 | 堆排序 | 霍夫曼编码
数据结构 | 第十四章:搜索树 | 二叉搜索树的查找、插入、删除
数据结构 | 第十五章:平衡搜索树——AVL树 | AVL树的搜索、插入、删除
数据结构 | 第十五章:平衡搜索树——B-树 | B-树的搜索、插入、删除


🐇B树 vs B+树

  • B树
    在这里插入图片描述
    在这里插入图片描述

  • B+树
    在这里插入图片描述

在这里插入图片描述

  • B+树和B树相比的主要区别:
    • B+树所有关键码都在叶子节点
    • B+树的叶子节点是带有指针的,且叶节点本身按关键码从小到大顺序连接
    • 在搜索过程中,如果查询和内部节点的关键字一致,那么搜索过程不停止,而是继续向下搜索这个分支。因此,在B+树中,不管查找成功与否,每次查找都是走了一条从根到叶子结点的路径

  • B+树在文件系统、数据库系统当中,更有优势,更高效。
    • B+树更有利于对数据库的扫描 ,因为所有元素都在叶子节点上。
    • B+树的查询效率更加稳定 ,B树最后就是要找到叶子节点,每次查找都是走了一条从根到叶子结点的路径。
    • B+树没有像B树一样,把一些关键码每层都放一部分,之间存在互相之间的关系。在考虑指针指向内容上,B+树没有这些要存,反而数据量大的情况的,占的空间要比B树小。
      在这里插入图片描述

📚短语查询及含位置信息的倒排记录

🐇二元词索引(Biword indexes)

  • 对文档中每个接续词对(Biword)看成词项,这样马上就能处理两个词构成的短语查询。
  • 更长的查询可以分成多个短查询来处理。
  • 比如,按照上面的方法可以将查询 stanford university palo alto分成如下的布尔查询:“stanford university” AND “university palo” AND “palo alto”。
  • 可以期望该查询在实际中效果会不错,但是偶尔也会有错误的返回例子。对于该布尔查询返回的文档,我们并不知道其是否真正包含最原始的四词短语。
    在这里插入图片描述

🐇位置信息索引

  • 在位置信息索引(positional index)中,对于每个词项,以如下方式存储倒排记录:
    在这里插入图片描述
    在这里插入图片描述
  • 短语查询处理
    在这里插入图片描述
    在这里插入图片描述
  • 同样,类似的方法可以用于 k 词近邻搜索当中:employment /3 place ,这里,/k 意味着“ 从左边或右边相距在 k 个词之内” 。很显然,位置索引能够用于邻近搜索,而二元词索引则不能。

在这里插入图片描述

🐇混合索引机制

  • 二元词索引和位置索引这两种策略可以进行有效的合并。
  • 假如用户通常只查询特定的短语,如Michael Jackson,那么基于位置索引的倒排记录表合并方式效率很低。
  • 一个混合策略是:对某些查询使用短语索引或只使用二元词索引,而对其他短语查询则采用位置索引
  • 短语索引所收录的那些较好的查询可以根据用户最近的访问行为日志统计得到,也就是说,它们往往是那些高频常见的查询。

📚基于跳表的倒排记录表快速合并算法

  • 跳表(skip list):在构建索引的同时在倒排记录表上建立跳表。跳表指针能够提供捷径来跳过那些不可能出现在检索结果中的记录项。
    在这里插入图片描述
  • 在什么位置上放置跳表指针?
    • 跳表指针越多意味着跳跃的步长越短,那么在合并过程中跳跃的可能性也更大,但同时这也意味着需要更多的指针比较次数和更多的存储空间。跳表指针越少意味着更少的指针比较次数,但同时也意味着更长的跳跃步长,也就是说意味着更少的跳跃机会。
      在这里插入图片描述
    • 放置跳表指针位置的一个简单的启发式策略:在每个 P \sqrt{P} P 处均匀放置跳表指针,其中 P P P 是倒排记录表的长度。
    • 这个策略在实际中效果不错,但是仍然有提高的余地,因为它并没有考虑查询词项的任何分布细节。
    • 如果索引相对固定的话,建立有效的跳表指针则比较容易。但是如果倒排记录表由于经常更新而发生变化,那么跳表指针的建立就比较困难。恶意的删除策略可能会使跳表完全失效。

参考博客

  • B树和B+树的区别

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1026202.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cpp/Qt-day040920Qt

目录 时钟 头文件&#xff1a;Widget.h: 源文件:Widget.c: 效果图&#xff1a; 思维导图 时钟 头文件&#xff1a;Widget.h: #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QPaintEvent> #include <QPainter> #include <QTime>…

[BSidesCF 2019]Kookie

1.开启环境 2.一开始没仔细看&#xff0c;就看到login as admin 所以输了admin&#xff0c;123 想去爆破密码&#xff0c;但是没啥用 3&#xff0c;又回去看&#xff0c;看到cookie&#xff0c;就抓包&#xff0c;加上cookie usernameadmin

学习笔记|模数转换器|ADC原理|STC32G单片机视频开发教程(冲哥)|第十七集:ADC采集

文章目录 1.模数转换器&#xff08;ADC&#xff09;是什么&#xff1f;手册说明&#xff1a; 2.STC32G单片机ADC使用原理19.1.1 ADC控制寄存器&#xff08;ADC_CONTR)19.1.2 ADC配置寄存器&#xff08;ADCCFG)19.1.4ADC时序控制寄存器&#xff08;ADCTIM&#xff09;19.3 ADC相…

网络安全第一次作业

1、什么是防火墙 防火墙是一种网络安全系统&#xff0c;它根据预先确定的安全规则监视和控制传入和传出的网络流量。其主要目的是阻止对计算机或网络的未经授权的访问&#xff0c;同时允许合法通信通过。 防火墙可以在硬件、软件或两者的组合中实现&#xff0c;并且可以配置为根…

嵌入式:驱动开发 Day9

作业&#xff1a;通过platform总线驱动实现 a.应用程序通过阻塞的io模型来读取number变量的值 b.number是内核驱动中的一个变量 c.number的值随着按键按下而改变&#xff08;按键中断&#xff09; 例如number0 按下按键number1 ,再次按下按键number0 d.在按下按键的时候需要同时…

VHOST-SCSI代码分析(1)VHOST SCSI设备模拟

VHOST SCSI设备的模拟是由QEMU和HOST共同实现的&#xff0c;QEMU模拟VHOST SCSI设备配置空间等&#xff0c;而对于虚拟机通知HOST和HOST通知虚拟机机制由HOST内核实现。 在QEMU中VHOST SCSI设备继承关系如下&#xff1a; 其它设备以及对应class_init函数和realize具现化实现与V…

什么是亲子经济,小红书母婴品牌营销须知!

亲子经济已经成为当今社会的新兴概念&#xff0c;今天将要探讨亲子经济的定义、重要性以及&#xff0c;什么是亲子经济&#xff0c;小红书母婴品牌营销须知&#xff01; 一、亲子经济的定义与重要性 1.定义 亲子经济是指以儿童和家庭为中心的经济活动。其中包括了亲子旅游、教育…

中国股市杠杆是多少倍?炒股加9倍杠杆可行不?

中国股市杠杆通常情况下是在3&#xff5e;5倍之间&#xff0c;而在某些情况下&#xff0c;最高可能有十倍的杠杆。 杠杆炒股&#xff0c;即融资融券交易&#xff0c;是一种高风险高收益的投资方式。通过融资融券交易&#xff0c;投资者可以借入资金来扩大自己的投资规模&#…

容器管理工具 Docker生态架构及部署

目录 一、Docker生态架构 1.1 Docker Containers Are Everywhere 1.2 生态架构 1.2.1 Docker Host 1.2.2 Docker daemon 1.2.3 Registry 1.2.4 Docker client 1.2.5 Image 1.2.6 Container 1.2.7 Docker Dashboard 1.3 Docker版本 二、Docker部署 2.1 使用YUM源部署…

【Linux基础】第31讲 Linux用户和用户组权限控制命令(三)

用户组管理命令 每个用户都有一个用户组&#xff0c;系统可以对一个用户组中的所有用户进行集中管理。不同Linux系统对用户组的规定有所不同。如Linux下的用户属于与它同名的用户组&#xff0c;这个用户组在创建用户时同时创建。用户组的管理涉及用户组的添加、删除和修改。组…

Jmeter 分布式压测

‍你可以使用 JMeter 来模拟高并发秒杀场景下的压力测试。这里有一个例子&#xff0c;它模拟了同时有 5000 个用户&#xff0c;循环 10 次的情况‍。 请求默认配置 token 配置 秒杀接口 结果分析 但是&#xff0c;实际企业中&#xff0c;这种压测方式根本不满足实际需求。下面介…

IPv6协议基本概念

目前大多数设备节点支持IPv6和IPv4双栈,但随着IPv6逐渐应用,某些设备已经只支持纯IPv6,即IPv6 Only。 一、IPv6地址格式 1、IPv6地址表示方式 IPv6可以写成一组8个十六进制数,用冒号(:)分割。也可以写成128位2进制的0和1。 32即8x4,8表示8组16进制数,4表示每组16禁止包…

Vivado下PLL实验

文章目录 前言一、CMT&#xff08;时钟管理单元&#xff09;1、CMT 简介2、FPGA CMT 框图3、MMCM 框图4、PLL 框图 二、创建工程1、创建工程2、PLL IP 核配置3、进行例化 三、进行仿真1、创建仿真文件2、进行仿真设置3、进行行为级仿真 四、硬件验证1、引脚绑定2、生成比特流文…

QT-day4

画一个时钟 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QPaintEvent> #include <QDebug> #include <QPainter> #include <QTimer> #include <QTime>QT_BEGIN_NAMESPACE namespace Ui { class Widget; } Q…

红队打靶:Fowsniff打靶思路详解(vulnhub)

目录 写在开头 第一步&#xff1a;主机发现和端口扫描 第二步&#xff1a;Web渗透 第三步&#xff1a;pop3服务器渗透 第四步&#xff1a;获取初始立足点 第五步&#xff1a;ssh登陆的banner脚本提权 总结与思考 写在开头 本篇博客在自己的理解之上根据大佬红队笔记的…

初学phar反序列化

以下内容参考大佬博客&#xff1a;PHP Phar反序列化浅学习 - 跳跳糖 首先了解phar是什么东东 Phar是PHP的压缩文档&#xff0c;是PHP中类似于JAR的一种打包文件。它可以把多个文件存放至同一个文件中&#xff0c;无需解压&#xff0c;PHP就可以进行访问并执行内部语句。 默认开…

性能测试 —— Tomcat监控与调优:Jconsole监控

JConsole的图形用户界面是一个符合Java管理扩展(JMX)规范的监测工具&#xff0c;JConsole使用Java虚拟机(Java VM)&#xff0c;提供在Java平台上运行的应用程序的性能和资源消耗的信息。在Java平台&#xff0c;标准版(Java SE平台)6&#xff0c;JConsole的已经更新到目前的外观…

Windows平台Qt6中UTF8与GBK文本编码互相转换、理解文本编码本质

快速答案 UTF8转GBK QString utf8_str"中UTF文"; std::string gbk_str(utf8_str.toLocal8Bit().data());GBK转UTF8 std::string gbk_str_given_by_somewhere"中GBK文"; QString utf8_strQString::fromLocal8Bit(gbk_str_given_by_somewhere.data());正文…

20-SpringCloudAlibaba-3

七 分布式事物处理 1 认识本地事物 什么是事物 事务就是针对数据库的一组操作&#xff0c;它可以由一条或多条SQL语句组成&#xff0c;同一个事务的操作具备同步的特点&#xff0c;事务中的语句要么都执行&#xff0c;要么都不执行。 举个栗子&#xff1a; 你去小卖铺买东西&…

《已解决 Bug TypeError: Cannot read property ‘props‘ of undefined (React)》

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页: &#x1f405;&#x1f43e;猫头虎的博客&#x1f390;《面试题大全专栏》 &#x1f995; 文章图文并茂&#x1f996…