【文档搜索引擎】项目核心思路,模块划分和分词的概念

news2024/11/27 5:33:30

文章目录

  • 核心思路
    • 倒排索引
  • 获取 Java 文档
  • 模块划分
    • 索引模块
    • 搜索模块
    • Web 模块
  • 分词

项目目标:实现一个针对 Java 文档的搜索引擎
https://docs.oracle.com/javase/8/docs/api/index.html

  • 像百度,搜狗,bing 这些搜索引擎,都是属于“全站搜索”,搜索整个互联网上所有的网站
  • 还有一类搜索引擎,称为“站内搜索”,只针对某个网站内部的内容进行搜索

核心思路

对于一个搜索引擎来说,首先需要获取到很多的网页,然后再根据用户输入的查询词,在这些网页中进行查找

涉及到的关键问题:

  1. 搜索引擎的页面是怎么获取到的?
    • 此处主要是涉及到“爬虫”这样的程序

[!quote] 爬虫
就是一个 http 客户端,去发送一些 http 请求,获取一些 http 响应的结果,这里的结果就是各种各样的网站

  1. 用户输入了查询词之后,如何让查询词和当前的这些网页进行匹配呢?
    • 假设当前已经爬取到了 1 亿个网页(HTML 网页),用户输入了“蛋糕”这样的查询词
    • 如果使用暴力搜索的话,就需要把“蛋糕”这个查询词在这 1 亿个网页中进行字符串查找。这样效率非常低,不可能达到秒出结果的效果
    • 这时候就需要一种特殊的数据结构——倒排索引

倒排索引

  1. 文档(document):指的是每个待搜索的网页
  2. 正排索引:指的是文档id到文档内容之间的一个映射关系
    • 给你一个文档 id,你就能找到这个文档对应的内容
  3. 倒排索引:指的是词到文档id 列表的映射关系
    • 因为一个词可能在很多文档里面都出现了,所以得到的是一个文档 id 列表

获取 Java 文档

把相关的网页文档获取到,这样才能制作正排索引和倒排索引

可以通过爬虫技术,来获取这些文档。

爬虫是否要学一下 Python 之类的?

  • 所谓的爬虫,只是一个 http 客户端
  • 只要这个编程语言能够访问网络,那么就可以实现爬虫

爬虫是获取到网页页面的一种“通用的手段”,但是针对 Java 文档来说,我们有更简单的方案

  • 可以直接从官方网站上下载文档的压缩包
    因此我们就不必通过爬虫来实现了

实现爬虫程序是存在法律风险的。每个网站都会提供一个 robots.txt 文件,这个文件里面就会告诉你哪些内容允许爬取,爬取这个白名单之外的内容,都是属于非法行为

文档下载链接:(https://www.oracle.com/java/technologies/javase-jdk8-doc-downloads.html)[https://www.oracle.com/java/technologies/javase-jdk8-doc-downloads.html]

在本地基于离线文档来制作索引,实现搜索。当用户在搜索结果页点击具体的搜索结果的时候,就自动跳转到在线文档的页面

模块划分

索引模块

  1. 扫描下载到的文档,分析文档的内容,构件出正排索引+倒排索引,并且把索引内容保存到文件中
  2. 加载制作好的索引,并提供一些 API,实现查正排和查倒排这样的功能

搜索模块

调用索引模块,实现一个搜索的完整过程

  • 输入:用户的查询词
  • 输出:完整的搜索结果(包含很多条记录,每个记录就有标题、描述、展示 URL,并且点击能够跳转)

Web 模块

需要实现一个简单的 Web 程序,能工通过这种网页的形式来和用户进行交互

  • 包含了后端和前端

分词

用户在搜索引擎中,输入的查询词,不一定真的就是一个词,也可能是一句话。分词就是把一个完整的句子,给切分成多个词:

  • 天天/在/学校/当/牛马
  • 对于分词这个操作,人是很容易完成的。但是我们是要通过代码进行分词,这就会困难很多,尤其是中文(太博大精深)
    • 我一把把车把把住
    • 我也想过过过儿过过的生活
    • 下雨天留客,天留我不留

我们可以基于一些现成的第三方库来实现分词

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2248201.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32F103外部中断配置

一、外部中断 在上一节我们介绍了STM32f103的嵌套向量中断控制器,其中包括中断的使能、失能、中断优先级分组以及中断优先级配置等内容。 1.1 外部中断/事件控制器 在STM32f103支持的60个可屏蔽中断中,有一些比较特殊的中断: 中断编号13 EXTI…

【Vue3+Pinia】Vue新一代状态管理器Pinia

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

【消息序列】详解(7):剖析回环模式--设备测试的核心利器

目录 一、概述 1.1. 本地回环模式 1.2. 远程环回模式 二、本地回环模式(Local Loopback mode) 2.1. 步骤 1:主机进入本地环回模式 2.2. 本地回环测试 2.2.1. 步骤 2a:主机发送HCI数据包并接收环回数据 2.2.2. 步骤 2b&…

大厂也在用的分布式链路追踪:TraceIdFilter + MDC + Skywalking

痛点 查线上日志时,同一个 Pod 内多线程日志交错,很难追踪每个请求对应的日志信息。 日志收集工具将多个 Pod 的日志收集到同一个数据库中后,情况就更加混乱不堪了。 解决 TraceId MDC 前端每次请求时,添加 X-App-Trace-Id 请…

leetcode - 2116. Check if a Parentheses String Can Be Valid

Description A parentheses string is a non-empty string consisting only of ‘(’ and ‘)’. It is valid if any of the following conditions is true: It is ().It can be written as AB (A concatenated with B), where A and B are valid parentheses strings.It ca…

如何启动 Docker 服务:全面指南

如何启动 Docker 服务:全面指南 一、Linux 系统(以 Ubuntu 为例)二、Windows 系统(以 Docker Desktop 为例)三、macOS 系统(以 Docker Desktop for Mac 为例)四、故障排查五、总结Docker,作为一种轻量级的虚拟化技术,已经成为开发者和运维人员不可或缺的工具。它允许用…

安装MySQL服务

安装版本MySQL8的安装包 安装界面 在这里选择MySQL中的Server only 只安装服务器端 如果选择custom需要如下图 进入配置导向,点击ready to configure,点击next即可 采用默认形式 执行成功后,会出现自动选择项 点击next然后再点击Finish 启动…

第六届国际科技创新学术交流大会暨新能源科学与电力工程国际(NESEE 2024)

重要信息 会议官网:nesee.iaecst.org 会议时间:2024年12月6-8日 会议地点: 中国-广州(越秀国际会议中心) 大会简介 新能源科学与电力工程国际学术会议(NESEE 2024)作为第六届国际科技创新学术交流大会分…

Windows安装nacos

目录 一、下载 二、运行 三、运行失败 四、运行成功 一、下载 下载链接: Nacos Server 下载 | Nacos 官网 解压: 二、运行 进入nacos/bin, 运行startup.cmd 三、运行失败 如果出现黑窗口一闪而过, 说明失败了, 可能原因如下: ① 环境变量: 需要 JAVA_HOME 为 JDK8 ②…

Rust Newtype模式(通过结构体封装现有类型来创建新的类型)(单字段结构体,通过.0访问)模式匹配、解构、DerefMut

文章目录 深入理解Rust中的Newtype模式什么是Newtype模式?Newtype模式的基本形式Newtype的访问访问 Newtype 的值1. 通过 .0 访问字段2. 通过方法访问3. 通过模式匹配(解构)访问 总结 Newtype模式的应用场景1. 类型安全2. 增强可读性3. 定制化…

网络层协议IP

对于网络层我们直接通过IP协议来了解其内容 一.IP协议 首先我们先来了解几个概念: 主机:配有IP地址,但是不进行路由控制的设备 路由器:配有IP地址,同时进行路由控制的设备 节点:主机和路由器的统称 所以现在…

Qt界面篇:QMessageBox高级用法

1、演示效果 2、用法注意 2.1 设置图标 用于显示实际图标的pixmap取决于当前的GUI样式。也可以通过设置icon pixmap属性为图标设置自定义pixmap。 QMessageBox::Icon icon(

【强化学习的数学原理】第02课-贝尔曼公式-笔记

学习资料:bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接:强化学习的数学原理 西湖大学 赵世钰 文章目录 一、为什么return重要?如何计算return?二、state value的定义三、Bellman公式的详细推导四、公式向量形式…

【数据结构实战篇】用C语言实现你的私有队列

🏝️专栏:【数据结构实战篇】 🌅主页:f狐o狸x 在前面的文章中我们用C语言实现了栈的数据结构,本期内容我们将实现队列的数据结构 一、队列的概念 队列:只允许在一端进行插入数据操作,在另一端…

实战项目负载均衡式在线 OJ

> 作者:დ旧言~ > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:能自己实现负载均衡式在线 OJ。 > 毒鸡汤:有些事情,总是不明白,所以我不会坚持。早安! > 专栏选自&#xff1…

银河麒麟桌面系统——桌面鼠标变成x,窗口无关闭按钮的解决办法

银河麒麟桌面系统——桌面鼠标变成x,窗口无关闭按钮的解决办法 1、支持环境2、详细操作说明步骤1:用root账户登录电脑步骤2:导航到kylin-wm-chooser目录步骤3:编辑default.conf文件步骤4:重启电脑 3、结语 &#x1f49…

数据结构--AVL树(平衡二叉树)

✅博客主页:爆打维c-CSDN博客​​​​​​ 🐾 🔹分享c、c知识及代码 🐾 🔹Gitee代码仓库 五彩斑斓黑1 (colorful-black-1) - Gitee.com 一、AVL树是什么?(含义、性质) 1.AVL树的概念 AVL树是最…

【Unity How】如何让物体跟随平台移动或旋转?

先看下最终要实现的效果: 当查找这个问题的资料时,发现多数的方案都是将物体设置为平台的子对象。 但是如果平台是非均匀缩放时,物体在移动或旋转时就会发生变形。 参考:Unity中父对象是非均匀缩放时出现倾斜或剪切现象 那有没有…

C语言函数递归经典题型——汉诺塔问题

一.汉诺塔问题介绍 Hanoi(汉诺)塔问题。古代有一个梵塔,塔内有3个座A、B、C,开始时A座上有64个盘子,盘子大小不等,大的在下,小的在上。有一个老和尚想把这64个盘子从A座移…

Unity中动态生成贴图并保存成png图片实现

实现原理&#xff1a; 要生成长x宽y的贴图&#xff0c;就是生成x*y个像素填充到贴图中&#xff0c;如下图&#xff1a; 如果要改变局部颜色&#xff0c;就是从x1到x2(x1<x2),y1到y2(y1<y2)这个范围做处理&#xff0c; 或者要想做圆形就是计算距某个点&#xff08;x1,y1&…