【文档搜索引擎】项目核心思路，模块划分和分词的概念

news2026/2/9 5:21:17

文章目录

核心思路
- 倒排索引
获取 Java 文档
模块划分
- 索引模块
- 搜索模块
- Web 模块
分词

项目目标：实现一个针对 Java 文档的搜索引擎
https://docs.oracle.com/javase/8/docs/api/index.html

像百度，搜狗，bing 这些搜索引擎，都是属于“全站搜索”，搜索整个互联网上所有的网站
还有一类搜索引擎，称为“站内搜索”，只针对某个网站内部的内容进行搜索

核心思路

对于一个搜索引擎来说，首先需要获取到很多的网页，然后再根据用户输入的查询词，在这些网页中进行查找

涉及到的关键问题：

搜索引擎的页面是怎么获取到的？
- 此处主要是涉及到“爬虫”这样的程序

[!quote] 爬虫
就是一个 http 客户端，去发送一些 http 请求，获取一些 http 响应的结果，这里的结果就是各种各样的网站

用户输入了查询词之后，如何让查询词和当前的这些网页进行匹配呢？
- 假设当前已经爬取到了 1 亿个网页（HTML 网页），用户输入了“蛋糕”这样的查询词
- 如果使用暴力搜索的话，就需要把“蛋糕”这个查询词在这 1 亿个网页中进行字符串查找。这样效率非常低，不可能达到秒出结果的效果
- 这时候就需要一种特殊的数据结构——倒排索引

倒排索引

文档（document）：指的是每个待搜索的网页
正排索引：指的是文档id到文档内容之间的一个映射关系
- 给你一个文档 id，你就能找到这个文档对应的内容
倒排索引：指的是词到文档id 列表的映射关系
- 因为一个词可能在很多文档里面都出现了，所以得到的是一个文档 id 列表

获取 Java 文档

把相关的网页文档获取到，这样才能制作正排索引和倒排索引

可以通过爬虫技术，来获取这些文档。

爬虫是否要学一下 Python 之类的？

所谓的爬虫，只是一个 http 客户端
只要这个编程语言能够访问网络，那么就可以实现爬虫

爬虫是获取到网页页面的一种“通用的手段”，但是针对 Java 文档来说，我们有更简单的方案

可以直接从官方网站上下载文档的压缩包
因此我们就不必通过爬虫来实现了

实现爬虫程序是存在法律风险的。每个网站都会提供一个 robots.txt 文件，这个文件里面就会告诉你哪些内容允许爬取，爬取这个白名单之外的内容，都是属于非法行为

文档下载链接：(https://www.oracle.com/java/technologies/javase-jdk8-doc-downloads.html)[https://www.oracle.com/java/technologies/javase-jdk8-doc-downloads.html]

在本地基于离线文档来制作索引，实现搜索。当用户在搜索结果页点击具体的搜索结果的时候，就自动跳转到在线文档的页面