Boost库文档搜索引擎

news2026/2/14 8:41:30

文章目录

综述
效果展示
去标签化，清理数据
构建索引
用户查询

综述

该项目使用了BS架构，实现了用户对Boost库进行站内搜索的功能，

用户输入关键字使用http协议通过ajax将数据发送给后端服务器，后端进行分词，

通过倒排索引和正排索引获得若干个文档，

每个文档按照一定权重进行排序，拼接成一个网页反馈给用户，

每个搜索结果包括文档标题，简介，URL，并可以通过点击标题跳转到特定的网址中

请添加图片描述

效果展示

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

去标签化，清理数据

请添加图片描述

将爬虫和下载的boost库的文件，进行提炼，去标签化，保留里面的有效数据

提取html文件
将提取到的html文件进行提炼有效数据
将有效数据的集合写入到一个文件中

构建索引

请添加图片描述

根据将去标签化后构建的内容集合在内存中 构建正排索引，形成对应的文档结构体
将形成的文档结构体在内存中 构建倒排索引，根据关键词找到对应的 倒排拉链（一系列和该关键字相光的文档集合)
- 根据 Jieba分词对 title和 content进行分词同时划定权重，构建倒排拉链
- 每个倒排索引中都包含权重，之后我们就能够使用权重对文档优先级进行排序

用户查询

请添加图片描述

用户输入搜索关键字后，先进行 JieBa分词
通过 倒排索引获得对应的 倒排拉链
在 倒排拉链中通过 正排索引获得对应一系列的文档内容
根据索引中的权重按高到低进行排序，组合成一个网页反馈给用户

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/364038.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【Kubernetes】第七篇 - Service 服务介绍和使用

【Kubernetes】第七篇 - Service 服务介绍和使用

一，前言上一篇，通过配置一个 Deployment 对象，在内部创建副本集对象，副本集帮我们创建了 3 个 pod 副本由于 pod 存在 IP 漂移现象，pod 的创建和重启会导致 IP 变化； 本篇，介绍 Service 服…

阅读更多...

《计算机网络：自顶向下方法》实验5：NAT协议分析 Wireshark实验

《计算机网络：自顶向下方法》实验5：NAT协议分析 Wireshark实验

实验12：NAT协议分析 1 What is the IP address of the client? 客户端的 IP 地址是192.168.1.100 2 The client actually communicates with several different Google servers in order to implement “safe browsing.” (See extra credit section at the end of this la…

阅读更多...

Safety-Gym环境配置与安

Safety-Gym环境配置与安

官网： https://github.com/openai/safety-gym https://github.com/openai/safety-starter-agents 一、安装依赖环境配置建议使用python 3.7及以下环境，因为官方的safety-rl是基于tensorflow1.13.1实现，而tensorflow1.13.1只能支持python…

阅读更多...

leaflet 自定义添加地图网格线（087）

leaflet 自定义添加地图网格线（087）

第087个点击查看专栏目录本示例的目的是介绍演示如何在vue+leaflet中自定义添加地图网格线。直接复制下面的 vue+openlayers源代码，操作2分钟即可运行实现效果. 文章目录示例效果配置方式示例源代码（共76行）安装插件相关API参考：专栏目标示例效果配置方式 1）查看基…

阅读更多...

前端学习第九站——Vue3基础篇

前端学习第九站——Vue3基础篇

目录一、环境搭建创建项目编码 IDE 修改端口配置代理项目架构二、Vue组件 main.ts 属性绑定事件绑定表单绑定计算属性 xhr axios 环境变量 baseURL 拦截器条件和列表监听器 vueuse useRequest usePagination（分页） 子组…

阅读更多...

你什么档次？敢和我用一样的即时通讯平台WorkPlus？

你什么档次？敢和我用一样的即时通讯平台WorkPlus？

现今，很多企业越来越青睐私有化部署，尤其是在选择组织内部即时通讯平台的时候，更是会提出私有化部署的需求。究其原因，企业选择私有化部署即时通讯软件完全是出于安全方面考虑。因此，越来越多的企业将眼光望向了本地化…

阅读更多...

深入讲解CFS组调度！（上）

深入讲解CFS组调度！（上）

注：本文缩写说明一、CFS组调度简介 1.1. 存在的原因总结来说是希望不同分组的任务在高负载下能分配可控比例的CPU资源。为什么会有这个需求呢，比如多用户计算机系统每个用户的所有任务划分到一个分组中，A用户90个相同任务，而B…

阅读更多...

NIO蔚来面试——IP地址你了解多少？

NIO蔚来面试——IP地址你了解多少？

目录前言 1、IP地址 1.1、什么是IP地址 1.2、IP地址的格式 1.2.1、32位二进制数表示IP地址，够用吗？ 1.3、IP地址的组成 1.4、为什么会出现IPv6 1.4.1、为什么IPv6还没有大量普及呢？ 1.5、子网掩码 1.6、特殊的IP地址 2、路由选择 …

阅读更多...

微信小程序之云开发

微信小程序之云开发

一、概念1. 传统开发模式2. 新开发模式 ( 云开发模式 )3. 传统、云开发的模式对比4. 传统、云开发的项目流程对比5. 云开发的定位1. 个人的项目或者想法，不想开发服务器，直接使用云开发2. 某些公司的小程序项目是使用云开发的，但是不多&#…

阅读更多...

Python自动化测试之登录脚本

Python自动化测试之登录脚本

登录脚本环境准备1、安装selenium模块2、安装浏览器驱动器代码1、登录代码2、xpath定位元素标签环境准备前提已经安装好python、pycharm，配置了对应的环境变量。 1、安装selenium模块文件–>设置—>项目：script---->python解释器---->s…

阅读更多...

Spring自动装配的底层逻辑

Spring自动装配的底层逻辑

Spring是如何自动装配Bean的？看源码一些自己的理解，如有错漏，请指正使用Spring之前我们要先去web.xml中设置一下Spring的配置文件，在Spring的配置文件中，是通过component-scan扫描器去扫描base-package底下所有的类装…

阅读更多...

【基础算法】哈希表（拉链法）

【基础算法】哈希表（拉链法）

🌹作者:云小逸 📝个人主页:云小逸的主页 📝Github:云小逸的Github 🤟motto:要敢于一个人默默的面对自己，强大自己才是核心。不要等到什么都没有了，才下定决心去做。种一颗树，最好的时间是十年前…

阅读更多...

【C++的OpenCV】第四课-OpenCV图像常用操作（一）：Mat对象深化学习、灰度、ROI

【C++的OpenCV】第四课-OpenCV图像常用操作（一）：Mat对象深化学习、灰度、ROI

我们开始图像处理的基本操作的了解一、图像对象本身的加深学习1.1 Mat对象和ROI1.1.1 创建一个明确的Mat对象1.1.2 感兴趣的区域ROI二、图像的灰度处理2.1 概念2.2 cvtColor()函数2.3 示例一、图像对象本身的加深学习 1.1 Mat对象和ROI 这是一个技术经验的浅尝，所以…

阅读更多...

什么是 CSAT？这份客户满意度流程指南请查收

什么是 CSAT？这份客户满意度流程指南请查收

什么是 CSAT？如何计算我的客户满意度分数？大中型公司应该熟悉这些术语。以下文章旨在教您有关客户满意度流程的所有内容 - 基本的CSAT概念、创建CSAT调查的好处、如何创建CSAT调查。配图来源： SaleSmartly(ss客服) 一、什么是 CSAT&#xff1…

阅读更多...

算法笔记（十二）—— Manacher算法（回文子串）

算法笔记（十二）—— Manacher算法（回文子串）

计算字符串内的最大回文子串，常用的暴力扩散在应对长度为偶数的回文时会遇到一些问题。 Manacher基础：对字符串进行填充，在字符串开头结尾以及字符间填充‘#’，以来应对偶数回文时的问题。（这是采用暴力扩再除2&#x…

阅读更多...

[黑马程序员SSM框架教程]03 spring核心概念

[黑马程序员SSM框架教程]03 spring核心概念

IOC/DI 书写现状：耦合度偏高如图：传统书写代码左边业务层需要new一个对象进行业务实现。当数据层优化代码BookDaoImpl2就需要动业务层代码重新修改new的对象。导致代码耦合度偏高。解决办法：使用对象，不要主动new对象&#xff…

阅读更多...

kubernetes traefik ingress 安装部署以及使用和注意点

kubernetes traefik ingress 安装部署以及使用和注意点

1、简介 Traefik 是一款 open-source 边缘路由器，可让您轻松地发布服务. 它接收来自您的系统请求，并找出负责处理它们的后端服务组件。 traefik 与众不同在于它能够自动发现适合您服务的配置。当 Traefik 检查您的基础设施时，它会发现相关信…

阅读更多...

Redisson实现分布式锁

Redisson实现分布式锁

目录Redisson简介Redisson实现分布式锁步骤引入依赖application.ymlRedisson 配置类Redisson分布式锁实现Redisson简介 Redis 是最流行的 NoSQL 数据库解决方案之一，而 Java 是世界上最流行（注意，没有说“最好”）的编程语言之一。…

阅读更多...

Matthew Ball：十多年后AR/VR为何依然发展缓慢？

Matthew Ball：十多年后AR/VR为何依然发展缓慢？

2010年，Magic Leap和微软就开始研发AR技术，直到2012年Oculus才成立，AR/VR经过了13年左右的时间，虽然受到越来越多人关注，但发展依然缓慢。VR的主要应用场景还是游戏，但VR游戏只是游戏市场的一个分支&#x…

阅读更多...

第七章.深度学习

第七章.深度学习

第七章.深度学习 7.1 深度学习深度学习是加深了层的深度神经网络。 1.加深层的好处 1).可以减少网络的参数数量 5*5的卷积运算示例： 重复两次3*3的卷积层示例： 图像说明： ①.一次5 * 5的卷积运算的区域可以由两次3 * 3的卷积运算抵消&a…

阅读更多...

推荐文章

最新文章