【java、lucene、python】互联网搜索引擎课程报告二:建立搜索引擎

news2025/1/11 18:31:16

一、项目要求

  1. 建立并实现文本搜索功能
  1. 对经过预处理后的500个英文和中文文档/网页建立搜索并实现搜索功能
  2. 对文档建立索引,然后通过前台界面或者已提供的界面,输入关键字,展示搜索结果
  3. 前台可通过网页形式、应用程序形式、或者利用已有的界面工具显示
  4. 实现英文搜索及中文搜索功能
  1. 比较文档之间的相似度

通过余弦距离计算任意两个文档之间的相似度,列出文档原文,并给出相似

度值。

  1. 对下载的文档,利用K-Means聚类算法进行聚类
  1. 将下载的500个中文/英文文档聚为20个类,并显示聚类之后所形成的三个最大的类,及每个类中代表性的文档(即,离类中心最近的五个文档)
  2. 距离计算公式,可采用余弦距离,也可用欧式距离

二、开发环境

系统:windows 10 

开发语言:JAVA,python

开发工具:IDEA,pycharm

三、项目实现

  使用开源搜索引擎Lucene对经过预处理后的500个英文和中文文档建立索引,并实现搜索功能,然后通过前台界面,输入关键字,展示搜索结果。支持英文搜索及中文搜索功能。

一、搜索引擎

1.建立索引

建立索引时,使用IK Analyzer分词器,每个文档(document)有三个域,content对应文档内容,fileName对应文档名,filePath对应文档路径。

2.搜索

由于用Luke进行搜索时不能使用IK Analyzer分词器,中文只能单字分词,搜索结果不准确。故自行编码实现搜索功能,前台界面利用JAVA的awt库进行设计。因为只实现搜索功能,前台界面设计得比较简单,居中的上方是关键词输入框,下方依次是选择检索中文还是英文文档的单选框和搜索结果文本显示框。输入关键词后,按下回车,就会显示搜索结果,第一行是搜索到的文档数。

二、比较文档之间的相似度

通过余弦距离(Cosine Distance)计算任意两个文档之间的相似度,列出文档原文,并给出相似度值。

计算文本相似度的思路:1、分词;2、列出所有的词;3、计算词频;4、向量化;5、用公式计算相似度(余弦值)。余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。

前台界面利用JAVA的awt库进行设计。分别输入两个文档的编号,回车后下方的两个文本区域会显示文档的内容。下方的单选框可以选择比较中文还是英文文档。点击下方的calculate the similarity的按钮,按钮上方的文本框会显示相似度值。

三、利用K-Means聚类算法进行聚类

利用K-Means聚类算法进行聚类将下载的500个中文/英文文档聚为20个类,并显示聚类之后所形成的三个最大的类,及每个类中代表性的文档(即,离类中心最近的五个文档)。将文档分别聚类成不同数量的类,如:5、10、25、50等,比较聚类结果的异同与变化。

K-Means聚类算法的前几个步骤与计算文本相似度的思路的相似,即对文本分词、列出所有的词、计算词频、向量化,只是这里处理的文档不再是2个文档,而是500个文档(文档已经预处理过)。

然后给定一个数k,表示聚类的数目,随机选取k个样本作为初始的聚类中心。计算每个文档与k个聚类中心的距离(这里使用的余弦距离,值越接近1表示越接近),将每个文档分配给距离它最近的聚类中心。

接着,计算每个聚类中所有向量每个坐标的平均值,计算出一个“质心”,作为新的聚类中心。

最后,进行迭代,对每个文档重新计算距离并分配到最近的聚类。通过判断每个聚类中心有无变化,决定是否停止迭代。迭代结束时,可以得到k个聚类中心的值,每类中所有文档序号及对应余弦距离。根据这些信息,经过筛选和排序,可以找到形成的三个最大的类,及每个类中代表性的文档。

 上面为部分说明,完整报告请见:

参考

【黑马程序员Lucene全文检索技术,从底层到实战应用Lucene全套教程】 https://www.bilibili.com/video/BV1eJ411q7nw/?p=23&share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

文档预处理:

前一个报告:

https://download.csdn.net/download/qq_61814350/89207414?spm=1001.2014.3001.5503

Lucene的api使用、环境搭建(最多看到前24个视频就可以,下载他提供的配套资料,很方便):

【黑马程序员Lucene全文检索技术,从底层到实战应用Lucene全套教程】

https://www.bilibili.com/video/BV1eJ411q7nw/?p=24&share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

java界面设计(容器、按钮、输入框、事件监听,最多看到P13):

【【狂神说Java】GUI编程入门到游戏实战】

https://www.bilibili.com/video/BV1DJ411B75F/?share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

余弦距离、TF-IDF:

https://blog.csdn.net/m0_37739193/article/details/119335260

https://blog.csdn.net/wxgxgp/article/details/104146034

https://blog.csdn.net/qq_63159704/article/details/132846060

kmeans理论讲解:

【k-means kmeans聚类算法 清晰解释(带算例)】

https://www.bilibili.com/video/BV1V44y1u7mJ/?share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

kmeans代码实现:

https://www.cnblogs.com/zuixime0515/p/9604034.html

python、numpy:

哪里不会再查,看菜鸟教程。

java:

去除空格、标点符号

https://blog.csdn.net/chen134225/article/details/103104392

java- File类的常用方法:遍历目录里的文件

https://blog.csdn.net/u014217137/article/details/128044606

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1805714.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQLserver通过CLR调用TCP接口

一、SQLserver启用CLR 查看是否开启CRL,如果run_value1,则表示开启 EXEC sp_configure clr enabled; GO RECONFIGURE; GO如果未启用,则执行如下命令启用CLR sp_configure clr enabled, 1; GO RECONFIGURE; GO二、创建 CLR 程序集 创建新项…

【Java】单例设计模式

单例设计模式简介 目录 1.单例设计模式是什么?2.单例设计模式设计方法饿汉式懒汉式 3.单例设计模式的应用任务管理器(仅有一个页面,不可多开)Runtime运行环境 1.单例设计模式是什么? 设计模式 是解决 特定问题的优秀设计方式之一。 单例设计…

mathematica中针对三维图中的颜色和填充透明度进行指定

颜色指定使用的命令为:PlotStyle 填充的透明度使用的命令为:FillingStyle 示例代码: Clear["Global*"] Plot3D[{Sin[x^2 y], Sin[x^2 - y]}, {x, -2, 2}, {y, -2, 2}, PlotStyle -> {Directive[Red, Specularity[White, 100…

人体部位眼耳手腿分类数据集4376张4类别

数据集类型:图像分类用,不可用于目标检测无标注文件 数据集格式:仅仅包含jpg图片,每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数):4376 分类类别数:4 类别名称:["Ears","Eyes&quo…

win设置ftp服务器~java通过ftp下载文件

1.先设置ftp 2.打开服务 3.设置站点 4.起名字 这样就可以了 5.剩下的就是设置权限和账号了,找到对应的按钮就可以了 6.下载文件的代码 public byte[] downloadFile(File file) throws IOException{ByteArrayOutputStream out new ByteArrayOutputStream();toDi…

算法家族之一——二分法

目录 算法算法的打印效果如果算法里的整型“i”为1如果算法里的整型“i”为11 算法的流程图算法的实际应用总结 大家好&#xff0c;我叫 这是我58&#xff0c;现在&#xff0c;请看下面的算法。 算法 #define _CRT_SECURE_NO_WARNINGS 1//<--预处理指令 #include <stdi…

Netty原理与实战

1.为什么选择Netty&#xff1f; 高性能低延迟 事件分发器&#xff1a; reactor采用同步IO&#xff0c;Proactor采用异步IO 网络框架选型&#xff1a; 2.Netty整体架构设计&#xff08;4.X&#xff09; 三个模块&#xff1a;Core核心层、Protocal Support协议支持层、…

unity3d:GameFramework+xLua+Protobuf+lua-protobuf,与服务器交互收发协议

概述 1.cs收发协议&#xff0c;通过protobuf序列化 2.lua收发协议&#xff0c;通过lua-protobuf序列化 一条协议字节流组成 C#协议基类 CSPacketBase&#xff0c;SCPacketBaseC#用协议基类 proto生成的CS类&#xff0c;基于这两个基类。分别为CSPacketBase是客户端发送至服…

真空衰变,真正的宇宙级灾难,它到底有多可怕?

真空衰变&#xff0c;真正的宇宙级灾难&#xff0c;它到底有多可怕&#xff1f; 真空衰变 真空衰变&#xff08;Vacuum decay&#xff09;是物理学家根据量子场论推测出的一种宇宙中可能会发生的现象&#xff0c;这种现象被称为真正的宇宙级灾难&#xff0c;它到底有多可怕呢…

野火FPGA跟练(四)——串口RS232、亚稳态

目录 简介接口与引脚通信协议亚稳态RS232接收模块模块框图时序波形RTL 代码易错点Testbench 代码仿真 RS232发送模块模块框图时序波形RTL 代码Testbench 代码仿真 简介 UART&#xff1a;Universal Asynchronous Receiver/Transmitter&#xff0c;异步串行通信接口。发送数据时…

sick0s1.1 靶机实战

sick0s1.1 信息收集 nmap存活及端口&#xff1a; nmap服务扫描&#xff1a; web 80和8080都没有开放&#xff0c;&#xff0c;无法访问&#xff0c;gobuster等工具也跑不了&#xff0c;访问一下3128试试 根据端口服务扫描也能得知这是个http的代理服务器&#xff0c;&#x…

机器学习常见知识点 2:决策树

文章目录 决策树算法1、决策树树状图2、选择最优决策条件3、决策树算法过程→白话决策树原理决策树构建的基本步骤常见的决策树算法决策树的优缺点 【五分钟机器学习】可视化的决策过程&#xff1a;决策树 Decision Tree 关键词记忆&#xff1a; 纯度、选择最优特征分裂、熵、基…

SLAM小题目

1、最小二乘题目&#xff1a; 假设有三个WIFI热点&#xff0c;位置分别在(x1,y1), (x2,y2), (x3,y3), 移动端测量到每一个热点的距离L1,L2和L3&#xff0c;要求解移动端的位置. #include <iostream> #include <vector> #include <cmath> class Point { pub…

数据结构笔记 4 树和二叉树

二叉树和完全二叉树的区别&#xff1f; 二叉树和完全二叉树的主要区别在于它们的结构特性和节点排列方式&#xff1a; 1. **二叉树**&#xff1a; - 是一种数据结构&#xff0c;其中每个节点最多有两个子节点&#xff0c;通常称为左子节点和右子节点。 - 节点的子节点数量…

海思SD3403,SS928/926,hi3519dv500,hi3516dv500移植yolov7,yolov8(21)Yolov9s测试

四天前yolov9的作者终于开源了yolov9s和yolov9t模型。这个作者之前一直没开源t,s,只有c开始的,而且onnx转换后数据大小特别大,当时直接就放弃测试了。 另外之前代码有很明显的抄v5的痕迹。所以印象很不好。 现在总算是开源t,s模型,而且这里评估的结果上来看是好于yolov8的…

两款好用的IOS、Android图片处理应用

GIF 小助手 GIF工具包是一个简单实用的GIF动画编辑器&#xff0c;目前仅支持IOS平台。 使用该软件&#xff0c;可以将多个图像、视频和现场照片创建为gif。 主要功能&#xff1a; 多种输入源&#xff1a;用户可以将多个图片、视频或Livephoto转换成GIF动图。 编辑功能&#…

RDK X3(aarch64) 测试激光雷达思岚A1

0. 环境 - 亚博智能的ROSMASTER-X3 - RDK X3 1.0 0.1 资料 文档资料 https://www.slamtec.com/cn/Support#rplidar-a-series SDK https://github.com/slamtec/rplidar_sdk ROS https://github.com/slamtec/rplidar_ros https://github.com/Slamtec/sllidar_ros2 1. robostu…

windows上安装MongoDB,springboot整合MongoDB

上一篇文章已经通过在Ubuntu上安装MongoDB详细介绍了MongoDB的各种命令用法。 Ubuntu上安装、使用MongoDB详细教程https://blog.csdn.net/heyl163_/article/details/133781878 这篇文章介绍一下在windows上安装MongoDB&#xff0c;并通过在springboot项目中使用MongoDB记录用户…

Java:112-SpringMVC的底层原理(下篇)

这里继续续写上一章博客&#xff08;111章博客&#xff09;&#xff1a; Spring MVC 源码深度剖析&#xff1a; 既然我们自行写出了一个&#xff0c;那么我们可以选择看看mvc源码&#xff1a; 前端控制器 DispatcherServlet 继承结构&#xff1a; 前面我们知道mvc是操作同…

实验六、IPv4 地址的子网划分,第 2 部分《计算机网络》

你有没有发现&#xff0c;困的时候真的清醒不了。 目录 一、实验目的 二、实验内容 三、实验小结 一、实验目的 完成本练习之后&#xff0c;您应该能够确定给定 IP 地址和子网掩码的子网信息。 知道 IP 地址、网络掩码和子网掩码后&#xff0c;您应该能够确定有关该 IP 地…