SpringBoot 项目使用 Elasticsearch 对 Word、Pdf 等文档内容的检索

news2024/7/6 18:18:19

本文参考自:https://blog.csdn.net/Q54665642ljf/article/details/127701719

本文适用于elasticsearch入门小白,还请大佬能指出我的不足(本人其实也是刚学elasticsearch没多久)

文章目录

  • 一、准备工作
    • 1.1 安装ES文本抽取插件
    • 1.2 定义文本抽取管道(pipeline)
    • 1.3 创建索引
  • 二、在 Kibana 中测试添加文档
    • 2.1 先把文件转为Base64形式
    • 2.2 向ES中添加一条记录
    • 2.3 测试关键词高亮搜索
  • 三、SpringBoot 实现
    • 3.1 elasticsearch配置
      • (1)pom.xml
      • (2)application.yml
      • (3)ElasticSearchConfig 类
      • (4)elasticsearch 工具类
    • 3.2 DocumentObj 实体类
    • 3.3 Service 接口
    • 3.4 ServiceImpl 实现类
    • 3.5 Controller 层
    • 3.6 测试
      • (1)加载文件
      • (2)关键字查询

一、准备工作

1.1 安装ES文本抽取插件

(1)为什么要有文本抽取插件?

对于wordpdf等文档类型的文件而言,它们文件底层的内容除了纯文本之外,还会有很多杂乱的信息(比如在一个word文件中,除了文本内容,还包含了页面设置、字体大小、颜色等无关信息)

为了剔除文档中与文本无关的信息,所以才需要使用文本抽取插件。

(2)如何安装文本抽取插件?

elasticsearchbin目录下,使用elasticsearch-plugin来安装文本抽取插件ingest-attachment

# windows下命令(进到bin目录):
elasticsearch-plugin install ingest-attachment

# Linux下命令(进到bin目录):
./elasticsearch-plugin install ingest-attachment

为了方便后续检索文本,需要安装一个IK分词器插件(官方下载地址:https://github.com/medcl/elasticsearch-analysis-ik

官方里面也有说明如何进行下载。选择一个和你elasticsearch版本相同的版本进行下载即可,比如执行以下命令:

# windows下(进到bin目录):
elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-7.6.2.zip

# Linux下(进到bin目录)
./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-7.6.2.zip

命令执行完毕,在plugins目录下可以看到相关插件已安装。
在这里插入图片描述

1.2 定义文本抽取管道(pipeline)

(1)什么是管道(pipeline)?

pipeline 也叫做“预处理管道”,它主要的作用是可以在存储内容时,对字段进行加工。

比如,有一串奇怪的字符串&*he@¥#ll%&o……¥%,在不进行加工的情况下,我直接丢给用户看,那么用户看到的就是&*he@¥#ll%&o……¥%,无法看见其中的关键信息。

但是,假如我有这么一个字符串加工机器,我把&*he@¥#ll%&o……¥%丢进去,结果出来的是hello,这时候的数据才是用户真正想要的。

pipeline就相当于这里的“加工机器”,它起到的是一个加工数据的作用。

(2)定义文本抽取管道

我们需要在kibana控制台中,创建一个名为"attachment"的预定义管道。

Kibana 是一款免费且开放的前端应用程序, 可以为 Elasticsearch 中索引的数据提供搜索和数据可视化功能。
(此处不提供 Kibana 安装教程)

"attachment"中指定要过滤的字段为content,所以写⼊elasticsearch时需要将⽂档内容放在content字段。

PUT /_ingest/pipeline/attachment 
{
	"description": "提取附件信息",
	"processors": [{
			"attachment": {
				"field": "content",
				"ignore_missing": true
			}
		},
		{
			"remove": {
				"field": "content"
			}
		}
	]
}

在这里插入图片描述

注意!!!

定义好管道之后,我们只需把文档文件转化为Base64格式,并把它丢到content字段上,文本抽取管道会自动帮我们把文件内容进行加工,把经过IK分词器分词后的纯文本结果存储到content字段上!

接下来,我们可以开始创建索引,并在索引中定义这个content字段了。

1.3 创建索引

(1)创建的索引结构

  • id:标识唯一记录
  • userId:文件所属用户id,根据需求添加。
  • docId:文件id,根据需求添加。
  • docName:文件名称,使用了ik_max_word中文分词器(把中⽂尽可能的拆分)
  • docType:文件类型,根据需求添加。
  • content关键!! 用于存储文件的base64内容,使用了ik_smart中文分词器(按常⽤习惯划分)
PUT /docwrite 
{
	"mappings": {
		"properties": {
			"id": {
				"type": "keyword"
			},
            "userId": {
				"type": "keyword"
			},
            "docId":{
                "type": "keyword"
            },
			"docName": {
				"type": "text",
				"analyzer": "ik_max_word"
			},
			"docType": {
				"type": "keyword"
			},
			"attachment": {
				"properties": {
					"content": {
						"type": "text",
						"analyzer": "ik_smart"
					}
				}
			}
		}
	}
}

在这里插入图片描述

二、在 Kibana 中测试添加文档

2.1 先把文件转为Base64形式

找一个Base64在线转换网站,把某个文档文件转换成base64字符串。

在这里插入图片描述

或者可以直接用我下面给出的Base64内容。

这是我自己创建的一个word文档,里面的内容是从elasticsearch官网里抄来的。把这个文档转化为Base64后的结果是:



在这里插入图片描述

2.2 向ES中添加一条记录

使用kibana控制台添加一条记录,把上面得到的Base64内容粘贴到content字段上(注意要加双引号),

POST /docwrite/_doc?pipeline=attachment
{
  "userId": 1001,
  "docId": 10003,
  "docName": "es.docx",
  "docType": "docx",
  "content": "[此处放Base64内容]"
}

在这里插入图片描述

通过以下查询语句,检查记录中的content字段是否已被文本抽取管道处理过。

GET /docwrite/_search

在这里插入图片描述

可以发现,content字段已经被IK分词器进行分词存储了。

2.3 测试关键词高亮搜索

我们的最终目的,还是需要通过搜索关键词,把匹配到的文档信息显示出来。

这里就需要用到关键词的高亮搜索。

比如,如果我想搜索关键词“Elasticsearch”,那么可以执行以下语句:

GET /docwrite/_search 
{
	"query": {
		"match": {
			"attachment.content": {
				"query": "Elasticsearch",
				"analyzer": "ik_smart"
			}
		}
	},
	"highlight": {
	  "fields": {
	    "attachment.content": {
	      "pre_tags": "<strong>",
	      "post_tags": "</strong>"
	    }
	  }
	}
}

这样就能够搜索到相关的记录,在该记录的 “highlight” 字段中,就显示出了和关键词匹配的文本内容,其中关键字是使用了<strong>标签进行高亮显示。

在这里插入图片描述

这就好比我们平时在百度中搜索一个关键词,然后出现和关键词相关的文本内容,而且关键字会进行高亮显示(比如设置为红字)。

在这里插入图片描述

三、SpringBoot 实现

如果以上步骤能流畅的走完,SpringBoot 后端的实现就变得很容易了。

3.1 elasticsearch配置

(1)pom.xml

添加elasticsearchIOUtils依赖

<!-- elasticsearch -->
	<dependency>
		<groupId>org.springframework.boot</groupId>
		<artifactId>spring-boot-starter-data-elasticsearch</artifactId>
	</dependency>
<!-- IOUtils -->
	<dependency>
		<groupId>commons-io</groupId>
		<artifactId>commons-io</artifactId>
		<version>2.8.0</version>
	</dependency>
<!-- lombok -->	
	<dependency>
		<groupId>org.projectlombok</groupId>
		<artifactId>lombok</artifactId>
		<optional>true</optional>
	</dependency>

(2)application.yml

添加elasticsearch服务器地址、端口号

# 自定义参数
my-config:
  # elasticsearch自定义配置
  elasticsearch:
    url: localhost
    port: 9200  

(3)ElasticSearchConfig 类

@Configuration
@Slf4j
public class ElasticSearchConfig {

    @Value("${my-config.elasticsearch.url}")
    private String esHost;

    @Value("${my-config.elasticsearch.port}")
    private int esPort;
    
    /**
     * 获取ES操作对象,注入bean中
     * @return ES client对象
     */
    @Bean("myESClient")
    public RestHighLevelClient myElasticsearchClient() {
        return new RestHighLevelClient(RestClient.builder(
                new HttpHost(esHost, esPort, "http")
        ));
    }
}

(4)elasticsearch 工具类

@Component
@Slf4j
public class ElasticSearchClient {
    
    @Autowired
    @Qualifier("myESClient")
    private RestHighLevelClient restHighLevelClient;
    
	/**
     * 获得关键词搜索结果
     * @param index
     * @param sourceBuilder
     * @return
     */
    public SearchHit[] selectDocumentList(String index, SearchSourceBuilder sourceBuilder) {
        try {
            SearchRequest request = new SearchRequest(index);
            if (sourceBuilder != null) {
                // 返回实际命中数
                sourceBuilder.trackTotalHits(true);
                request.source(sourceBuilder);
            }
            SearchResponse response = restHighLevelClient.search(request, RequestOptions.DEFAULT);
            if (response.getHits() != null) {
                return response.getHits().getHits();
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return null;
    }
    
	/**
     * 插入/修改文档信息
     * @param index 索引
     * @param data  数据
     */
    public void insertDocument(String index, Object data) {
        try {
            String id = UUID.randomUUID().toString().replaceAll("-", "").toUpperCase();
            IndexRequest request = new IndexRequest(index);
            request.timeout(TIME_VALUE_SECONDS);
            request.id(id);
            // 重要!!必须设置管道
            request.setPipeline("attachment");
            request.source(JSON.toJSONString(data), XContentType.JSON);
            IndexResponse response = restHighLevelClient.index(request, RequestOptions.DEFAULT);
            log.debug("[es] 插入文档的响应状态: status:{},id:{}", response.status().getStatus(), response.getId());
            String status = response.status().toString();
            if ("CREATED".equals(status) || "OK".equals(status)) {
                log.debug("[es] 插入文档成功! ");
                return true;
            }
        } catch (Exception e) {
            e.printStackTrace();
            log.error("[es] 插入文档失败");
        }
        return false;
    }
}

3.2 DocumentObj 实体类

用于记录文档文件的某些参数

@Data
public class DocumentObj implements Serializable{

    /** 当前文件所属用户id */
    private Long userId;
    
    /** mysql中的文件id */
    private Long docId;

    /** 文件名字 */
    private String docName; 
    
    /** 文件类型 */
    private String docType;
    
    /** 文件的base64内容 */
    private String content;

    private static final long serialVersionUID = 1L;
    
    public DocumentObj() {}
    
}

3.3 Service 接口

public interface ISearchService {
	/**
     * (测试)根据关键词,搜索文档
     * @param keyword
     * @return
     */
    List<DocumentObj> testSearch(String keyword);
    
	/**
     * (测试)把本地文档加载到elasticsearch中
     */
    boolean testLoadDocument();
}

3.4 ServiceImpl 实现类

@Slf4j
@Service
public class SearchServiceImpl implements ISearchService {

	@Autowired
    private ElasticSearchClient esClient;

	@Override
    public List<DocumentObj> testSearch(String keyword) {
        // 高亮查询,关键词添加红色样式
        HighlightBuilder highlightBuilder = new HighlightBuilder()
                .field("attachment.content")
                .preTags("<font color='red' font-weight='bold'>")
                .postTags("</font>");
        // 普通全索引查询
        SearchSourceBuilder searchSourceBuilder =
                new SearchSourceBuilder()
                        .query(QueryBuilders.matchQuery("attachment.content", keyword).analyzer("ik_smart"))
                        .highlighter(highlightBuilder);
        SearchHit[] searchHits = esClient.selectDocumentList("docwrite", searchSourceBuilder);
        // 处理每一条记录(每一个文档),获得高亮文本。
        List<DocumentObj> results = new ArrayList<>();
        for (SearchHit hit : searchHits) {
            Map<String, Object> sourceAsMap = hit.getSourceAsMap();
            DocumentObj obj = new DocumentObj();
            obj.setDocId( ((Integer) sourceAsMap.get("docId")).longValue() );
            obj.setDocName( (String) sourceAsMap.get("docName") );
            
            HighlightField contentHighlightField = hit.getHighlightFields().get("attachment.content");
            // 对于一个文档,它的高亮文本有多个结果,这里只拼接前2个结果。
            String highLightMessage = contentHighlightField.fragments()[0].toString()
                    + "  " + contentHighlightField.fragments()[1].toString();
            obj.setContent(highLightMessage);
            results.add(obj);
        }
        return results;
    }
    
	@Override
    public boolean testLoadDocument() {
        // 用本地文档进行测试
        try {
            // 加载文件,得到base64
            File file = new File("D:\\桌面文件\\es介绍.docx");
            InputStream fileInputStream = new FileInputStream(file);
            byte[] bytes = IOUtils.toByteArray(fileInputStream);
            String base64 = Base64.getEncoder().encodeToString(bytes);
            
            // 向es添加文档
            DocumentObj obj = new DocumentObj();
            obj.setUserId(1001L);
            obj.setDocId(666L);
            obj.setDocName("es介绍.docx");
            obj.setDocType("docx");
            obj.setContent(base64);
            return esClient.insertDocument("docwrite", obj);
            
        } catch (IOException e) {
            e.printStackTrace();
        }
        return false;
    }
}

3.5 Controller 层

@RestController
@RequestMapping("/test")
public class TestController {

	@RequestMapping("/es/search")
    public ResponseEntity<?> testSearch(String keyword) {
        return ResponseEntity.ok( searchService.testSearch(keyword) );
    } 
    
	@RequestMapping("/es/addone")
    public ResponseEntity<?> testAddone() {
        return ResponseEntity.ok( searchService.testLoadDocument() );
    }
}

3.6 测试

(1)加载文件

http://localhost:8002/test/es/addone

在这里插入图片描述

(2)关键字查询

搜索的关键词是 “Elasticsearch”。

http://localhost:8002/test/es/search?keyword=Elasticsearch

在这里插入图片描述

前端把特定的关键词传入接口,接口就会从elasticsearch服务器中得到对应的记录。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/744615.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文件操作--按字符读写文件

目录 1、读写文件中的字符&#xff1a; 例题1&#xff1a;从键盘键入一串字符&#xff0c;然后把它们转存到磁盘文件上。 例题2&#xff1a;将0-127之间的ASCII字符写到文件中&#xff0c;然后从文件中读出并显示到屏幕上。 例题3&#xff1a;修改例题2判断读出的字符是否为…

【NeRF】相机的内外参是什么?单目相机是如何成像的?

文章目录 【NeRF】相机的内外参是什么&#xff1f;单目相机是如何成像的&#xff1f;1.相机外参2.相机内参 【NeRF】相机的内外参是什么&#xff1f;单目相机是如何成像的&#xff1f; 在做Nerf时对其中的一些原理感到困惑&#xff0c;因而把这些基础理论知识总结下来&#xff…

b站网页版视频投稿接口分析

b站网页版视频投稿接口分析 上传视频逻辑如下&#xff1a;1.预加载2.获取准备上传到服务器的数据3.分片上传&#xff08;块大小最大为10MB/10485760字节&#xff09;4.上传完成进行合片 上传封面逻辑如下&#xff1a;投稿视频&#xff1a; B站投稿视频&#xff08;手稿&#xf…

【深度学习】:用于 GAN 的生成器架构 - 生成人脸

一、说明 生成对抗网络(GAN)是机器学习中一个相对较新的概念,于2014年首次推出。他们的目标是合成与真实图像无法区分的人工样本,例如图像。GAN 应用程序的一个常见示例是通过从名人人脸数据集中学习来生成人工人脸图像。虽然GAN图像随着时间的推移变得更加逼真,但它们的主…

短视频seo矩阵源码私有化部署方案

目录 前 言 一。 短视频seo矩阵算法 二、 短视频seo源码功能构建 三、 短视频seo私有化部署流程解读 前 言 为了更好地提高短视频平台的SEO优化效果&#xff0c;许多企业开始尝试私有化部署方案。这样做的好处在于&#xff0c;企业可以根据自身的特点和需求来灵活调整矩阵源…

龙蜥开发者说:参与开源要敢于担任不同角色 | 第 21 期

「龙蜥开发者说」第 21 期来了&#xff01;开发者与开源社区相辅相成&#xff0c;相互成就&#xff0c;这些个人在龙蜥社区的使用心得、实践总结和技术成长经历都是宝贵的&#xff0c;我们希望在这里让更多人看见技术的力量。本期故事&#xff0c;我们邀请了龙蜥社区开发者支智…

教你纯小白选对Java路线

许多人问如何开启JAVA的入门这里有两个层次: 首先&#xff0c;你是一个局外人。你一天只用电脑一两个小时&#xff0c;玩游戏&#xff0c;其他什么都不知道。你听说JAVA很受欢迎&#xff0c;而且薪水很高&#xff0c;你想要开始学习如何入门。 这个入门&#xff0c;就是进入编程…

关于Apache-Commons-Lang3中元组的使用

关于Apache-Commons-Lang3中元组的使用 在日常工作中&#xff0c;有时候我们并不清楚有这些工具类的存在&#xff0c;造成在开发过程中重新实现导致时间浪费&#xff0c;且开发的代码质量不佳。而 apache 其实已经提供了系列的工具包给我们使用&#xff0c;只是大多数人&#x…

通过列排斥能比较两组迭代次数

( A, B )---3*30*2---( 1, 0 )( 0, 1 ) 让网络的输入只有3个节点&#xff0c;AB训练集各由6张二值化的图片组成&#xff0c;让差值结构中有6个1, 行分布是0&#xff0c;1&#xff0c;1&#xff0c;1&#xff0c;1&#xff0c;2列分布是2&#xff0c;2&#xff0c;2.统计迭代次…

回归预测 | MATLAB实现ELM极限学习机多输入单输出回归预测(多指标、相关图)

回归预测 | MATLAB实现ELM极限学习机多输入单输出回归预测(多指标、相关图) 目录 回归预测 | MATLAB实现ELM极限学习机多输入单输出回归预测(多指标、相关图)效果一览基本介绍程序设计学习总结参考资料效果一览 基本介绍 回归预测 | MATLAB实现ELM极限学习机多输入单输出回…

由于找不到d3dx9_43.dll,有什么可靠的修复方法?

由于找不到d3dx9_43.dll&#xff0c;无法继续执行代码&#xff0c;这种情况大家是否有遇见过&#xff1f;其实就算没遇到过&#xff0c;大家应该也有遇到别的dll文件丢失吧&#xff1f;道理都一样&#xff0c;都是dll文件丢失&#xff0c;我们只需要把它给修复就可以了&#xf…

第一阶段-第五章 Python的函数

目录 一、函数的介绍  1.学习目标  2. 什么是函数  3.本节的演示  4.为什么要学习、使用函数  5.本小节的总结 二、函数的定义  1.学习目标  2.函数的语法  3.本节的代码演示  4.本小节的总结  5.练习案例&#xff1a;自动查核酸 三、函数的参数  1.学习…

Mac 查看端口和关闭进程

经常使用 node 启动本地&#xff0c;有时一不小心按了 Ctrl Z &#xff08;Command Z&#xff09;把服务关闭了&#xff0c;但实际上没真正关闭该服务&#xff0c;再次启动服务很可能会提示端口号被占用。 系统环境&#xff1a;Mac 查看端口的详细端口占用情况 命令&#xf…

Scrapy爬虫框架集成Selenium来解析动态网页

1、爬虫项目单独使用scrpay框架的不足 当前网站普遍采用了javascript 动态页面&#xff0c;特别是vue与react的普及&#xff0c;使用scrapy框架定位动态网页元素十分困难&#xff0c;而selenium是最流行的浏览器自动化工具&#xff0c;可以模拟浏览器来操作网页&#xff0c;解…

【PCIE】Device Control Register (Offset 08h)

Maximum Payload Size “Maximum Payload Size” &#xff08;最大传输负载大小&#xff09;是PCI Express设备控制寄存器中的一个位域&#xff0c;用于设置设备支持的最大传输负载的大小。 PCI Express使用数据包&#xff08;Packet&#xff09;来传输数据&#xff0c;而数据…

2024考研408-操作系统 第二章-进程与线程 学习笔记

文章目录 前言一、进程1.1、进程的概念、组成与特征1.1.1、进程的概念1.1.2、进程的组成认识PCB认识程序段与数据段&#xff08;包含进程实体概念&#xff09; 1.1.3、进程的特征知识回顾与重要考点 1.2、进程的状态、状态间的转换和组织方式1.2.1、进程的状态进程的五种状态详…

微信扫码跳转小程序实现web登录

前面博客我有写微信扫码跳转h5实现登录&#xff0c;但是需要申请服务号 最近项目迭代&#xff0c;想到小程序能做扫码登录的话&#xff0c;web网页端和小程序同时登录账户不是更好吗&#xff0c;还不用额外申请服务号 第一步 打开微信公众平台&#xff0c;在“开发”菜单下点击…

springcloud笔记二

配置管理服务是共有的&#xff0c;结合微服务自身的配置。这样核心配置更改就无需逐个更改 配置管理: 首先新建一个配置管理 Data ID为配置文件的名称 一般为项目名称-项目环境yaml&#xff0c;如userservice-dev.yaml 编写配置内容&#xff0c;发布 获取nacos配置信息: 可能…

数据透视表:pivot_table()--Pandas

1. 函数功能 创建数据透视表&#xff0c;返回一个EXCEL形式的数据透视表。 2. 函数语法 DataFrame.pivot_table(valuesNone, indexNone, columnsNone, aggfuncmean, fill_valueNone, marginsFalse, dropnaTrue, margins_nameAll, observedFalse, sortTrue)3. 函数参数 参数…

Vue3 父子组件之间传值

Vue3TSVite环境开发 1.父组件给子组件传递方法&#xff0c;属性和值 父组件引入子组件处里面绑定方法 showBtn &#xff0c;属性name和值msg 子组件通过defineProps()来接收 子组件页面显示父组件的方法 showBtn &#xff0c;属性name和值msg 2.父组件接收子组件传递的…