需求
- 实现文件导入es,支持格式TXT、DOC、PPT、XLS、PDF、图片
- ik分词器远程热更新自定义扩展字典和停用字典
- Kibana配置词云,并显示对应文档详情和字典频次,且自定义显示字典
技术点
- 文件导入:es插件ingest-attachment
- 图片文字识别:百度OCR(其实可以自己部署一套PaddleHub, 更推荐,为啥这次不用呢,问就是赶时间!)
参考文章
- springboot+Elasticsearch实现word,pdf,txt内容抽取并高亮分词全文检索
- elasticsearch分词器词库热更新三种方案
- IK分词器新增词库使历史数据生效
- 百度OCR文档
- PaddleHub一键OCR中文识别
- Kibana 8.X 如何做出靠谱的词云图?
Kibana操作
一. 生成词云
- 首先创建对应的索引模式
- 创建词云
- 选择开始建好的索引模式
- 基础使用,生成词云
- 高级用法1,设置只显示字典,可以看到上面设置的大小为10,但是还是只显示了自定义的3个字典。
- 高级用法2,设置过滤字典,可以看到左侧生成的词云已经没有过滤的字典了。
二. 生成对应的频次和内容详情