Linux 安装ElasticSearch + FSCrawler 扫描本地的文件资源

news2025/1/12 22:49:28

文章目录

  • 0. 前言
  • 1. 安装ElasticSearch
    • 1.1 下载安装包
    • 1.2 新增用户
    • 1.3 解压安装包
    • 1.4 更改文件夹用户
    • 1.5 修改配置文件
    • 1.6 修改系统配置
    • 1.7 启动集群
  • 2. 安装FSCrawler
    • 2.1 下载安装包
    • 2.2 创建配置文件
    • 2.3 修改配置文件
    • 2.4 启动
    • 2.5 验证是否被索引


0. 前言

Elasticsearch 是一个开源的分布式搜索和分析引擎,基于 Apache Lucene 构建。它被广泛用于各种数据搜索、日志和数据分析的场景。Elasticsearch 以其强大的实时搜索能力、可伸缩性和易用性而著称。

典型使用场景
(1)日志分析:Elasticsearch 常与 Logstash 和 Kibana 一起使用,构成 ELK/Elastic Stack,用于收集、处理和可视化日志数据。
(2)全文搜索:适用于网站、应用程序和其他系统的搜索功能,提供快速、精准的搜索结果。
(3)数据分析:可以用于分析各种数据,如用户行为数据、财务数据、物联网数据等,支持实时和离线分析。
(4)监控和报警:用于监控系统的性能和健康状态,基于设定的规则触发报警。

1. 安装ElasticSearch

1.1 下载安装包

建议7.x版本的ElasticSearch

二选一:

(1)手动下载安装包

  • 官方链接。如果下载太慢,这个不推荐。

  • 华为镜像包。推荐。

(2)linux 命令安装

wget https://mirrors.huaweicloud.com/elasticsearch/7.9.3/elasticsearch-7.9.3-linux-x86_64.tar.gz

1.2 新增用户

所有节点都需要操作

ElasticSearch 不允许 root 用户操作,需要新建用户(在所有节点上都需要新增用户):

useradd es # 新增 es 用户
passwd es # 为 es 用户设置密码

此时 /home 应该会创建一个新的目录 es

1.3 解压安装包

所有节点都需要操作

将压缩包拷贝到 /home/es 下,然后解压:

tar -zxf elasticsearch-7.9.3-linux-x86_64.tar.gz

1.4 更改文件夹用户

所有节点都需要操作

chown -R es:es elasticsearch-7.9.3

1.5 修改配置文件

所有节点都需要操作

elasticsearch.yml 配置字段说明:

cluster.name # 配置es的集群名称,默认是elasticsearch,es会自动发现在同一网段下的es,如果在同一网段下有多个集群,就可以用这个属性来区分不同的集群。

node.name # 节点名,默认随机指定一个name列表中名字,该列表在es的jar包中config文件夹里name.txt文件中

node.master # 指定该节点是否有资格被选举成为master,默认是true,es是默认集群中的第一台机器为master,如果这台机挂了就会重新选举master。

node.data # 指定该节点是否存储索引数据,默认为true。

index.number_of_shards # 设置默认索引分片个数,默认为5片。分片的数量:
# 1, 单个分片的大小不要超过32g —— 控制每个分片占用的硬盘容量不超过ES的最大JVM的堆空间设置(一般设置不超过32G,参加上文的JVM设置原则),因此,如果索引的总容量在500G左右,那分片大小在16个左右即可;当然,最好同时考虑原则2。

# 2. shard总数量不超过节点数的3倍 —— 考虑一下node数量,一般一个节点有时候就是一台物理机,如果分片数过多,大大超过了节点数,很可能会导致一个节点上存在多个分片,一旦该节点故障,即使保持了1个以上的副本,同样有可能会导致数据丢失,集群无法恢复。所以, 一般都设置分片数不超过节点数的3倍。
 
index.number_of_replicas # 设置默认索引副本个数,默认为1个副本。

path.conf # 设置配置文件的存储路径,默认是es根目录下的config文件夹。

path.data # 设置索引数据的存储路径,默认是es根目录下的data文件夹,可以设置多个存储路径,用逗号隔开,例:path.data: /path/to/data1,/path/to/data2

path.work # 设置临时文件的存储路径,默认是es根目录下的work文件夹。

path.log # 设置日志文件的存储路径,默认是es根目录下的logs文件夹

path.plugins # 设置插件的存放路径,默认是es根目录下的plugins文件夹

bootstrap.mlockall # 设置为true来锁住内存。因为当jvm开始swapping时es的效率 会降低,所以要保证它不swap,可以把ES_MIN_MEM和ES_MAX_MEM两个环境变量设置成同一个值,并且保证机器有足够的内存分配给es。 同时也要允许elasticsearch的进程可以锁住内存,linux下可以通过`ulimit -l unlimited`命令。

network.bind_host # 设置绑定的ip地址,可以是ipv4或ipv6的,默认为0.0.0.0。

network.publish_host # 设置其它节点和该节点交互的ip地址,如果不设置它会自动判断,值必须是个真实的ip地址。

network.host # 这个参数是用来同时设置bind_host和publish_host上面两个参数。

transport.tcp.port # 设置节点间交互的tcp端口,默认是9300。

transport.tcp.compress # 设置是否压缩tcp传输时的数据,默认为false,不压缩。

http.port # 设置对外服务的http端口,默认为9200。

http.max_content_length # 设置内容的最大容量,默认100mb

http.enabled # 是否使用http协议对外提供服务,默认为true,开启。

gateway.type # gateway的类型,默认为local即为本地文件系统,可以设置为本地文件系统,分布式文件系统,hadoop的HDFS,和amazon的s3服务器。

gateway.recover_after_nodes # 设置集群中N个节点启动时进行数据恢复,默认为1。

gateway.recover_after_time # 设置初始化数据恢复进程的超时时间,默认是5分钟。

gateway.expected_nodes # 设置这个集群中节点的数量,默认为2,一旦这N个节点启动,就会立即进行数据恢复。

cluster.routing.allocation.node_initial_primaries_recoveries # 初始化数据恢复时,并发恢复线程的个数,默认为4。

cluster.routing.allocation.node_concurrent_recoveries # 添加删除节点或负载均衡时并发恢复线程的个数,默认为4。

indices.recovery.max_size_per_sec # 设置数据恢复时限制的带宽,如入100mb,默认为0,即无限制。

indices.recovery.concurrent_streams # 设置这个参数来限制从其它分片恢复数据时最大同时打开并发流的个数,默认为5。

discovery.zen.minimum_master_nodes # 设置这个参数来保证集群中的节点可以知道其它N个有master资格的节点。默认为1,对于大的集群来说,可以设置大一点的值(2-4)

discovery.zen.ping.timeout # 设置集群中自动发现其它节点时ping连接超时时间,默认为3秒,对于比较差的网络环境可以高点的值来防止自动发现时出错。

discovery.zen.ping.multicast.enabled # 设置是否打开多播发现节点,默认是true。

discovery.zen.ping.unicast.hosts: ["host1", "host2:port", "host3[portX-portY]"] # 设置集群中master节点的初始列表,可以通过这些节点来自动发现新加入集群的节点。

例如,修改一个 elasticsearch-7.9.3/config/elasticsearch.yml 配置文件:

# 集群名称
cluster.name: cluster-es
# 当前节点名称,每个节点名字都需要设置,不能重复
node.name: node-1
# 当前对外的节点ip/域名地址,设置为0.0.0.0,那么就不限制主机的访问和节点的交互
network.host: 0.0.0.0
# 是不是有资格成为主节点
node.master: true
node.data: true
http.port: 9200
# head插件需要配置
http.cors.allow-origin: "*"
http.cors.enabled: true
http.max_content_length: 200mb
# 7.x 之后新增的配置,初始化一个新的集群时需要此配置来选举 master
cluster.initial_master_nodes: ["node-1"]
# 7.x 之后新增的配置,节点发现
discovery.seed_hosts: ["node2:9300","node3:9300","node4:9300"]
gateway.recover_after_nodes: 2
network.tcp.keep_alive: true
network.tcp.no_delay: true
transport.tcp.compress: true
# 集群内同时启动的数据任务个数,默认是 2 个
cluster.routing.allocation.cluster_concurrent_rebalance: 16
# 添加或删除节点及负载均衡时并发恢复的线程个数,默认 4 个
cluster.routing.allocation.node_concurrent_recoveries: 16
# 初始化数据恢复时,并发恢复线程的个数,默认 4 个
cluster.routing.allocation.node_initial_primaries_recoveries: 16

对于集群的其他节点,也需要修改上述文件,例如node2配置文件如下:

# 集群名称
cluster.name: cluster-es
# 当前节点名称,每个节点名字都需要设置,不能重复
node.name: node-2
# 当前对外的节点ip/域名地址,设置为0.0.0.0,那么就不限制主机的访问和节点的交互
network.host: 0.0.0.0
# 是不是有资格成为主节点
node.master: true
node.data: true
http.port: 9200
...

1.6 修改系统配置

所有节点都需要操作

/etc/security/limits.conf 在最后一行添加:

es soft nofile 65536
es hard nofile 65536

/etc/sysctl.conf,添加如下:

vm.max_map_count=655360

配置生效:

sysctl -p

1.7 启动集群

所有节点,用es用户执行

二进制启动:

/home/es/elasticsearch-7.9.3/bin/elasticsearch -d

检查是否当前正常工作:

curl localhost:9200
{
  "name" : "node-1",
  "cluster_name" : "cluster-es",
  "cluster_uuid" : "EFgx4qIcRo-_oAtAzQCabg",
  "version" : {
    "number" : "7.9.3",
    "build_flavor" : "default",
    "build_type" : "tar",
    "build_hash" : "c4138e51121ef06a6404866cddc601906fe5c868",
    "build_date" : "2020-10-16T10:36:16.141335Z",
    "build_snapshot" : false,
    "lucene_version" : "8.6.2",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

检查集群节点是否正常:

curl localhost:9200/_cat/nodes
192.168.76.116 27 97  9 19.83 20.97 21.14 dilmrt - node-3
192.168.76.114 25 98  4  8.62  8.81  8.82 dilmrt * node-1
192.168.76.115 17 77 11 21.00 21.30 21.36 dilmrt - node-2

2. 安装FSCrawler

2.1 下载安装包

下载链接看这里
ElasticSearch 7.x 版本对应 fscrawler-es7-2.9;
ElasticSearch 6.x 版本对应 fscrawler-es6-2.9;

在这里插入图片描述

2.2 创建配置文件

进入到解压的 fscrawler 文件夹中,执行:

./bin/fscrawler my_file_job --config_dir /xx/xxx

--config_dir 是指定配置文件的路径,选择自己的路径即可;

在这里插入图片描述
在你指定的 --config_dir 下会创建一个 _setting.yaml

2.3 修改配置文件

默认的 _setting.yaml 如下:

---
name: "my_file_job"
fs:
  url: "/tmp/es"
  update_rate: "15m"
  excludes:
  - "*/~*"
  json_support: false
  filename_as_id: false
  add_filesize: true
  remove_deleted: true
  add_as_inner_object: false
  store_source: false
  index_content: true
  attributes_support: false
  raw_metadata: false
  xml_support: false
  index_folders: true
  lang_detect: false
  continue_on_error: false
  ocr:
    language: "eng"
    enabled: true
    pdf_strategy: "ocr_and_text"
  follow_symlinks: false
elasticsearch:
  nodes:
  - url: "http://127.0.0.1:9200"
  bulk_size: 100
  flush_interval: "5s"
  byte_size: "10mb"
  ssl_verification: true

其中有关 _setting.yaml 的字段解释:
(1)fs字段配置,官方参考这里

name: "my_file_job"
fs:
  url: "/path/to/your/data"           # 要索引的文件系统路径
  update_rate: "15m"                  # 多长时间检查一次文件更新
  includes: ["*.txt", "*.pdf"]        # 包含的文件类型
  excludes: ["*.log", "*/temp/*"]     # 排除的文件类型
  json_support: false                 # 是否支持 JSON 文件
  filename_as_id: true                # 是否使用文件名作为文档ID
  add_filesize: true                  # 是否添加文件大小字段
  remove_deleted: true                # 是否从索引中删除已删除文件
  store_source: true                  # 是否存储文件源
  indexed_chars: 10000                # 索引的字符数
  attributes_support: true            # 是否索引文件属性
  raw_metadata: true                  # 是否索引原始元数据
  xml_support: false                  # 是否支持 XML 文件
  index_content: true                 # 是否索引文件内容
  index_folders: true                 # 是否索引文件夹
  follow_symlinks: false              # 是否跟随符号链接
  lang_detect: true                   # 是否启用语言检测
  continue_on_error: false            # 是否在错误时继续
  pdf_ocr: true                       # 是否对 PDF 文件使用 OCR
  ocr:
    language: "eng"                   # OCR 的语言
    path: "/path/to/tesseract"        # Tesseract OCR 的路径
    data_path: "/path/to/tessdata"    # Tesseract 数据路径

(2)elasticsearch字段配置,官方参考这里

name: "my_file_job"
elasticsearch:
  nodes:
    - url: "http://localhost:9200"   # Elasticsearch 节点的 URL
      username: "elastic"            # 连接 Elasticsearch 的用户名
      password: "changeme"           # 连接 Elasticsearch 的密码
  bulk_size: 100                     # 批量处理的文档数量
  flush_interval: "5s"               # 刷新间隔时间
  byte_size: "10mb"                  # 批量请求的字节大小限制
  index: "fscrawler_index"           # 索引名称
  index_folder: "fscrawler_folder_index" # 文件夹索引名称
  type: "_doc"                       # 文档类型(Elasticsearch 7.x 之后建议使用 `_doc`)
  pipeline: "attachment"             # 指定的 Ingest 管道

2.4 启动

修改完配置文件之后,再次执行:

./bin/fscrawler my_file_job --config_dir /xx/xxx

2.5 验证是否被索引

(1)使用 curl 检查索引

curl -X GET "localhost:9200/_cat/indices?v"

能够看到一个名为 my_file_job 的索引。

(2)返回包含搜索词 your_search_term 的文档。

# 使用 cURL 查询索引数据
curl -X GET "localhost:9200/my_file_job/_search?q=content:your_search_term&pretty"

欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;

欢迎关注知乎/CSDN:SmallerFL

也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1863861.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

职业本科院校电子信息类专业教学解决方案

引言 随着信息技术的飞速进步和全球经济的深度融合,电子信息领域已成为推动社会发展的核心动力。职业本科教育作为培养高素质技能型人才的主阵地,面临着前所未有的挑战与机遇。特别是在电子信息类专业领域,如何培养出既掌握前沿理论知识&…

mac配置修改host文件

1command 空格 输入 terminal 选中回车进入终端控制台. command 空格 2 sudo vi /etc/hosts 输入密码,进入vi编辑器修改文件 sudo vi /etc/hosts3修改内容,:wq保存退出,重启项目即可 :wq

2025中国(宁波)出口跨境电商博览会

2025中国(宁波)出口跨境电商博览会 时间:2025年5月28-30日 地点:中国宁波国际会展中心 组织单位: 宁波欧德国际商务咨询服务有限公司 凤麟展览(宁波)有限公司 宁波市跨境电子商务协会 宁波市家居产业协会 详询主办方陆先生 I38&…

day21--669. 修剪二叉搜索树 +108.将有序数组转换为二叉搜索树+538.把二叉搜索树转换为累加树

一、669. 修剪二叉搜索树 题目链接:https://leetcode.cn/problems/trim-a-binary-search-tree/ 文章讲解:https://programmercarl.com/0669.%E4%BF%AE%E5%89%AA%E4%BA%8C%E5%8F%89%E6%90%9C%E7%B4%A2%E6%A0%91.html 视频讲解:https://www.bi…

二、大模型原理(Transformer )

Transformer是一种基于自注意力机制(Self-Attention Mechanism)的深度学习模型,它在2017年由Vaswani等人在论文《Attention Is All You Need》中提出。Transformer模型的出现极大地推动了自然语言处理(NLP)领域的发展&…

零知识学习之DPDK与RDMA(1)—— 认识DPDK(1)

接前一篇文章:零知识学习之DPDK与RDMA(1)—— 序言与初识 本文内容参考: 《Linux高性能网络详解 从DPDK、RDMA到XDP》 刘伟著 人民邮电出版社 DPDK首页、文档和下载 - 网络数据包转发处理 - OSCHINA - 中文开源技术交流社区 五…

【源码+文档+调试讲解】灾害应急救援平台

摘 要 灾害应急救援平台的目的是让使用者可以更方便的将人、设备和场景更立体的连接在一起。能让用户以更科幻的方式使用产品,体验高科技时代带给人们的方便,同时也能让用户体会到与以往常规产品不同的体验风格。 与安卓,iOS相比较起来&…

小程序下拉刷新,加载更多数据,移动端分页

文章目录 页面结构图WXML页面代码js代码wxss代码总结备注 参考&#xff1a;https://juejin.cn/post/7222855604406796346 页面结构图 一般页面就4个结构&#xff1a;最外滚动层、数据展示层、暂无数据层、没有更多数据层。 如图&#xff1a; WXML页面代码 <scroll-view …

Zynq7000系列FPGA中的中断

本文介绍Zynq7000系列FPGA中的系统级中断环境和中断控制器的功能&#xff08;见图7-1&#xff09;。 专用、共享和软件中断 每个CPU都有一组专用外围中断&#xff08;PPI&#xff0c;private peripheral interrupts&#xff09;&#xff0c;使用banked 寄存器可以对这些中断进…

2024年生物技术与食品科学国际会议(ICBFS 2024)

2024 International Conference on Biotechnology and Food Science 2024年生物技术与食品科学国际会议 【会议信息】 会议简称&#xff1a;ICBFS 2024 大会地点&#xff1a;中国厦门 会议邮箱&#xff1a;icbfssub-paper.com 审稿结果&#xff1a;投稿后3日左右 提交检索&…

AI视频教程下载-ChatGPT 生产力 + 时间管理

ChatGPT Productivity Time Management. ChatGPT Productivity ChatGPT 显著提升生产力 不寻常的时间管理技巧。ChatGPT 工作&#xff0c;Chat GPT 自动化&#xff0c;ChatGPT 2023&#xff01; 对关于ChatGPT的讨论感到好奇&#xff0c;想知道如何利用它为自己带来好处吗&a…

VTable导出当前页和导出所有页数据

表格导出的是当前显示的表格&#xff0c;如果是分页表格想导出全部的数据话。有两种方法可以实现 表格先显示的全量数据&#xff0c;导出后再恢复当前页。新建一个隐藏的表格实例显示全量数据导出这个隐藏的表格实例。 下面是全量代码&#xff1a; <template><div&…

【笔记】从零开始做一个精灵龙女-拆uv阶段

目录 先回顾一下拆uv的基础流程吧 肩部盔甲分UV示例 手环UV部分 腰带UV部分 其它也差不多&#xff0c;需要删掉一半的就先提前删掉一半&#xff0c;然后把不需要的被遮挡的面也删掉 龙角UV 胸甲UV 侧边碎发UV 马尾UV 脸部/耳朵UV 特殊情况&#xff1a;如果要删一半再…

2024南京国际自有品牌产品博览会

展会名称&#xff1a;2024南京国际自有品牌产品博览会 展会时间&#xff1a;2024年10月11-13日 展会地点&#xff1a;南京国际博览中心 展览规模&#xff1a;36000平米 详询主办方陆先生 I38&#xff08;前三位&#xff09; I82I&#xff08;中间四位&#xff09; 9I72&…

Vmvare12安装CentOS7.6

Vmvare12安装 注意事项 安装完成以后有这两个虚拟网卡。 CentOS官网镜像地址 https://www.centos.org/download/mirrors/Vmvare安装CentOS7.6 创建虚拟机 安装CentOS7.6 选择桌面版 磁盘分区 上述是确认使用自动分区。 设置密码 设置license information 欢迎页面 CentOS7…

Opencv+python模板匹配

我们经常玩匹配图像或者找相似&#xff0c;opencv可以很好实现这个简单的小功能。 模板是被查找目标的图像&#xff0c;查找模板在原始图像中的哪个位置的过程就叫模板匹配。OpenCV提供的matchTemplate()方法就是模板匹配方法&#xff0c;其语法如下&#xff1a; result cv2.…

智能小家电的跨境渠道有哪些,美国商超入驻选百思买如何?

智能小家电是现代家庭生活的重要部分&#xff0c;提升了生活品质&#xff0c;体现消费者追求个性化、智能化生活。跨境电商发展快速&#xff0c;智能小家电跨境渠道多样化&#xff0c;为品牌提供广阔市场。本文将深入探讨智能小家电的跨境渠道&#xff0c;并分析选择百思买作为…

记录 Bonobo Git 服务器 SMTP 设置

Bonobo 使用标准的 .NET SMTP 设置&#xff0c;可以在 web.config 中指定这些设置。 <system.net><mailSettings><smtp deliveryMethod"network" from"bonobobonoserver.your.domain"><network host"accessible.smtp.host"…

B端组件:穿梭框—可不是简单的左口袋放右口袋

B端组件穿梭框&#xff08;Transfer&#xff09;是一种常见的界面组件&#xff0c;用于在两个列表之间进行数据交互。它通常由两个列表和一些操作按钮组成&#xff0c;其中一个列表用于展示可选数据&#xff0c;另一个列表用于展示已选数据&#xff0c;操作按钮用于将数据从一个…

LeetCode刷题之HOT100之打家劫舍

2024/6/26 大家早上好呀&#xff01;今天不热诶&#xff0c;昨天跟镔哥跑了五公里&#xff0c;配速515简直不要太爽啊&#xff0c;跑完后在操场走一圈&#xff0c;正好发小发了群视频过来&#xff0c;聊了半小时。发小一考研二战失利&#xff0c;去干测试&#xff0c;天天累得不…