ES 8.x的多实例集群搭建与角色规划

ES 8 多实例集群搭建与角色规划

ES 8版本与之前版本存在较大改变，第一个区别就是启动时默认开启了安全模式，也就是即便是测试环境也需要用户名密码和https传输层安全证书。此外，集群节点的角色也与之前不同，除了新增角色外在配置方式上也有所不同，而这些都与生产和业务息息相关，必须对此有清晰的认识，掌握使用方法。

集群节点发现

集群互连，重中之重！

在大多数情况下，发现和选举过程会迅速完成，并且主节点会长时间保持当选状态。

如果集群没有稳定的主节点，其许多功能将无法正常工作，并且Elasticsearch将会向客户端报告错误并在日志中记录。必须先修复主节点的不稳定问题，才能解决其他相关问题。在没有选出主节点或当前选出的主节点不稳定的情况下，解决任何其他问题都是不可能的。

如果集群有一个稳定的主节点，但部分节点无法发现或加入该主节点，那么这些节点将会向客户端报告错误并在它们的日志中记录。必须首先解决阻碍这些节点加入集群的问题，然后才能着手处理其他问题。在这些节点无法成功加入集群的情况下，解决它们所报告的任何其他问题是不可能的。

启动第一个节点

第一个节点很重要，不能设置这个节点的角色，否则很可能启动不了安全模式，也不能设置它的端口号之类的，否则启动不了https。最后只改了节点name和集群名称（官方文档给的提示是不做任何更改解压后可直接启动，显然，我们至少需要改个名字）。

以下全部是我进行的参数组合测试的情况（首次启动）：

如果继续设置了角色master，端口号以及初始master节点列表，就不会自动开启ssl模式了，但此时多节点无法互联成集群，密码无法更新：ERROR: Failed to determine the health of the cluster. Unexpected http status [503]。

上述6个值以外如果还额外指定了Transport Host的值，比如4个0，启动就会直接报错： node validation exception，Transport SSL must be enabled。

如果指定了集群名，节点名以及角色这3个配置，节点可以启动，密码修改失败：ERROR: Failed to reset password for the [elastic] user, with exit code 75。

如果仅指定两个名称和Transport Host的这3个参数值，测试了也可以完全正常启动！

如果仅指定两个名和两个端口号共4个参数值，正常！

如果指定两个名和两个端口号和Transport host这5个参数，正常！

综上，不可以指定的是角色和初始化列表！

正常启动后，这个节点是主节点（它是一个集11种角色于一身的全能高手）：

[node-1-master] This node is a fully-formed single-node cluster with cluster UUID [Ysiu2anmSp2kO13Wb0jAcw], 
but it is configured as if to discover other nodes and form a multi-node cluster via the [discovery.seed_hosts=[10.11.22.33:9300]] setting. 
Fully-formed clusters do not attempt to discover other nodes, and nodes with different cluster UUIDs cannot belong to the same cluster. 
The cluster UUID persists across restarts and can only be changed by deleting the contents of the node's data path(s). 
Remove the discovery configuration to suppress this message.

[node-1-master] 这个节点已经形成了一个完整的单节点集群，集群UUID为[Ysiu2anmSp2kO13Wb0jAcw]，但是其配置却表明它试图通过[discovery.seed_hosts=[10.11.22.33:9300]]设置去发现其他节点并形成一个多节点集群。完整形成的单节点集群不会尝试去发现其他节点，并且具有不同集群UUID的节点不能属于同一集群。集群UUID在重启后会持久存在，只能通过删除节点数据路径的内容来更改。要消除这个警告消息，请移除关于发现节点的相关配置。

节点发现配置迷局

反复在本地各种改配置，删除数据，重启，无奈本地的多个节点就是无法形成集群。

后面发现将发现配置中使用的hostname改为ip地址可以成功互联互通。关于这一点，官方文档提示的是应该使用node.name。
以下全部配置项的前提是多实例的文件都是从本机master服务拷贝来的，也就是https证书在本机上是一样（跨机器行不通，见不识别SSL证书问题的处理）。

在处理其他机器上的服务加入集群时发现直接带证书拷贝过去时无法完成ssl校验的，这也可能与双网有关，不过根据ES 7版本的经验，跨节点的证书需要自行生成，不能直接复制使用。

期间有ES集群不识别节点SSL证书的问题处理，参考我其他文章。

ES节点SSL问题处理-链接

实例自有配置

以下配置要与其他节点不同（名称、数据和日志路径，两个端口号），每个ES服务实例都是独一份。

node.name: node-1-node2

path.data: /path/to/data2
path.logs: /path/to/logs

http.port: 9202
transport.port: 9302

master节点特有配置

cluster.initial_master_nodes: ["10.11.22.33:9300"]
node.roles: [ master，ingest ]

data类节点特有配置

discovery.seed_hosts: ["10.11.22.33:9300"]
node.roles: [ data, ingest ]

终于理清了，理的令人烦躁，软件能够开箱即用真是很强大的优势。

角色的变更

如果我修改了节点的角色，再次启动时就会报错。如下是从master、data等角色的一个实例修改为仅master节点的启动失败信息：

fatal exception while booting Elasticsearchjava.lang.IllegalStateException: 
node does not have the data role but has shard data: [/opt/es811/master/data/indices/_eWDGVvGTM2aqNjcYBvK5w/0]. 
Use 'elasticsearch-node repurpose' tool to clean up

提示说使用elasticsearch-node repurpose工具进行清理。

执行该命令，返回确认信息：

...
Node is being re-purposed as master and no-data. Clean-up of shard data will be performed.
Do you want to proceed?
Confirm [y/N] y
Node successfully repurposed to master and no-data.

警告：这会删除本实例持有的全部数据。

然后再次启动该节点，启动成功，节点已经改变为纯master节点，不再保存数据。

{
  "cluster_name" : "my-app-es",
  "status" : "green",
  "timed_out" : false,
  "number_of_nodes" : 3,
  "number_of_data_nodes" : 2,
  "active_primary_shards" : 1,
  "active_shards" : 2,
  "relocating_shards" : 0,
  "initializing_shards" : 0,
  "unassigned_shards" : 0,
  "delayed_unassigned_shards" : 0,
  "number_of_pending_tasks" : 0,
  "number_of_in_flight_fetch" : 0,
  "task_max_waiting_in_queue_millis" : 0,
  "active_shards_percent_as_number" : 100.0
}

如下图，目前集群为3个节点，1个master，2个data节点，均可作为ingest节点：