如何设计微服务

一、序幕

最近在思考，自己哪些不足，需要学习点什么？看着Java基础知识，千遍一律，没有太大的动力需深挖，只能在写业务项目的时候边写边思考边夯实自己的基础。于是看了网上的一些资料，结合以前面试被问到的问题：如何设计微服务，于是带着思考去了解这个技术广度问题。

二、服务设计

1、负载均衡+API网关

实现负载均衡+API网关的常见技术方案:

1). Nginx + Lua 脚本：利用Nginx的负载均衡和Lua模块开发API网关。

2). HAProxy + HAProxy API Gateway：HAProxy具备负载均衡功能,其API网关模块可以实现API管理。

3). Kong + Kong Gateway ：Kong开源API网关,可以集成Nginx实现负载均衡。

4). Traefik + Traefik API Gateway：Traefik同时支持负载均衡和API网关能力。

5). Spring Cloud Gateway：Spring Cloud Gateway具备API网关功能,可以与Ribbon、Eureka等组件搭配使用。

6). Tyk API Gateway：Tyk开源的轻量级API网关,可以自定义插件实现负载均衡。

7). Amazon API Gateway ：亚马逊的API网关服务,可与其ELB集成。

根据需求选择合适的网关和负载均衡实现,利用其路由、流量控制等能力构建API管理层。

详情介绍：

Kong是基于Nginx的微服务API网关,提供动态服务发现、监控、灰度发布等功能。

使用:
启动Kong服务器,可以通过docker方式部署
配置服务路由及插件,通过Admin API或声明式配置
应用调用网关代理的服务

Spring Cloud Gateway网关,可以路由及过滤请求,集成Hystrix等组件实现高可用。

使用:

引入Spring Cloud Gateway依赖
通过Java配置定义路由规则
可以设置过滤器、断路器等

Zuul Netflix开源的网关,可以进行认证、监控、路由等功能。

使用:

加入Zuul启动器
配置规则表映射路径到服务
设置过滤器进行请求预处理等逻辑

2、无状态与独立有状态集群

无状态化(Stateless)是构建高可扩展和高可用应用的重要设计原则。

区分有状态和无状态应用:
- 有状态应用:应用需要保存用户会话状态、业务状态等数据。这些状态保存在应用进程内存或磁盘上。
- 无状态应用:应用不保存任何状态信息,每个请求独立,不依赖之前的请求。

有状态应用的问题:
- 扩展困难:状态数据无法共享到多台服务器
- 故障恢复复杂:节点故障时状态数据丢失,难以恢复
- 资源浪费:内存或磁盘用来保存状态数据

无状态应用的优点:
- 易扩展:任意增加节点,请求可以分布到任意节点
- 故障容错:节点故障后可以直接重启或切换,不需要恢复状态
- 资源高效:不需要内存或磁盘保存状态

实现无状态:
- 使用无状态服务组件,如无服务器存储
- 将状态外部化,例如保存到数据库、缓存或消息队列
- 在请求间不保存会话上下文,全面无状态化

无状态应用是云原生应用的重要特征,有利于实现弹性扩展和高可用。

3、数据库的横向发展

数据库的横向扩展主要的实现方式有:

1). 主从复制

- 一主多从的拓扑结构
- 主负责写,从负责读
- 可扩展读性能,实现读写分离

2). 分库分表

- 按业务拆分多个数据库
- 一个库内还可以分表,通过哈希等分数据
- 通过中间件路由分库分表,实现扩展

3). Sharding

- 通过分片策略存储不同数据到不同节点
- 支持按范围、哈希等方式分片
- 在中间件实现分片路由和查询

4). 数据库集群

- 采用类似Memcached的K-V存储模式
- 通过一致性哈希分布和复制数据
- 支持弹性扩容节点

5). 采用非关系数据库

- 非关系数据库可轻松扩展
- 通过扩展节点实现基于应用需求的扩展

6).同步复制/异步复制

- 不同场景下选择同步或异步机制,实现数据复制和扩展。

综上,根据应用特点选择合适的横向扩展方案,可实现数据库的可扩展性。

4、缓存

常用的缓存技术有:

1). 本地缓存

- 在应用内存中开辟一块空间作为缓存
- 通过Map、Guava Cache等实现
- 优点:快速、简单
- 缺点:容量受限、无法共享

2). 分布式缓存

- Memcached、Redis等分布式缓存
- 支持集群,可扩展性好
- 通过Key-Value模式缓存数据
- 使用客户端访问缓存集群

3). 数据库缓存

- 使用MySQL、Redis等数据库的缓存功能
- 数据缓存到数据库端
- 数据库负责缓存失效、回收机制
- 优点:和数据耦合度高

4). Web服务器缓存

- 通过Web服务器本地缓存静态资源
- 对动态内容也可以缓存生成的页面
- 支持各种缓存策略、缓存控制
- 可以大量提升网站性能

5). CDN缓存

- 在边缘节点缓存内容
- 就近响应用户请求,加速访问

综上,根据需求选择合适的缓存手段,能有效提升系统性能。

实现缓存常见的技术选型如下:

1). 本地缓存

- Guava Cache - Google的Java缓存实现,有内存和磁盘缓存。
- Ehcache - Java进程内缓存框架,有立即写回、事务支持等特性。
- Caffeine - 基于Java8的高性能本地缓存。

2). 分布式缓存

- Memcached - 简单的分布式内存KV缓存。
- Redis - 支持多种数据结构的分布式缓存。
- GemFire - Pivotal的分布式内存数据库和缓存。

3). 数据库缓存

- MySQL/PostgreSQL 数据库自带的查询缓存。
- Redis/Memcached集成到数据库引擎层,如Redisson。

4). Web缓存

- Nginx/Apache 的高速内存反向代理缓存。
- Varnish Cache - 高性能的HTTP缓存代理。

根据需要选择本地缓存或分布式缓存机制,来加速应用程序。

5、服务拆分与服务发现

服务拆分和服务发现是构建分布式系统的重要手段。

1). 服务拆分

- 将系统功能模块划分为不同的服务
- 规则:高内聚、松耦合,按业务领域(DDD)划分
- 优点:隔离变化,明确服务边界
- 实现:SOA、微服务都依赖服务拆分

2). 服务发现

- 服务实例动态注册到注册中心
- 服务消费者向注册中心获取服务提供者信息
- 调用者可通过负载均衡选择实例
- 常用实现:Zookeeper、Eureka、Consul、Nacos等
- 优点:服务位置透明、动态扩容

拆分后服务位置不固定,引入服务发现中间件,消费者可以动态获取服务信息并访问。

服务拆分与发现是构建大规模分布式系统的基石,能够实现服务治理和弹性扩展。

实现服务拆分与服务发现常用的技术方案包括:

1). Spring Cloud Netflix - Spring生态对Netflix组件的整合,如Eureka、Hystrix等。
2). Apache Dubbo - 阿里开源的高性能RPC框架,内置服务注册中心。
3). gRPC - Google开源的高性能RPC框架,支持服务注册。
4). Linkerd - 云原生应用的服务网格,支持服务发现、负载均衡。
5). CoreDNS - 云原生 DNS和服务发现,支持Kubernetes。
6). Consul - HashiCorp的服务发现与配置工具,有DNS和HTTP接口。
7). Etcd - 一个分布式KV存储,可用于服务注册。
8). ZooKeeper - 分布式协调服务,支持服务注册。
9). Nacos - 阿里服务发现和配置管理组件。
10). Kubernetes - 原生支持服务注册和负载均衡。

核心思路是将系统拆分为松耦合服务,通过服务注册表实现服务发现。可以选择适合技术栈进行实现。

6、服务编排与弹性伸缩

服务编排与弹性伸缩都是实现应用弹性和可扩展的重要手段。

1). 服务编排

- 协调调用复杂分布式服务的过程
- 编排服务间依赖,执行工作流协调调用
- 常用:Kubernetes、Docker Swarm实现服务编排
- 优点:简化服务交互,自动部署和管理

2). 弹性伸缩

- 根据负载情况调整服务实例数
- 规则:CPU、内存使用阈值、请求QPS等
- 自动水平扩展或收缩实例数量
- 常用:Kubernetes HPA,AWS Auto Scaling
- 优点:弹性应对流量变化,资源高效

服务编排简化了服务交互复杂度。弹性伸缩实现了资源的自动调节,提高资源利用率,应对变化的负载。

两者共同实现应用的敏捷性和高效性。是云原生应用的重要特征。

实现服务编排与弹性伸缩常用的技术方案包括:

1). Kubernetes - 开源的容器编排框架,支持服务部署、扩缩容、负载均衡等。
2). Docker Swarm - Docker自身的容器编排工具,可实现容器集群管理。
3). Mesos - Apache的资源统一管控和任务调度平台,可实现服务编排。
4). Amazon ECS - 亚马逊的容器管理服务,支持容器部署、伸缩。
5). OpenStack Heat - OpenStack的编排引擎服务,通过模板定义架构栈。
6). Spring Cloud - Spring生态的微服务编排组件,如Netflix、Zookeeper。
7). HashiCorp Nomad - 一致性的工作流调度和资源编排工具。
8). Alibaba Cloud ACK - 阿里云的托管Kubernetes集群服务。

核心是根据业务需求,利用编排调度器实现服务部署、资源分配、伸缩等。可以选择适合的开源或商业解决方案。

7、统一配置中心

统一配置中心是集中管理应用配置的服务,主要有以下优点:

1). 集中管理配置

- 提供服务端的配置存储空间
- 集中存储应用的外部化配置
- 一处修改,全局生效

2). 动态更新

- 支持热更新配置,不停服应用
- 应用可以获取配置变化通知
- 实现应用的动态重配置

3). 版本管理

- 可以版本化管理配置
- 支持配置修改历史回溯
- 方便查看配置变更记录

4). 权限管理

- RBAC访问控制配置的访问
- 安全可控,避免非授权修改

5). 易操作

- 简单的UI界面管理配置
- 支持各种语言的SDK接入

实现统一配置中心常见的技术方案包括:

1). Spring Cloud Config - Spring生态的配置中心实现,支持Git/SVN等存储后端。
2). Apollo - 携程开源的配置中心项目,有服务端和客户端实现。
3). Disconf - Baidu开源的本地配置管理平台,支持应用版本管理。
4). Diamond - Alibaba开源的配置管理平台,支持多种语言。
5). etcd - 一个分布式KV存储,可以用来实现配置中心。
6). Consul - HashiCorp的服务发现和配置管理工具,内置KV存储。
7). Zookeeper - 分布式协调服务,其数据节点可以用来保存配置。
8). Nacos - 阿里巴巴的配置和服务发现组件。

核心原理是实现一个集中式的、支持高可用的配置管理服务,应用可以共享这个配置中心。开源技术组合可以实现。

8、统一日志中心

统一的日志中心具有以下优点:

1). 集中存储日志

- 应用日志统一发送到日志中心
- 不再分散存储在各服务器
- 方便日志数据收集

2). 日志查询

- 提供日志查询接口和界面
- 通过条件过滤日志数据
- 支持全文索引等高级查询

3). 日志统计

- 可以统计日志数量以及各种聚合分析
- 分析异常或业务指标等

4). 日志监控

- 可以设置报警规则
- 异常日志实时报警

5). 日志转发

- 支持多种日志接入方式
- 统一日志转发格式
- 方便发送到其他系统

统一日志中心便于日志存储、查询与监控,有助于分析业务情况。

实现统一日志中心常用的技术选型如下:

收集代理:Fluentd,Logstash
Fluentd和Logstash都可以收集各服务器的日志数据,支持多种数据源。

传输方式:Kafka, Logstash-forwarder
Kafka是一个高吞吐的日志传输管道。Logstash-forwarder可以安全高效地传输日志。

存储数据库:ElasticSearch
ElasticSearch是一个分布式日志存储和搜索引擎,可以用于存储大量日志。

展示可视化:Kibana
Kibana可以用来分析和可视化ElasticSearch中的日志数据。

分析处理:Logstash,Spark
Logstash可以解析和处理日志。Spark也可以进行流式及批处理分析。

告警系统:ElasticSearch + Kibana/Grafana
通过Kibana或者Grafana连接ElasticSearch实现日志告警。

典型组合是Fluentd+Kafka+ElasticSearch+Kibana构成的EFK日志架构。也可以替换其中的组件实现自定义的日志中心。

9、熔断，限流，降级

熔断、限流与降级都是保障系统高可用的 Important 手段。

1). 熔断

A、依赖服务调用频繁失败时断开调用
B、快速失败,避免资源占用
C、后续恢复调用链路
D、实现:
Hystrix:Netflix开源的熔断器实现,提供断路器模式,快速失败。
Sentinel:阿里巴巴的熔断组件,支持流量整形、熔断降级。
resilience4j:简单的熔断器实现。

2). 限流

A、当请求流量过大时进行限制
B、避免服务过载
C、常用算法:漏桶、令牌桶等
D、实现:
Guava RateLimiter:通过令牌桶算法实现简单的Rate Limiting。
Resilience4j: 提供基于语义的限流。
Sentinel:支持各种限流策略,如QPS、线程数等。
Nginx:可以通过nginx限流模块实现限流。

3). 降级

A、当服务压力过大时,减少处理
B、如无核心功能服务降级为备用逻辑
C、减小调用耗时,保证核心服务
D、实现：
Hystrix: 支持为依赖设置回退逻辑,实现服务降级。
Sentinel: 支持各种降级策略,如RT、异常比例、成功率等。
resilience4j: 提供重试、回退、隔离等机制。

熔断、限流快速失败,防止级联故障。降级平滑应对故障。共同提高系统弹性。

10、全方位的监控

全方位监控系统涵盖多个方面:

1). 基础监控

监控CPU、内存、磁盘、网络等基础资源指标,定位系统瓶颈。

2). 服务监控

监控各个服务的可用性、延迟、吞吐量等指标,定位问题服务。

3). 业务监控

根据关键业务指标监控系统运行情况,如转换率、订单量等。

4). 日志监控

分析日志错误、异常信息,尤其关注报警日志。

5). 用户监控

跟踪用户操作流程,分析用户行为数据。

6). 接口监控

监控各个接口的响应时间、成功率等指标。

7). 外部服务监控

监控外部依赖服务的可用性、延迟指标。

8). 全链路追踪

跟踪一个请求调用的整个过程,清晰系统运行情况。

全方位监控可以从不同维度对系统运行状态进行把控,对于分析问题、保障高可用非常关键。需要选用合适的监控系统来实现。

根据全方位监控的要求,可以考虑使用以下技术:

1). 基础资源监控:Zabbix、Nagios、Prometheus等进行基础指标数据的收集。
2). 服务监控:通过 Micrometer、Prometheus 等模块采集服务运行指标,并设置告警规则。
3). 业务监控:通过 Grafana 等工具定义关键业务指标面板,并设置告警。
4). 日志监控:使用 ELK 或 Graylog 收集和分析日志,设置日志告警。
5). 用户监控:通过 Google Analytics、存量用户平台等分析用户行为数据。
6). 接口监控:使用 Cat、Zipkin 等实现接口调用链路监控。
7). 外部服务监控:通过端点检查等方式监测外部服务可用性。并联合监控系统设置告警。
8). 全链路追踪:通过 Zipkin、SkyWalking、Jeager 等落地分布式链路追踪。

此外,可以使用 Grafana 等工具实现统一的监控数据展示和告警。

根据选择的监控系统和技术栈进行对应集成,可以实现全方位的系统监控。