一、502意味着什么

502 Bad Gateway是指错误网关，无效网关；在互联网中表示一种网络错误。表现在WEB浏览器中给出的页面反馈。它通常并不意味着上游服务器已关闭（无响应网关/代理），而是上游服务器和网关/代理使用不一致的协议交换数据。鉴于互联网协议是相当清楚的，它往往意味着一个或两个机器已不正确或不完全编程。

根据百科词条说明，502错误是浏览器上游服务器问题，那么上游服务器就有Nginx和Server两种。挨个进行排查。

首先Server如果导致502，也就是服务不响应的情况可能有两种原因，一是服务宕机或者假死二是tomcat的链接数被占满，新到的socket链接被tomcat直接拒绝导致的。

其次是nginx，经过查询资料，nginx具有限流和健康检查机制，会将nginx认为不可用的服务进行下线，进而直接返回502.

二、错误排查

1 、首先是服务器（因为最熟悉）

图1

图2

监控结果如图1所示，tomcat的线程数量在502错误报出的是时候，线程数量没有被占满。所以不会存在Tomcat的acceptCount被占满，进而Tomcat直接拒绝链接的情况。

监控结果如图2所示，server的cpu也是种比较低一些，查看服务日志也是没有出现服务宕机和假死的情况。

2、nginx排查

通过查看nginx的access日志发现 502报错，执行时间是0.00秒，也就是nginx并没有向server发起请求，二是直接返回前端了，印证了Server和Tomcat并没有问题的思路。

排查nginx的error日志发现 502的时候nginx都是先出现timeout 几次，然后就是no live upstreams while connecting to upstream。

至此，基本确定是nginx的健康检查机制造成的502问题。

三、原因分析

1、nginx原因分析：

nginx的检查机制相关的配置参数说明

问题：两台服务并没有宕机，为什么会no live upstreams

答：nginx默认配置有健康检查机制。nginx做反向代理，如果后端节点服务器宕掉的话，还会有请求转发到后端的这台realserver上面，这样势必造成网站访问故障。并且因为upstream 里面设置了ip_hash。所以导致访问网站时怎么刷新都是有问题的，所以nginx为了避免上述情况，对nginx后方realserver的健康状态进行检查，如果发现后端服务器不可用，则请求不转发到这台服务器。当两台服务都被标记为不可用的时候，请求就不转发到server，而由nginx直接返回502.

问题：服务不可用是如何判定的？

答：nginx有两个参数设置用来判定服务不可用以及不可用时间：fail_timeout 和 max_fails

默认值fail_timeout为10s,max_fails为1次。该参数的意思是：转发给后端服务时，若10s发现后端服务故障1次，则将请求转发给其他节点进行处理，并将服务器标记为故障、在10s时间内不再转发给故障服务器。10s后重试转发给故障服务器，若仍旧不成功则重复刚才的操作；

这也刚好印证了mdata用户出现502的时候，很快又不会再报错502 ，正是因为这个10秒的恢复时间。

问题：服务器标记故障的依据是什么

答: nginx的失败判定其由proxy_next_upstream定义，不过，不管proxy_next_upstream如何配置，error，timeout，invalid_header都将被认为是失败。

根据nginx的日志，mdata本次502问题正是因为链接超时导致的。

问题：超时引起的，那么这个超时是什么超时

答：根据nginx的官网说明，共有三个类型的超时：tcp链接建立超时，读超时，写超时，超时时间配置项分别是：

proxy_connect_timeout ; #nginx服务器与被代理的服务器建立连接的超时时间，默认60秒
proxy_read_timeout ; #nginx服务器想被代理服务器组发出read请求后，等待响应的超时间，默认为60秒。
proxy_send_timeout ; #nginx服务器想被代理服务器组发出write请求后，等待响应的超时间，默认为60秒。

问题：本次502的超时是哪一个呢

答：经过排查，本次502属于读超时，根据nginx的日志可以看到no live upstreams 错误的前几个请求大部分是/getdistinct接口。该接口的作用是从用户配置的视图中查询中维度信息，具体逻辑是select distinct from （用户视图），根据追踪，fsgbi-vip这个库压力比较大，用户的sql属于关联查询，所以很难在60s内返回全表扫描才能获取的数据。所以该接口超时概率较大，尤其是在fsgbi-vip进行数据加工，回溯的时候。具体排除服务的原因，会在tomcat原理分析和Server分析进行说明。