分析背景
某医院为了加强信息安全管理,防止病人隐私信息泄露,采用部署“零信任”安全架构设计理念的企业移动安全支撑平台方案。
但在部署前期测试时,遇到了严重的性能问题。
在本次测试环境中,通过PAD访问患者转运业务,每次业务操作响应速度特别慢(有时会超过10分钟),完全超出使用人员的忍受范围。
本分析报告针对该问题进行分析。
网络与应用架构
以下是本次测试业务的逻辑结构图如下。
操作人员通过PAD访问对公互联网地址;
对公地址再访问EMM网关服务器;
EMM网关服务器转发操作人员的请求到H5系统;
业务数据再按照上述顺序原路返回。
NetInside流量分析系统采集位置
医院信息中心已部署NetInside流量分析系统。
分析系统部署在内网,可以实时监测、分析和存储内网的应用流量。
在上述场景中,流量分析系统可以看到如下位置的流量。
应用信息梳理和收集
在进行故障分析前,先通过流量分析系统查看到可采集范围内,相关节点或服务器的访问关系。
PAD与公网地址的访问
从系统看到,PAD与公网地址之间,有2个端口传输了流量,分别是8002和5443。
EMM网关和H5系统的访问
从系统分析看到,EMM网关和H5系统之间,存在多个端口的访问。
EMM厂商提供的信息
根据EMM厂商提供的信息,EMM网关和H5系统之间访问是通过TCP 85端口通信,并给出了配置信息,如下图。
在NetInside流量分析系统看到TCP 85的通信。
此外,EMM厂商提供一个关键的信息,EMM网关与H5系统之间数据交互,总是晚一分钟。
详细分析过程
在收集到上述信息后,直接通过读取NetInside系统中采集的关于EMM网关和H5系统的数据进行分析。
下图是过滤EMM网关和H5系统在某段时间的流量信息。
对EMM网关和H5系统之间任意一个正常连接访问分析,在同一个连接中,发现如下行为,EMM网关对H5系统的数据发送中,存在60秒左右的时间间隔现象。
Frame 26与106之间,存在60秒间隔。
Frame 118与195之间,存在60秒间隔。
如下图。
H5系统对每一次请求的响应时间,都相对正常。
如上图中的2次请求中,
第一次服务器网络时间约为10毫秒,应用响应时间为142毫秒;
第二次服务器网络时间约为250毫秒,应用响应时间为16毫秒.
进一步,对间隔60秒后,EMM网关的发送内容进行分析,发现是正常的业务post请求,如下图。
通过对上述单一连接统计,这个连接中一共存在11个post请求,即某一个业务操作中(可能是一个点击),客户端向服务器提交了11个post请求,但在网络传输中,看到的现象则是,这11个请求在EMM网关转发过程中,每隔60秒发送一个post请求,而并不是连续发出。
这也解释了EMM厂商人员提及的晚1分钟和客户端感受特别慢的原因。
结论及建议
从上述分析看到,EMM网关并没有连续发送客户端的请求到H5服务器,是本次故障的根本原因。
为什么会出现这种现象,以及哪些可能性会导致此类问题发送,建议如下:
1、优先检查EMM网关和H5系统之间是否存在应用层控制系统或安全设备,如果有,跳过后继续测试;
2、在EMM网关中抓包分析,如果在EMM网关连接H5系统的网口看到相同信息,建议将该问题现象移交开发人员予以支持。