一、背景
线上程序连接mongos超时,mongo监控显示连接数已使用100%。
java程序报错信息:
org.mongodb.driver.connection: Closed connection [connectionId{localValue:1480}] to 192.168.10.16:3717 because there was a socket exception raised by this connection
org.springframework.data.mongodb.UncategorizedMongoDbException: Prematurely reached end of stream; nested exception is com.mongodb.MongoSocketReadException: Prematurely reached end of stream
at org.springframework.data.mongodb.core.MongoExceptionTranslator.translateExceptionIfPossible(MongoExceptionTranslator.java:138)
at org.springframework.data.mongodb.core.MongoTemplate.potentiallyConvertRuntimeException(MongoTemplate.java:2902)
at org.springframework.data.mongodb.core.MongoTemplate.executeFindMultiInternal(MongoTemplate.java:2810)
at org.springframework.data.mongodb.core.MongoTemplate.doFind(MongoTemplate.java:2532)
at org.springframework.data.mongodb.core.MongoTemplate.doFind(MongoTemplate.java:2515)
at org.springframework.data.mongodb.core.MongoTemplate.find(MongoTemplate.java:876)
此时java应用程序的监控指标是,接口超时。
走过的弯路是,怀疑出现了慢查询,数据量剧增的同时没有索引。
所以,前期解决方向着重在优化Mongodb查询速度,增加索引。
但是,接口还是报错,超时;服务健康检测时,还是进入了不健康状态。
而进一步查看Mongodb数据库并没有很慢(超过500毫秒)的慢查询。
再查看Mongodb的内存、CPU、网络流量等指标本身也没有异常,唯独遗漏了连接数指标。
通过本文,希望读者也有同感,连接数指标很重要。
二、连接池配置
- 最小连接数
- 最大连接数
- 连接的空闲时间
- 连接的存活时间
- 等待队列的长度
- 等待可用的超时
参考链接:
mongo connection-string
因为不同语言的Mongo驱动实现不同,本文从java实现看一看其源码。
- 阿里云数据库监控
从上图也可以看到,mongo数据库总共创建的连接数多达1189个,活跃的只有12个。
所以需要配置连接的空闲时间,及时释放连接,才不会导致有效请求无法连接mongodb。
而我们每个mongos能创建的连接数上限是2000,从监控信息可以看出,见下图:
当这里的连接使用率为100%时,程序后面想创建新的mongo连接,就会失败了。
既然知道这些指标重要,所以需要设置报警规则。
- mongos配置及使用
购买的mongos,规格显示是最大3K,最后却只有2K。这是个大坑么?
所以当我们的程序节点越来越多,只好购买多个mongos,截止目前,我们都已买了4个Mongos
在配置spring.data.mongodb.uri的值时,格式如下:
//指定连某个mongos
mongodb://{用户名}:{密码}@{域名信息}:3717/db_name
//配置多个mongos
mongodb://{用户名}:{密码}@{域名信息1}:3717,{域名信息2}:3717,{域名信息3}:3717,{域名信息4}:3717/db_name
三、源码spring.boot.autoconfigure
1、入口类MongoAutoConfiguration.java
见jar包spring.boot.autoconfigure-2.2.4.RELEASE.jar
主要代码:
@Bean
@ConditionalOnMissingBean(type = { "com.mongodb.MongoClient", "com.mongodb.client.MongoClient" })
public MongoClient mongo(MongoProperties properties, ObjectProvider<MongoClientOptions> options,
Environment environment) {
return new MongoClientFactory(properties, environment).createMongoClient(options.getIfAvailable());
}
使用MongoClientFactory工厂模式创建并实例化类MongoClient。
下一步看一看工厂类MongoClientFactory的主要实现。
2、工厂类MongoClientFactory.java
读取MongoProperties配置以及MongoClientOptions配置,前者是通过application.yaml配置,后者是通过uri追加参数的方式。
下面看一看这两个配置类里都有哪些配置项,着重分析是否有针对连接池相关的。
3、MongoProperties.java
这里就不一一贴出来,发现并没有连接池相关的配置。
那么进一步查看com.mongodb.MongoClientOptions.java类有哪些属性。
4、MongoClientOptions.java
可以看到,连接池配置相关参数,是在这个类中。
那么,他们是在什么哪里赋值的呢?
它们跟Mongodb驱动有关,让我们跳到jar包momgo-java-driver-3.11.2.jar
四、源码momgo-java-driver
数据库驱动使用jdni技术,避免了程序与数据库之间的紧耦合,使应用更加易于配置、易于部署。
找到类com.mongodb.client.jndi.MongoClientFactory.java
1、工厂类MongoClientFactory.java
package com.mongodb.client.jndi;
import com.mongodb.MongoClient;
import com.mongodb.MongoClientURI;
import com.mongodb.MongoException;
import com.mongodb.diagnostics.logging.Logger;
import com.mongodb.diagnostics.logging.Loggers;
import java.util.Enumeration;
import java.util.Hashtable;
import javax.naming.Context;
import javax.naming.Name;
import javax.naming.RefAddr;
import javax.naming.Reference;
import javax.naming.spi.ObjectFactory;
public class MongoClientFactory implements ObjectFactory {
private static final Logger LOGGER = Loggers.getLogger("client.jndi");
private static final String CONNECTION_STRING = "connectionString";
public MongoClientFactory() {
}
public Object getObjectInstance(Object obj, Name name, Context nameCtx, Hashtable<?, ?> environment) throws Exception {
String connectionString = null;
if (environment.get("connectionString") instanceof String) {
connectionString = (String)environment.get("connectionString");
}
if (connectionString == null || connectionString.isEmpty()) {
LOGGER.debug(String.format("No '%s' property in environment. Casting 'obj' to java.naming.Reference to look for a javax.naming.RefAddr with type equal to '%s'", "connectionString", "connectionString"));
if (obj instanceof Reference) {
Enumeration props = ((Reference)obj).getAll();
while(props.hasMoreElements()) {
RefAddr addr = (RefAddr)props.nextElement();
if (addr != null && "connectionString".equals(addr.getType()) && addr.getContent() instanceof String) {
connectionString = (String)addr.getContent();
break;
}
}
}
}
if (connectionString != null && !connectionString.isEmpty()) {
MongoClientURI uri = new MongoClientURI(connectionString);
return new MongoClient(uri);
} else {
throw new MongoException(String.format("Could not locate '%s' in either environment or obj", "connectionString"));
}
}
}
这里引入了一个关键类MongoClientURI.java
2、MongoClientURI.java
它有一个属性:ConnectionString对象,也就是说,MongoClientURI是用来解析数据库连接参数。
见关键代码: new ConnectionString(uri)
3、连接参数类com.mongodb.ConnectionString.java
该类的代码行数比较多,首要看的是其构造函数。(写出了从mongo.uri中解析数据库连接池参数的全过程)
spring:
data:
mongodb:
uri: mongodb://192.168.10.16:3717/db_name?maxPoolSize=50
- 构造函数
主要围绕着解析数据库连接相关参数来说明,其他的可以自行看源码。
- 解析配置项 private Map<String, List> parseOptions(String optionsPart)
- 赋值给当前类ConnectionString的属性
private void translateOptions(Map<String, List<String>> optionsMap) {
boolean tlsInsecureSet = false;
boolean tlsAllowInvalidHostnamesSet = false;
Iterator var4 = GENERAL_OPTIONS_KEYS.iterator();
while(var4.hasNext()) {
String key = (String)var4.next();
String value = this.getLastValue(optionsMap, key);
if (value != null) {
if (key.equals("maxpoolsize")) {
this.maxConnectionPoolSize = this.parseInteger(value, "maxpoolsize");
} else if (key.equals("minpoolsize")) {
this.minConnectionPoolSize = this.parseInteger(value, "minpoolsize");
} else if (key.equals("maxidletimems")) {
this.maxConnectionIdleTime = this.parseInteger(value, "maxidletimems");
} else if (key.equals("maxlifetimems")) {
this.maxConnectionLifeTime = this.parseInteger(value, "maxlifetimems");
} else if (key.equals("waitqueuemultiple")) {
this.threadsAllowedToBlockForConnectionMultiplier = this.parseInteger(value, "waitqueuemultiple");
} else if (key.equals("waitqueuetimeoutms")) {
this.maxWaitTime = this.parseInteger(value, "waitqueuetimeoutms");
} else if (key.equals("connecttimeoutms")) {
this.connectTimeout = this.parseInteger(value, "connecttimeoutms");
} else if (key.equals("sockettimeoutms")) {
this.socketTimeout = this.parseInteger(value, "sockettimeoutms");
} else if (key.equals("tlsallowinvalidhostnames")) {
this.sslInvalidHostnameAllowed = this.parseBoolean(value, "tlsAllowInvalidHostnames");
tlsAllowInvalidHostnamesSet = true;
} else if (key.equals("sslinvalidhostnameallowed")) {
this.sslInvalidHostnameAllowed = this.parseBoolean(value, "sslinvalidhostnameallowed");
tlsAllowInvalidHostnamesSet = true;
} else if (key.equals("tlsinsecure")) {
this.sslInvalidHostnameAllowed = this.parseBoolean(value, "tlsinsecure");
tlsInsecureSet = true;
} else if (key.equals("ssl")) {
this.initializeSslEnabled("ssl", value);
} else if (key.equals("tls")) {
this.initializeSslEnabled("tls", value);
} else if (key.equals("streamtype")) {
this.streamType = value;
LOGGER.warn("The streamType query parameter is deprecated and support for it will be removed in the next major release.");
} else if (key.equals("replicaset")) {
this.requiredReplicaSetName = value;
} else if (key.equals("readconcernlevel")) {
this.readConcern = new ReadConcern(ReadConcernLevel.fromString(value));
} else if (key.equals("serverselectiontimeoutms")) {
this.serverSelectionTimeout = this.parseInteger(value, "serverselectiontimeoutms");
} else if (key.equals("localthresholdms")) {
this.localThreshold = this.parseInteger(value, "localthresholdms");
} else if (key.equals("heartbeatfrequencyms")) {
this.heartbeatFrequency = this.parseInteger(value, "heartbeatfrequencyms");
} else if (key.equals("appname")) {
this.applicationName = value;
} else if (key.equals("retrywrites")) {
this.retryWrites = this.parseBoolean(value, "retrywrites");
} else if (key.equals("retryreads")) {
this.retryReads = this.parseBoolean(value, "retryreads");
}
}
}
if (tlsInsecureSet && tlsAllowInvalidHostnamesSet) {
throw new IllegalArgumentException("tlsAllowInvalidHostnames or sslInvalidHostnameAllowed set along with tlsInsecure is not allowed");
} else {
this.writeConcern = this.createWriteConcern(optionsMap);
this.readPreference = this.createReadPreference(optionsMap);
this.compressorList = this.createCompressors(optionsMap);
}
}
这个方法揭示了mongodb驱动所支持的全部参数,而且它读取的key字符都是小写字母。
而我们在实际配置mongodb.uri连接参数的时候,一般都会采用驼峰格式。
这是因为在方法parseOptions()解析的时候,强制把所有的key都转换为小写了。
五、参数的默认值
至此,我们已知道了mongodb连接支持哪些参数,但是,当缺省未配置时,它们的默认值分别是多少呢?
这就得看另一个jar包mongodb-driver-core-3.11.2.jar, package为com.mongodb.connection下,有一个类ConnectionPoolSettings采用builder构造模式,可以看到,在构建对象的时候有进行默认赋值。
所以,如果你没有对属性maxConnectionIdleTimeMS进行设置,默认是0,不会释放空闲连接。
前面4个属性都可以不管,属性maxConnectionIdleTimeMS是一定要设置的。
否则不活跃的连接都一直占据着mongo的连接,随着服务节点增多,就会影响到所有依赖Mongo集群的服务。
体现出来的报错就是连接超时,你还以为是服务的qps过高导致服务挂了呢。
而mongodb的慢查询又没有,服务的qps很低的时候,仍旧报连接mongo超时错误。(真的是要怀疑人生)
使出重启大法,服务也无法健康。
如果你想对节点扩容,那就离曙光越来越远了。
文末,我这里给出Mongo连接池相关的参数:
spring:
data:
mongodb:
uri: mongodb://192.168.10.16:3717/db_name?maxPoolSize=50&minPoolSize=10&maxIdleTimeMS=60000
六、总结
本文的内容比较长,既描述了阿里云对mongodb数据库的监控(着重是连接数指标),以及Mongos的使用及购买的坑,也从Java语言的 Mongo驱动程序作为切入点,分析并总结了支持哪些数据库连接池的配置项。
本案例是基于生产实际中遇到的一个棘手问题,希望可以帮助到你。
通过本文,让我们对连接数这个指标有更深的体会,它是一个很冷的指标,却非常致命。
说它致命,是说我们在遇到程序报错的时候,极容易陷入平常思维,以为是有慢查询,或者程序QPS过高导致程序挂了。
当你想去扩容程序的节点数,或者创建数据库索引的时候,服务不健康的问题并不能得到丝毫解决。
当没有找到问题的根本时,就像一个病人感冒去看医生,结果CT和心电图等一大推检查,只会起到拖延的作用。