生产慎用之调试日志对空间矢量数据批量插入的性能影响-以MybatisPlus为例

news2025/1/10 17:54:43

目录

前言

一、一些缘由

1、性能分析

二、插入方式调整

1、批量插入的实现

2、MP的批量插入实现

3、日志的配置

三、默认处理方式

1、基础程序代码

2、执行情况

四、提升调试日志等级

1、在logback中进行设置

2、提升后的效果

五、总结


前言

        在现代软件开发中,性能优化是一个永恒的话题,尤其是在处理大规模数据时,如何提升数据库操作的效率成为了一个关键问题。在数据库操作中,批量插入空间矢量数据是一个常见的需求,尤其是在地理信息系统(GIS)和空间数据分析领域。调试日志是软件开发中不可或缺的工具,它帮助开发者追踪程序的运行状态,定位问题和异常。然而,日志记录本身是一个资源密集型的操作,尤其是在生产环境中,过多的日志记录可能会对性能产生负面影响。对于空间矢量数据的批量插入操作,这种影响尤为明显,因为这类操作通常涉及大量的I/O操作和数据库交互。

        尽管调试日志对于开发和问题排查至关重要,但在生产环境中,它们可能会成为性能瓶颈。每次日志记录都会涉及到I/O操作,这会占用CPU时间和磁盘I/O资源。在批量插入空间矢量数据时,如果日志记录过于频繁,可能会导致以下问题:

  1. 降低I/O效率:日志记录会占用磁盘I/O资源,这可能会与数据库操作竞争资源,导致整体性能下降。
  2. 增加延迟:日志记录可能会引入额外的延迟,尤其是在高并发情况下,这会直接影响到批量插入操作的响应时间。
  3. 资源竞争:日志记录和数据库操作可能会竞争有限的系统资源,如CPU和内存,这可能会导致性能瓶颈。

        调试日志是一把双刃剑,它在帮助开发者解决问题的同时,也可能对生产环境的性能产生影响。在处理空间矢量数据的批量插入时,合理控制和优化日志记录是提升性能的关键。本文通过在MybatisPlus中调整插入SQL的输出对比前后的耗时与内存的占用,最大限度地减少对性能的负面影响。本文将深入探讨这些策略的具体实现和最佳实践,以期为Java开发者提供实用的指导和建议。

一、一些缘由

        其实在日常工作当中,空间矢量数据的数据量都是非常大。不仅是范围大,属性数据也尤其多,不仅属性列多,而且数据行数也可能非常多。那么我们在使用ORM框架在操作这些数据的时候,在进行空间数据入库的时候尤其需要注意性能的影响。有一些程序需要追求高性能,尤其是一些需要快速计算的场景,用户需要尽快的将数据入库,好开展后续的业务。

        之前有一个朋友给发了私信,说他们在处理线上的生产数据时,数据的规模大约是几十W的规模。在使用GeoTools读取Shapefile后,然后调用Mybatis-Plus来进行数据入库。它的整体性能不高,耗时比较久,然后就找到博主聊了一下。原始聊天截图就不放出来了。分享其中遇到的一些问题:

        1、这位朋友在进行批量数据入库的时候,使用循环来进行调用,没有使用批量操作。

        2、系统的日志级别开的比较低,为了方便监控程序,系统的日志级别在生产环境上也是Debug。

        3、服务器在空间数据库入库时,内存占用较高。

1、性能分析

        在了解了一些程序的执行细节之后,我也做了一个对照实验。实验的主要目的是对比应用程序中调试日志的输出对性能影响 ,主要方法就是在程序执行时打开和关闭系统日志,通过观察打开前后的应用程序执行消耗时间和使用Java VisualVM监控的CPU和内存消耗情况来对比。

二、插入方式调整

        为了首先将应用程序的插入调整到一个比较好的执行状态,我们先把原来的循环插入的方式进行了修改,改成批量插入的形式。因此这里有必要对批量插入的具体实现进行一个简单的介绍。

1、批量插入的实现

        在我们的代码中,使用的ORM框架是Mybatis-Plus,熟悉这个框架的小伙伴们一定知道。在MP中除了有单个插入的方法,还提供了一个批量插入的实现。因此,如果您是使用了MP这种的增强框架,那么改造起来还是比较快的,否则就需要大家自己去实现批量插入的方法。在MP中需要调用service提供的saveBatch(List,Size)即可。在在我的示例代码中,实现批量插入的关键代码如下所示:

Long s3 = System.currentTimeMillis();
if(dataList.size() >0) {
	placeService.saveBatch(dataList, 600);
}
Long e3 = System.currentTimeMillis();
System.out.println("空间入库耗时::"+ (e3 - s3) + "毫秒");

2、MP的批量插入实现

        上一节中对Mp的批量插入的方法进行了调用,这里我们依然对saveBatch方法进行简单的介绍,好让大家对saveBatch有一个直观的印象。我们可以打开ServiceImpl的实现类中的以下代码:

/**
 * 批量插入
 * @param entityList ignore
 * @param batchSize  ignore
 * @return ignore
 */
 @Transactional(rollbackFor = Exception.class)
 @Override
 public boolean saveBatch(Collection<T> entityList, int batchSize) {
     String sqlStatement = getSqlStatement(SqlMethod.INSERT_ONE);
     return executeBatch(entityList, batchSize, (sqlSession, entity) -> sqlSession.insert(sqlStatement, entity));
 }

        这里的方法表示首先获取sql的Statement对象,然后调用批量执行的方法。被调用的方法如下:

/**
 * 执行批量操作
 *
 * @param entityClass 实体类
 * @param log         日志对象
 * @param list        数据集合
 * @param batchSize   批次大小
 * @param consumer    consumer
 * @param <E>         T
 * @return 操作结果
 * @since 3.4.0
 */
public static <E> boolean executeBatch(Class<?> entityClass, Log log, Collection<E> list, int batchSize, BiConsumer<SqlSession, E> consumer) {
        Assert.isFalse(batchSize < 1, "batchSize must not be less than one");
        return !CollectionUtils.isEmpty(list) && executeBatch(entityClass, log, sqlSession -> {
            int size = list.size();
            int idxLimit = Math.min(batchSize, size);
            int i = 1;
            for (E element : list) {
                consumer.accept(sqlSession, element);
                if (i == idxLimit) {
                    sqlSession.flushStatements();
                    idxLimit = Math.min(idxLimit + batchSize, size);
                }
                i++;
            }
     });
}

        来看一下insert方法的处理逻辑,最终的执行update的方法如下:

@Override
public int doUpdate(MappedStatement ms, Object parameterObject) throws SQLException {
    final Configuration configuration = ms.getConfiguration();
    final StatementHandler handler = configuration.newStatementHandler(this, ms, parameterObject, RowBounds.DEFAULT, null, null);
    final BoundSql boundSql = handler.getBoundSql();
    final String sql = boundSql.getSql();
    final Statement stmt;
    if (sql.equals(currentSql) && ms.equals(currentStatement)) {
      int last = statementList.size() - 1;
      stmt = statementList.get(last);
      applyTransactionTimeout(stmt);
      handler.parameterize(stmt);// fix Issues 322
      BatchResult batchResult = batchResultList.get(last);
      batchResult.addParameterObject(parameterObject);
    } else {
      Connection connection = getConnection(ms.getStatementLog());
      stmt = handler.prepare(connection, transaction.getTimeout());
      handler.parameterize(stmt);    // fix Issues 322
      currentSql = sql;
      currentStatement = ms;
      statementList.add(stmt);
      batchResultList.add(new BatchResult(ms, sql, parameterObject));
    }
    handler.batch(stmt);
    return BATCH_UPDATE_RETURN_VALUE;
 }

        当然大家在使用这个类的时候还是非常方便的,只要调用相应的方法即可实现分批导入。

3、日志的配置

        在实例的应用开发过程中,日志的输出与管理,我们使用Logback组件。在最开始的时候,在对比实验中,首先我们采用默认的方式,即对应的ORM处理组件中的日志级别使用默认方法。具体如何在Logback中进行日志的设置,请大家结合互联网相关资料进行查询,这些都是比较成熟的。

三、默认处理方式

        对比实验的第一种实现方法就是采用默认的方法,即使用默认的日志级别。但是在最开始时,我们还是给出测试的代码的全部。如果您也感兴趣,可以替换相应的文件来进行验证这个过程。测试结果可能随着数据量的不同,数据属性字段的不同而有所不同。

1、基础程序代码

        为了还原网友提出的问题,也能尽快的找到原因。我们这里就以之前的全球主要城市为例,重点讲解如何进行数据的处理和融合,以及最终如何进入到数据库中。实例代码如下:

@Test
/**
 * 
 * @throws Exception
 */
public void shp2PostGIS() throws Exception {
	Long startTime = System.currentTimeMillis();
	File file = new File(SHP_FILE);
	if (!file.exists()) {
		System.out.println("文件不存在");
	}
	ShapefileDataStore store = new ShapefileDataStore(file.toURI().toURL());
	store.setCharset(Charset.defaultCharset());// 设置中文字符编码
	// 获取特征类型
	SimpleFeatureType featureType = store.getSchema(store.getTypeNames()[0]);
	CoordinateReferenceSystem crs = featureType.getGeometryDescriptor().getCoordinateReferenceSystem();
	Integer epsgCode = CRS.lookupEpsgCode(crs, true);
	List<HashMap<String, Object>> mapList = new ArrayList<HashMap<String,Object>>();
	ModelMapper modelMapper = new ModelMapper();
	//设置忽略字段
	PropertyMap<HashMap<String,Object>, Ne10mPopulatedPlaces> propertyMap = new PropertyMap<HashMap<String,Object>, Ne10mPopulatedPlaces>() {
		 protected void configure() {
		     skip(destination.getPkId());
		}
	};
	modelMapper.addMappings(propertyMap);
	//忽略大小写
	modelMapper.getConfiguration().setMatchingStrategy(MatchingStrategies.STRICT);
	// 设置命名约定,将下划线转换为驼峰
	modelMapper.getConfiguration().setSourceNameTokenizer(NameTokenizers.UNDERSCORE)
	.setDestinationNameTokenizer(NameTokenizers.CAMEL_CASE);
	//设置忽略模式
	modelMapper.getConfiguration().setSkipNullEnabled(true);
	Long s1 = System.currentTimeMillis();
	List<Ne10mPopulatedPlaces> dataList = new ArrayList<Ne10mPopulatedPlaces>();
	SimpleFeatureSource featureSource = store.getFeatureSource();
	// 执行查询
	SimpleFeatureCollection simpleFeatureCollection = featureSource.getFeatures();
	SimpleFeatureIterator itertor = simpleFeatureCollection.features();
	// 遍历featurecollection
	while (itertor.hasNext()) {
		HashMap<String, Object> map = new HashMap<String, Object>();
		SimpleFeature feature = itertor.next();
		Collection<Property> p = feature.getProperties();
		Iterator<Property> it = p.iterator();
		// 遍历feature的properties
		while (it.hasNext()) {
			Property pro = it.next();
			if (null != pro && null != pro.getValue()) {
				String field = pro.getName().toString();
				String value = pro.getValue().toString();
				map.put(field, value);
			}
		}
		// 获取空间字段
        org.locationtech.jts.geom.Geometry geometry = (org.locationtech.jts.geom.Geometry) feature.getDefaultGeometry();
        // 创建WKTWriter对象
        WKTWriter wktWriter = new WKTWriter();
        // 将Geometry对象转换为WKT格式的字符串
        String wkt = wktWriter.write(geometry);
        String geom = "SRID=" + epsgCode +";" + wkt;//拼接srid,实现动态写入
        map.put("geom", geom);
        mapList.add(map);
	}
	Long e1 = System.currentTimeMillis();
	System.out.println("解析shp:"+ (e1 - s1) + "毫秒");
	Long s2 = System.currentTimeMillis();
	for(HashMap<String, Object> map : mapList) {
		Ne10mPopulatedPlaces places = modelMapper.map(map, Ne10mPopulatedPlaces.class);
		dataList.add(places);
	}
	Long e2 = System.currentTimeMillis();
	System.out.println("转化shp:"+ (e2 - s2) + "毫秒");
	store.dispose();
	System.out.println(dataList.size());
	Long endTime = System.currentTimeMillis();
	Long time = endTime - startTime;
	System.out.println("程序运行耗时:"+ time + "毫秒");
	Long s3 = System.currentTimeMillis();
	if(dataList.size() >0) {
		placeService.saveBatch(dataList, 600);
	}
	Long e3 = System.currentTimeMillis();
	System.out.println("空间入库耗时::"+ (e3 - s3) + "毫秒");
}

        在不关闭执行SQL日志的情况,我们来看一下它的相关性能指标。

2、执行情况

        在默认情况下,这段程序在执行过程中会输出大量的调试日志,如下图所示:

        在我们的控制台中有许多的插入日志,同时可以看到,整个空间数据入库的时间为29512毫秒,即将近30秒。除了时间的消耗,我们再来看一内存方面的消耗。

        可以很直观的看到,在进行大量的日志输出时,内存的使用量还是比较大,同时根据不同的批次呈现一个比较有规律的上升和下降,而最大的内存使用接近1000MB左右。 接下来,我们再来看一下关闭日志输出后的效果。

四、提升调试日志等级

        为了实现在运行时将这个插入SQL的日式调试等级,我们在Logback中进行相应的配置。以此来验证在提升SQL调试日志的等级后,这个批量插入的方法是不是有一个性能的提升。

1、在logback中进行设置

        在系统中,我们采用logback来进行日志的配置,因此我们首先需要在logback中进行相应的设置。将日志的级别从debug提升到error,只有在发生错误的时候才进行输出。设置的关键代码如下所示:

<!--  Ne10mPopulatedPlacesMapper 关闭调试日志 add by 夜郎king in 2024-11-26  -->
<logger name="com.yelang.project.extend.earthquake.mapper.Ne10mPopulatedPlacesMapper" level="error"/>

请注意,这里的com.yelang.project.extend.earthquake.mapper.Ne10mPopulatedPlacesMapper标识我们需要关闭的ORM类的全名。我们将他的日志级别提升到了error。

2、提升后的效果

        在将输出日志关闭之后,在控制台中首先就没有了sql的调试日志,说明配置成功。

        可以看到控制台很干净,调试的SQL日志已经被清理掉。同时注意耗时情况,变成了7046,也就是7秒的时间就完成了处理。在来后台看一下是不是真的处理成功。在数据库进行相应的数据查询。

        可以看到,数据的总条数也是7342条。因此可以判断,关闭sql调试日志后,对时间的消耗降低了很多,从30秒优化到了7秒, 大概提升76%;再来看一下内存的占用情况。

        相对于默认的处理情况而言,提升了日志等级的处理方式,其内存占用更加平稳,波动小。同时最大的内存占用在700MB左右,更多是500MB以下。从侧面也说明了优化的效果。

五、总结

         以上就是本文的主要内容,本文通过在MybatisPlus中调整插入SQL的输出对比前后的耗时与内存的占用,最大限度地减少对性能的负面影响。文章通过对照实验,对比了开启调试日志和关闭调试日志后的数据插入性能,从对比实验结果可以看到。关闭调试日志后,我们的应用程序耗时更短,同时内存的占用也更低。如果在生产环境中进行使用,尤其是新手同志,为了观察参数就留下了很多调试信息,这样反而加大了系统的负担。所以要请大家一定综合理性的评估,关闭不必要的调试日志,让应用程序的性能最大。行文仓库,定有许多不足之处,如有不足,在此恳请各位专家在评论区批评指出,不胜感激。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2255019.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【人工智能】深度解剖利用人工智能MSA模型

目录 情感分析的应用一、概述二、研究背景三、主要贡献四、模型结构和代码五、数据集介绍六、性能展示七、复现过程 情感分析的应用 近年来社交媒体的空前发展以及配备高质量摄像头的智能手机的出现&#xff0c;我们见证了多模态数据的爆炸性增长&#xff0c;如电影、短视频等…

MongoDB性能监控工具

mongostat mongostat是MongoDB自带的监控工具&#xff0c;其可以提供数据库节点或者整个集群当前的状态视图。该功能的设计非常类似于Linux系统中的vmstat命令&#xff0c;可以呈现出实时的状态变化。不同的是&#xff0c;mongostat所监视的对象是数据库进程。mongostat常用于…

Scratch教学作品 | 中国诗词大会——闯关擂台,品味诗词之美! ✨

&#x1f393; Scratch教学作品 | 中国诗词大会——闯关擂台&#xff0c;品味诗词之美&#xff01; &#x1f4dc;✨ 今天给大家推荐一款结合文化与挑战的Scratch作品——《中国诗词大会》&#xff01;由zhouyq制作&#xff0c;这款游戏让你置身诗词的世界&#xff0c;通过闯关…

安全关系型数据库查询新选择:Rust 语言的 rust-query 库深度解析

在当今这个数据驱动的时代&#xff0c;数据库作为信息存储和检索的核心组件&#xff0c;其重要性不言而喻。然而&#xff0c;对于开发者而言&#xff0c;如何在保证数据安全的前提下&#xff0c;高效地进行数据库操作却是一项挑战。传统的 SQL 查询虽然强大&#xff0c;但存在诸…

微信小程序里的小游戏研发需要什么技术栈

研发小程序里的小游戏通常需要以下技术栈&#xff1a; 前端技术 HTML5 / CSS3&#xff1a;用于构建游戏的界面布局和样式。JavaScript&#xff1a;作为核心编程语言&#xff0c;实现游戏的逻辑和交互。小程序开发框架&#xff1a;如微信小程序的开发框架&#xff0c;了解其 API…

Install PyTorch (安装 PyTorch)

Install PyTorch {安装 PyTorch} 1. Install PyTorch1.1. Previous PyTorch Versions1.2. Latest PyTorch1.3. 查看 PyTorch 的版本 References 1. Install PyTorch https://pytorch.org/ Select your preferences and run the install command. Stable represents the most …

第二篇:k8s工作流程

我们来看通过deployment部署pod的常规流程&#xff1a; kubectl向apiserver发送部署请求&#xff08;例如使用 kubectl create -f deployment.yml&#xff09;apiserver将 Deployment 持久化到etcd&#xff1b;etcd与apiserver进行一次http通信。controller manager通过watch a…

智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧(16 - 1)

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

第五节、电机多段运动【51单片机-TB6600驱动器-步进电机教程】

摘要&#xff1a;本节介绍用控制步进电机三个主要参数角度、速度、方向&#xff0c;实现简单的步进电机多段控制 一、目标功能 输入多个目标角度&#xff0c;设定好步进电机速度&#xff0c;实现步进电机多段转动 二、计算过程 2.1 速度计算 根据第三节内容&#xff0c;定时器…

C++(九)

前言&#xff1a; 本文主要讲述运算符的优先顺序。 一&#xff0c;运算符的优先级。 请看以下表达式&#xff1a; a32*5 运算结果为&#xff1a;13. 可以看到&#xff0c;在此代码中&#xff0c;先运行了2*5的结果&#xff0c;在此基础上在进行3操作&#xff0c;因此结果…

志愿服务管理系统设计与实现

私信我获取源码和万字论文&#xff0c;制作不易&#xff0c;感谢点赞支持。 摘 要 传统办法管理信息首先需要花费的时间比较多&#xff0c;其次数据出错率比较高&#xff0c;而且对错误的数据进行更改也比较困难&#xff0c;最后&#xff0c;检索数据费事费力。因此&#xff0…

dbeaver安装

数据库常用的管理工具就是navicat&#xff0c;页面简洁大方&#xff0c;且易上手&#xff0c;唯一不好的就是要收费&#xff0c;个人使用的话可以用dbeaver&#xff0c;一款开源的数据库管理工具。 下载地址&#xff1a;https://dbeaver.io/download/ 直接下载这个windows(inst…

Odoo :一款免费且开源的食品生鲜领域ERP管理系统

文 / 贝思纳斯 Odoo金牌合作伙伴 引言 提供业财人资税的精益化管理&#xff0c;实现研产供销的融通、食品安全的追踪与溯源&#xff0c;达成渠道的扁平化以及直面消费者的 D2C 等数字化解决方案&#xff0c;以此提升运营效率与核心竞争力&#xff0c;支撑高质量的变速扩张。…

【AIGC半月报】AIGC大模型启元:2024.12(上)

【AIGC半月报】AIGC大模型启元&#xff1a;2024.12&#xff08;上&#xff09; &#xff08;1&#xff09;OpenAI-12日发布会&#xff08;持续更新中........&#xff09;Day01-12.06&#xff1a;o1满血版上线&#xff08;已发布&#xff09;Day02-12.07&#xff1a;强化微调&a…

Mysql学习-Mysql查询(1)

1.基本查询&#xff08;SELECT&#xff09; SELECT语句基本格式&#xff1a; SELECT {*|<字段列表>} [ FROM<表1>&#xff0c;<表2>.. [WHERE <表达式> [GROUP BY<group by definition>] [HAVING <expression>[{<operator><exp…

OpenCV-平滑图像

二维卷积(图像滤波) 与一维信号一样&#xff0c;图像也可以通过各种低通滤波器&#xff08;LPF&#xff09;、高通滤波器&#xff08;HPF&#xff09;等进行过滤。LPF 有助于消除噪音、模糊图像等。HPF 滤波器有助于在图像中找到边缘。 opencv 提供了函数 **cv.filter2D()**&…

WPS解决Word文件引入excel对象文件无法打开提示“不能启动此对象...”的问题

一、问题现象 接收到了一份 Word文件&#xff0c;里面引入了一个Excel对象文件&#xff0c;双击时候&#xff0c;wps出现卡顿&#xff0c;过一会之后弹出错误提示&#xff1a;不能启动此对象... 二、解决方法 1.点击WPS左上角图标&#xff0c;并打开右上角设置&#xff0c;萱蕚…

做异端中的异端 -- Emacs裸奔之路6: 不可能存在的跳转功能

当一个问题存在两难时&#xff0c;市面上就不太可能出现稳定的&#xff0c;大众化的解决方案。 这很多是一个哲学问题 两害权衡&#xff0c; 存在很强的个性差异. 这种问题需要自己解决&#xff0c; 这个就是为什么要使用Emacs或者Vim的原因。 今天分享的一个想法&#xff0…

【Linux】ubuntu下一键配置vim

&#x1f525;个人主页&#x1f525;&#xff1a;孤寂大仙V &#x1f308;收录专栏&#x1f308;&#xff1a;Linux &#x1f339;往期回顾&#x1f339;&#xff1a;Linux权限&#xff08;超详细彻底搞懂Linux的权限&#xff09; &#x1f516;流水不争&#xff0c;争的是滔滔…

华为的USG6000为什么不能ping通

前言&#xff1a; 防火墙usg6000v的镜像 链接: https://pan.baidu.com/s/1uLRk0-hnHRTLYLx1Pnplow?pwdtymp 提取码: tymp 看了好多毒文章&#xff0c;感觉写作业更有意思&#xff0c;可以了解新的知识 内容&#xff1a; 首先看毒文章是这样说的&#xff0c;华为的防火墙是…