PostgreSQL 数据库归档最近被问及的问题问题 与 4 毋 处世学

news2024/11/26 17:39:48

9c2eb50c91e2d3aba4064337e38168b2.png

开头还是介绍一下群,如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, Oceanbase, Sql Server等有问题,有需求都可以加群群内,可以解决你的问题。加群请联系 liuaustin3 ,(共1790人左右 1 + 2 + 3 + 4 +5) 4群(300+ 到350将关闭自由申请),另欢迎 OpenGauss 的技术人员加入。

在开始文章前,本人应邀参加12月28日的一场分享活动,这里做做广告。

0c631832641a9a9dd60077f92729d854.png

还是老规矩,技术加生活,先说技术,后说生活的感悟和人生的学习。

在PostgreSQL 中很少被提及的一个问题,归档,而这里经常有人问这个问题,所以需要写一期来说说关于ARCHIVE 的问题。

首先我们需要提出几个问题,

1 为什么要归档,PG中归档了什么

2  什么时间进行归档,归档的原理与频率

3  要怎么在PG中进行归档,归档的方式

在开始研究我们的archive 的问题时我们需要先把archive的知识拉平

首先在pg_wal目录中的日志本身,至少会维护一个当前正在写入的文件,日志中记录了操作中对于数据库的全部更改项,这里需要注意在 archive关闭的状态下,他会将不再使用WAL文件重命名来和重新利用数据库

问题1 ,在PG中WAL日志作为数据库中最核心的日志与保障数据库数据安全的方法,在运行中会产生大量的WAL日志,这里其中包含FULLPAGE  导致的WAL 过大的问题,一般来讲我们认为日志本身的内容占据WAL的数据的内容的30%,而FULL PAGE 的部分占据70%左右的数据,所以PG的WAL归档是一个必须的操作,即时的解决你的磁盘空间重复利用的问题。

在归档中,有一个问题,关于如何触发 archive,这里主要有几点

1   当前的 wal 被写满,并且产生了新的wal文件

2  手动通过pg_switch_wal 来进行数据库的产生新的PG_WAL 文件并且在产生新的PG_WAL 文件后,会对老的WAL 文件产生归档的触发条件。

3  自动设置超时时间archive_timeout 参数并reload 后,到时间会强行进行产生 pg_wal的工作,并且对数据的wal 进行归档。

所有产生数据归档的触发点很多,总结一点产生wal  文件的时候就会触发归档命令。

这里还有一些细节

1 归档如果失败,则归档会持续的被触发,错误日志中会记录归档失败的信息。

2  归档中因为某些原因可以设置, wal_keep_size来解决一些关于日志被归档后,但日志在物理复制中还未被应用而导致的复制中断的问题。

postgres=# show wal_keep_size;

 wal_keep_size 

---------------

 0

(1 row)

3 基于归档的的方式方法,postgresql给出的是一个开放性的方案,在这样的方案中,数据库并没有设定具体怎么去归档,这里比如有传统的方案,S3方案,或者脚本的方案等等,所以归档这个事情是需要自行进行设计和根据自己的情况来进行安排的。

86cbdbbeec4656d6b51675f5a854cb8b.png

4  在归档中,会出现一些问题,比如数据库恢复后,在进行归档发现归档文件中已经有这个文件了,那么归档必然失败,所以需要手动处理一下,将重复的文件进行清理,然后就可以正常归档了。

5  archive timeout 不要设置的太短,太短会强制产生PG-WAL 文件这些文件都会被填充值,造成PG_WAL膨胀的厉害。

通过命令可以查看当前正在使用的日志文件

SELECT pg_walfile_name(pg_current_wal_lsn());

test=# SELECT pg_walfile_name(pg_current_wal_lsn());
     pg_walfile_name      
--------------------------
 000000010000000000000003
(1 row)

这里PG通过pg_wal/archive_status 来进行数据的归档判断,并且归档进程每60秒进行一次尝试工作,调用pgarch_archivercopyloop() 来处理每个等待处理的WAL 段,通过archive_command 来进行数据的归档的处理

但归档的问题主要出在一个部分,就是归档中如何判断要进行下一个文件的归档,这里是通过archive_status 来进行判断的,但这里的问题是,每次需要对文件夹里面的文件进行一个遍历如果这里面的文件很多的情况下,会阻碍归档文件流程中的性能。

这里PG15对这个问题进行了梳理和解决,他们根据将文件名保存到数组的放方式来进行判断下一个需要进行归档的文件是那个。

其中的流程是

扫描 archive_status 目录,然后将需要进行归档的日志放到一个数组中,并且将信息提供给archive_command命令或模块,这样减少在目录中扫描的的数量,但仍会发生目录扫描,并存在相关的O(n^2)复杂度。

 通过这项改进,在社区的测试报告中,提到在这项上面提高了20多倍的性能。

写到这里并没有完,实际上我们在数据归档后还需要对归档后的文件进行清理,大多数的情况下,清理归档文件是通过手动,通过归档文件的日期来进行清理,利用磁盘空间和存储有效的数据归档文件。

在一些场合下,比如你没有使用一些高级的备份软件的情况下,你的数据归档最后的清理和留存可能会需要 pg_archivecleanup 命令来进行清理,pg_archivecleanup 本身没是一个非常小的,独立的单个文件,不需要利用postgresql 服务器,源代码400行,他的功能主要有以下函数来完成

initialize , TrimExtension, CleanupPriorWALFile, 

SetWALFileNameForCleanup

初始化是在数据库中调用函数并检测程序初始化中的对象是否是一个文件夹,如果不是则直接报错,同时TrimExtension是将该函数目录的每个文件的后缀都去掉,方便进行以主名来进行数据的清理, CleanupPriorWalFile 函数通过获得对应的wal 的文件名来将进行比较,比当前文件在早的文件都会被清理,这里通过setWalFileNameForCleanup 来进行数据的名的获取。

如果希望pg_archivecleanup 独立工作,可以通过如下的命令来设置,但这里首先需要获得正确的archivelocation的目录。

archive_cleanup_command = 'pg_archivecleanup archivelocation %r'

参考文章:

https://www.percona.com/blog/speed-up-of-the-wal-archiving-in-postgresql-15/

————————————————————————————

最近一直在除了持续学习数据库技术外,提高自己的认知的维度,4毋是最近和冯老师学到的,毋意,毋必,毋固, 毋我

1 毋意: 不要臆想,不要你认为,你觉得,你习惯,你不是事情的核心,庄子:且夫水之积也不厚,则其负大舟也无力,如果你做事,看书,经历不够广,那么你做的事情不能保证大概率在当时当下是对的。

2 毋必:  没有什么是绝对的,包含名人名言,要时刻保持清晰的思考,判断,认知是有局限的。

3 毋固: 没有什么事情是不能进行转换变通的,不要故步自封,不要过早的下结论,对事情在一开始就存在固有的开发和定义,不与时俱进,并同步最新的知识。

4 毋我: 做事不要以自己为中心,要以事情为中心,如何将事情完成好,是关键,而不是把自己摆到事情的前面,为了脸面,为了所谓的自尊

6ac9af48cfaaddea7e01a8591d62e57e.png

97a5d51d367c3f58ff7f60759491eda4.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1342132.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

跑项目报错Cannot find module ‘@babel/preset-env/lib/utils‘

换了电脑之后新电脑 npm install 安装包之后,npm run serve 运行项目出错 👇👇👇 npm run serve 运行项目报错 Cannot find module babel/preset-env/lib/utils 根据报错提示查看报错的包路径 可以确定安装的依赖包没有问题&#…

elasticsearch系列四:集群常规运维

概述 在使用es中如果遇到了集群不可写入或者部分索引状态unassigned,明明写入了很多数据但是查不到等等系列问题该怎么办呢?咱们今天一起看下常用运维命令。 案例 起初我们es性能还跟得上,随着业务发展壮大,发现查询性能越来越不…

【第十二课】KMP算法(acwing-831 / c++代码 / 思路 / 视频+博客讲解推荐)

目录 暴力做法 代码如下 KMP算法 不同的next求法-----视频讲解/博客推荐 视频推荐 博客推荐 课本上的方法- prefix的方法- 求next数组思路---next数组存放前缀表的方式 s和p匹配思路 代码如下 暴力做法 遍历s主串中每一个元素,如果该元素等于模板串p中…

SeaTunnel流处理同步MySQL数据至ClickHouse

ClickHouse是一种OLAP类型的列式数据库管理系统,ClickHouse完美的实现了OLAP和列式数据库的优势,因此在大数据量的分析处理应用中ClickHouse表现很优秀。 SeaTunnel是一个分布式、高性能、易扩展、用于海量数据同步和转化的数据集成平台。用户只需要配置…

你的 VSCode 上 还没有 GitHub Copilot ?看这里

GitHub Copilot 是由 OpenAI 和 GitHub 开发的 AI 工具。其目的是通过自动完成代码来帮助开发人员使用集成开发环境 (IDE),如 Visual Studio Code。它目前仅作为技术预览版提供,因此只有已加入候补名单的用户才能访问它。对于使用…

OpenAI: InstructGPT的简介

OpenAI: InstructGPT paper: 2022.3 Training Language Model to follow instructions with human feedback Model: (1.3B, 6B, 175B) GPT3 一言以蔽之:你们还在刷Benchamrk?我们已经换玩法了!更好的AI才是目标 这里把InstructGPT拆成两个部分&#…

Arduino stm32 USB CDC虚拟串口使用示例

Arduino stm32 USB CDC虚拟串口使用示例 📍相关篇《STM32F401RCT6基于Arduino框架点灯程序》🔖本开发环境基于VSCode PIO🌿验证芯片:STM32F401RC⌛USB CDC引脚: PA11、 PA12🔧platformio.ini配置信息&…

线程基础知识(三)

前言 之前两篇文章介绍了线程的基本概念和锁的基本知识,本文主要是学习同步机制,包括使用synchronized关键字、ReentrantLock等,了解锁的种类,死锁、竞争条件等并发编程中常见的问题。 一、关键字synchronized synchronied关键…

android studio 将含有jni c++ 的library项目封装成jar并调用

请参考博客:android studio 4.1.1 将library项目封装成aar 并调用_android studio 4.1 aar release-CSDN博客 一 . 简单叙述 android studio 中可以创建Module 的两种属性,可以在build.gradle 中查看: 1. application属性:可以独…

2023我的编程之路

你的编程学习经历和成长过程: 在我探索编程世界的旅程中,我深刻地认识到,编程不仅仅是一种技术, 是一种思维方式, 一种解决问题的方法。希望通过分享我的编程学习体验,能够启发更多的人看到编程的魅力和价值…

分享70套超治愈的宫崎骏漫画PPT模板

又到了每年最年终总结的时候了,最近都在忙着做总结的PPT,找了好些个模板,希望这些模板也能够对你做PPT有用。 这70套唯美的宫崎骏治愈系PPT模板,适合文艺又与众不同的你。可以用在文艺汇报、工作总结、作品展示、产品介绍等。 Tip…

ssm基于javaweb的数学竞赛网站的设计与实现论文

摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装数学竞赛网站软件来发挥其高效地信息处理的作用&#xff0c…

【微服务核心】MyBatis Plus

MyBatis Plus 文章目录 MyBatis Plus1. 简介2. 入门使用3. 核心功能3.1 CRUD 接口3.1.1 Mapper CRUD 接口3.1.2 Service CRUD 接口 3.2 条件构造器3.3 分页插件3.4 Mybatis-Plus 注解 4. 拓展4.1 逻辑删除4.2 MybatisX快速开发插件 5. 插件5.1 [分页插件](#page)5.2 乐观锁插件…

《Python》:深拷贝、浅拷贝、赋值之间的关系(附可变与不可变)【用图文讲清楚!】

背景 想必大家面试或者平时学习经常遇到问python的深拷贝、浅拷贝和赋值之间的区别了吧?看网上的文章很多写的比较抽象,小白接收的难度有点大,于是乎也想自己整个文章出来供参考 可变与不可变 讲深拷贝和浅拷贝之前想讲讲什么是可变数据类型…

Openslide安装

文章目录 安装open-slide python下载openslide二进制文件解压到Anaconda的library目录下配置环境变量在py文件中添加以下语句即可 官网链接 安装open-slide python 表面上这样就可以导入了但事实上会遇到 Couldn’t locate OpendSlide DLL的问题,openslide必须独立安…

TikTok女性力量:短视频中女性如何重新定义自己

随着社交媒体的兴起,TikTok作为一种全新的短视频平台,为全球的用户提供了一个创作、分享和表达的空间。 在这个数字时代,女性在TikTok上展现了强大的影响力,通过短视频重新定义了自己的形象、角色和社会地位。本文将深入探讨TikT…

springcloud中使用openfeign来优化接口调用

简单介绍在springcloud中使用openfeign来优化接口调用 目录 一、引入依赖二、为服务提供者编写openfeign接口三、服务消费者调用定义的openfeign接口四、项目结构五、日志级别配置1、通过配置类进行全局配置2、通过配置类进行局部配置3、通过配置文件配置 一、引入依赖 <!-…

回顾2023,展望2024

时光飞逝&#xff0c;光阴似箭&#xff0c;转眼间又到了一年的年末&#xff0c;现在是2023年12月29日&#xff0c;再过两天就要元旦了&#xff0c;我们也要跨入2024年了。 记录自己的总结&#xff0c;一直想写&#xff0c;不知从何写起&#xff0c;在这一年中&#xff0c;有深夜…

【Redis前奏曲】初识Redis

文章目录 一.Redis的一些特性(优点)1. 在内存中存储数据2. 可编程的3. 可扩展的4.持久化5. 聚集(集群)6. 高可用Redis快的原因 二. 使用案例1.数据库2. 缓存3. 消息队列 一.Redis的一些特性(优点) 我们在上一篇博客中说到,Redis是一个在内存中存储数据的中间件.用作数据库,数据…

使用vue3实现echarts漏斗图表以及实现echarts全屏放大效果

1.首先安装echarts 安装命令&#xff1a;npm install echarts --save 2.页面引入 echarts import * as echarts from echarts; 3.代码 <template> <div id"main" :style"{ width: 400px, height: 500px }"></div> </template> …