数据同步到PG时遇到的分区不存在问题
- 前言
- 正文
- 问题分析
- 解决方法
- 结语
前言
大概说下这个问题牵扯出来的背景,一个外场项目,选型用PG存业务数据,然后客户要求保存保留一年的数据,运行到现在服务器5个T的磁盘已经有点扛不住了,使用率接近90%:
项目经理无能,跟客户沟通调整存储周期无果,就把压力转给运维运营团队,经过一堆坎坷,最后决定用datax把原pg的数据同步到另一个同配置的pg节点去,然后再把原始数据清理掉,这样等于是变相的进行了存储的冷热分割了。
至于同步走的数据客户要的时候怎么办,那自然就是再同步回去了(甲方确实会想出这种刁难你的活路)
正文
问题分析
按照计划,开始进行数据同步,在部门的运维同事进行datax同步的时候一直说有问题,数据同步不了,截图如下:
报错信息:
no partition of relation "table_name" found for row
问题就是进行数据写入的时候,找不到对应的分区,这个触发的原因也比较简单,建表语句是:
CREATE TABLE table_name (
......
p_date varchar(255) NULL DEFAULT NULL::character varying,
......
)
PARTITION BY LIST (p_date);
表建的是分区表,使用的是List Partitioning
,而目标端的库只是建了表,并没有建分区,所以进行数据同步的时候,插入数据有问题,会报分区不存在。
解决方法
有了结论后,先尝试在库里先建分区:
create table tablename_20220601 partition of tablename for values in ('2022-06-01');
然后再进行同步,就能成功了。
不过总不能每次做同步前都先建分区,这样操作起来也烦得很,于是就去看了下datax的文档,找到了postgresqlwriter
插件中的一个参数preSql
:
那么只需要把建分区的语句写入preSql
就行了:
"writer":{
"name":"postgresqlwriter",
"parameter":{
"username":"xx",
"password":"xx",
"column":[
"id",
"name"
],
"preSql":[
"create table tablename_20220601 partition of tablename for values in ('2022-06-01');"
],
"connection":[
{
"jdbcUrl":"jdbc:postgresql://127.0.0.1:3002/datax",
"table":[
"test"
]
}
]
}
}
结语
Datax在做多数据源同步的时候,看起来依旧是目前最好用的方法,部署简单,也不对什么引擎强依赖,在做这些历史数据的同步时,属于是点击即用了。