MySQL旧表做分区流程

news2026/3/26 10:53:40

1. 为什么做分区

数据库分区是将数据库中的数据划分成独立的部分，每个部分称为一个分区。分区可以根据特定的标准，如范围、列表或哈希值，将数据分隔到不同的物理存储位置中。数据库表分区可以在多种情况下提供显著的好处。以下是一些应该考虑对数据库表进行分区的情况：

大型数据量： 当数据库表包含大量数据时，性能可能会受到影响。通过将表分区，可以将数据分散到不同的物理位置，从而提高查询性能和管理效率。
历史数据管理： 对于需要长期保留历史数据的系统，可以根据时间范围对数据进行分区。这样可以轻松地管理和维护历史数据，执行归档、备份和清理操作。
提高查询性能： 当数据库表面临频繁的查询操作时，分区可以帮助提高查询性能。通过将数据分散到多个分区，可以减少单个查询对系统的压力，从而提高整体性能。
改善数据加载速度： 对于需要频繁加载数据的系统，分区可以帮助提高数据加载速度。例如，在分析型数据库中，可以根据时间范围对数据进行分区，以便更快地加载最新的数据。
数据安全性要求： 对于需要对数据进行严格隔离和访问控制的系统，可以通过分区来实现数据的安全存储和管理。例如，可以将敏感数据存储在单独的分区中，并为其应用更严格的访问控制。
提高可用性和容错性： 通过将数据分散到多个物理位置，可以提高系统的可用性和容错性。如果一个分区发生故障，其他分区仍然可以继续工作，从而降低了系统停机时间。

总的来说，数据库表分区可以在面对大量数据、频繁查询、历史数据管理或数据安全性要求等情况下提供多种好处。然而，需要在实际应用中仔细权衡利弊，以确定是否值得对数据库表进行分区。

2. 旧表分区步骤

2.1 备份原始表

rename table t_A to t_A_bak;

2.2 创建新表，定义分区规则，创建初始分区

create table t_A (
	ID int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
    NAME varchar(255) NOT NULL COMMENT '姓名',
    IDCARD varchar(255) NOT NULL COMMENT '身份证号码',
    PHONE varchar(255) DEFAULT NULL COMMENT '手机号码',
    CREATE_TIME datetime NOT NULL COMMENT '创建时间',
    MOD_TIME datetime DEFAULT NULL COMMENT '修改时间',
    PRIMARY KEY (ID, CREATE_TIME)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
partition by range columns (CREATE_TIME) (
    -- 按月分区
	partition `P_202401` values less than ('2024-02-01 00:00:00'),
    partition `P_202402` values less than ('2024-03-01 00:00:00'),
    partition `P_202403` values less than ('2024-04-01 00:00:00'),
    partition `P_202404` values less than ('2024-05-01 00:00:00'),
    partition `P_202405` values less than ('2024-06-01 00:00:00')
);

注意事项：

分区列不能为 NULL；
分区列必须是主键索引，一般与 ID 列构成主键复合索引；
如果表存在唯一索引，分区列还需添加到唯一索引中（这种情况，要考虑该唯一索引是否有必要，添加分区字段不可避免地破坏唯一逻辑，若没必要直接删除，若有必要，那得在Java代码里处理唯一逻辑）；

2.3 新表插入原始数据

insert into t_A select t_A_bak where create_time >= #{startTime} and create_time < #{endTime};

注意事项：

select ... 后面最好加 where 条件，where 跟的筛选列需创建索引，否则全表扫描，容易产生锁表，丢失数据等；这个问题的详细分析参考 [同事使用 insert into select 迁移数据，开开心心上线，上线后被公司开除！]；
若是停机更新，不担心锁表问题，或是 where 跟的筛选列没有创建索引，则可以不加 where 条件，直接insert into B select * from A；
- 针对这种方式，曾经担心过一个问题：【若表A超大，数据量达到千万级别，MySQL 是否一次性地把表A的所有数据查出来放到内存或是磁盘，再一次性地插入表B？如果这样，不可避免地导致内存爆炸或是 IO 次数增加】：这个问题我抛给 ChatGPT 解答，它的解释如贴图。我觉得最好还是手动分批查询插入吧。

2.4 新表创建原始索引

注意：要最后创建原表索引；

-- 创建原表的身份证号码的唯一索引，在线不锁表方式创建索引
create index `IDX_IDCARD` on t_A (`IDCARD`) algorithm=inplace lock=none;

如果先建立索引，再插入数据，由于索引相当于一种排序，插入数据时会给数据进行排序，毫无疑问会影响插入数据的性能。

3. 分区相关SQL

-- 查询某张表每个分区的数据行数
select table_name, partition_name, table_rows from information_schema.partitions where table_name = 't_A';
-- 若上述语句没有显示行数为0，需刷新一下表
analyze table t_A;
-- 查询某个分区的数据
select * from t_A partition (P_202401);
-- 删除某个分区，分区数据也一并删除
alter table t_A drop partition P_202401;
-- 新增分区
alter table t_A add partition (partition `P_202406` values less than ('2024-07-01 00:00:00'));