写给大数据开发：谈谈数仓建模的反三范式

news2026/2/14 12:36:08

在数仓建设中，我们经常谈论反三范式。顾名思义，反范式化指的是通过增加冗余或重复的数据来提高数据库的读性能。简单来说，就是浪费存储空间，节省查询时间。用行话讲，这就是以空间换时间。听起来像是用大炮打蚊子，但事实上，它真的是个大杀器！
PicProse Cover Image.png

什么是冗余字段？

冗余字段，听起来像是数据库界的“多此一举”，但它可不是无用的赘肉。设计数据库时，某一个字段属于一张表，但它同时出现在另一个或多个表，且完全等同于它在其本来所属表的意义表示，那么这个字段就是一个冗余字段。

举个栗子：

假设我们有一个订单表（order）和一个用户表（user）。每当需要查询订单表的所有数据，并且只需要用户表的name字段时，如果没有冗余字段，我们就需要用join连接用户表。假设表中数据量非常大，那么这次连接查询就会非常大地消耗系统的性能。这时候，冗余字段就可以派上用场了！有了冗余字段，我们只查一张表就可以了。

示例代码

-- 没有冗余字段时的查询
SELECT o.order_id, o.product_id, u.name
FROM order o
JOIN user u ON o.user_id = u.user_id;

-- 有冗余字段时的查询
SELECT order_id, product_id, user_name
FROM order_with_redundancy;

是不是瞬间觉得效率提升了几个档次？

反范式化的优点

反范式化的最大优点，就是减少了join操作，让数据库执行性能更高更快。想象一下，如果你每天上班都要刷三次卡，是不是感觉很麻烦？但是，如果只刷一次卡就能搞定所有事情，是不是感觉效率倍增？

另外，冗余字段的引入还可以提高数据的可读性和查询的简洁性。再也不用为了找一个小小的信息，翻遍整个数据库。

反范式化的缺点

当然，反范式化并非万能药。引入冗余字段后，我们需要付出更多的存储空间。同时，数据的一致性维护变得更复杂，因为我们需要确保冗余字段在多个表中保持同步。

示例代码

-- 插入数据时需要维护冗余字段
INSERT INTO order_with_redundancy (order_id, product_id, user_name, user_email)
VALUES (1, 101, 'Alice', 'alice@example.com');

-- 更新数据时需要同步冗余字段
UPDATE order_with_redundancy
SET user_name = 'Alice Updated'
WHERE user_id = 1;