写给大数据开发:谈谈数仓建模的反三范式

news2025/2/27 12:58:24

在数仓建设中,我们经常谈论反三范式。顾名思义,反范式化指的是通过增加冗余或重复的数据来提高数据库的读性能。简单来说,就是浪费存储空间,节省查询时间。用行话讲,这就是以空间换时间。听起来像是用大炮打蚊子,但事实上,它真的是个大杀器!
PicProse Cover Image.png

什么是冗余字段?

冗余字段,听起来像是数据库界的“多此一举”,但它可不是无用的赘肉。设计数据库时,某一个字段属于一张表,但它同时出现在另一个或多个表,且完全等同于它在其本来所属表的意义表示,那么这个字段就是一个冗余字段。

举个栗子:

假设我们有一个订单表(order)和一个用户表(user)。每当需要查询订单表的所有数据,并且只需要用户表的name字段时,如果没有冗余字段,我们就需要用join连接用户表。假设表中数据量非常大,那么这次连接查询就会非常大地消耗系统的性能。这时候,冗余字段就可以派上用场了!有了冗余字段,我们只查一张表就可以了。

示例代码

-- 没有冗余字段时的查询
SELECT o.order_id, o.product_id, u.name
FROM order o
JOIN user u ON o.user_id = u.user_id;

-- 有冗余字段时的查询
SELECT order_id, product_id, user_name
FROM order_with_redundancy;

是不是瞬间觉得效率提升了几个档次?

反范式化的优点

反范式化的最大优点,就是减少了join操作,让数据库执行性能更高更快。想象一下,如果你每天上班都要刷三次卡,是不是感觉很麻烦?但是,如果只刷一次卡就能搞定所有事情,是不是感觉效率倍增?

另外,冗余字段的引入还可以提高数据的可读性和查询的简洁性。再也不用为了找一个小小的信息,翻遍整个数据库。

更多例子

假设我们有一个电商网站,需要频繁查询订单及其相关的用户信息。传统的做法可能是这样:

-- 查询订单及用户信息
SELECT o.order_id, o.product_id, u.name, u.email
FROM order o
JOIN user u ON o.user_id = u.user_id;

这种方法虽然准确,但效率低下。加入冗余字段后,查询就简单多了:

-- 带冗余字段的查询
SELECT order_id, product_id, user_name, user_email
FROM order_with_redundancy;

是不是瞬间感觉世界清净了?

反范式化的缺点

当然,反范式化并非万能药。引入冗余字段后,我们需要付出更多的存储空间。同时,数据的一致性维护变得更复杂,因为我们需要确保冗余字段在多个表中保持同步。

示例代码

-- 插入数据时需要维护冗余字段
INSERT INTO order_with_redundancy (order_id, product_id, user_name, user_email)
VALUES (1, 101, 'Alice', 'alice@example.com');

-- 更新数据时需要同步冗余字段
UPDATE order_with_redundancy
SET user_name = 'Alice Updated'
WHERE user_id = 1;

结论

合理地加入冗余字段这个润滑剂,减少join操作,确实可以让数据库执行性能更高更快。当然,任何设计都需要权衡利弊,找到最适合自己项目的方案。数据库设计,就像做菜一样,调料用得好,才能做出色香味俱佳的佳肴。

所以,下次再面对繁重的查询任务时,不妨考虑一下反范式化,给你的数据库加点“料”,让它跑得更快,飞得更高!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1841534.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

opencv 视频处理

概述 OpenCV 的视频模块是其核心组成部分之一,主要负责视频文件的读取、处理、分析以及视频流的捕获和输出。这一模块使得开发者能够轻松地处理来自摄像头、文件或其他视频源的视频数据,进行实时或离线的图像处理和计算机视觉任务。以下是 OpenCV 视频模…

唯一工业操作系统!蓝卓supOS入榜中国500最具价值品牌

6月19日 在第21届世界品牌大会上 世界品牌实验室(World Brand Lab) 正式发布2024年《中国500最具价值品牌》分析报告 蓝卓supOS 以131.65亿元的品牌价值成为 国内首个入榜工业操作系统 国内首个工业操作系统的蜕变之旅 蓝卓supOS快速迭代指数增长 不断引领海内外多个首…

同时使用磁吸充电器和Lightning时,iPhone充电速度会变快吗?

在智能手机的世界里,续航能力一直是用户关注的焦点。苹果公司以其创新的MagSafe技术和传统的Lightning接口,为iPhone用户提供了多样化的充电解决方案。 然而,当这两种技术同时使用时,它们能否带来更快的充电速度?本文…

Day9—Spark运行模式及RDD的创建

Spark概述 大数据开发的总体架构 可以看到,在数据计算层,作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算(当然也可以编写独立的MapReduce应用程序进行计算);而Spark既可以做离线计算&a…

【Spring Cloud】Gateway 服务网关限流

文章目录 route限流导入依赖编写配置类测试 自定义API分组总结 网关是所有请求的公共入口,所以可以在网关进行限流,而且限流的方式也很多,我们本次采用前面学过的 Sentinel 组件来实现网关的限流。 Sentinel 支持对 SpringCloud Gateway、Zuu…

网络程序通信的流程---socket与TCP的简单认识

网络程序通信的流程 网络程序通信的流程: 1.通过ip地址找到网络中的设备 2.通过端口号找到对应进程的端口 3.传输数据时还需要使用传输协议(TCP),保证数据的可靠性 4.socket完成进程之间网络数据的传输 ip地址的介绍 IP地址…

知识库的创建(5) - FaissKBService

文章目录 前言一、追踪代码二、源码分析三、详解kb_faiss_pool类的load_vector_store1. 方法定义2. 方法实现3. 优点4. 再看看self.new_vector_store 总结 前言 上一篇文章,我们追到了这里,了解了kb是通过KBServiceFactory产生的一个对象,而…

计算机网络-BGP路由优选原则八

一、优选到Next_Hop的IGP度量值最小的路由。 查看BGP路由详细信息: [AR1]dis bgp routing-table 192.168.1.0BGP local router ID : 1.1.1.1Local AS number : 100Paths: 2 available, 1 best, 1 selectBGP routing table entry information of 192.168.1.0/24:Fr…

ADOP带你了解:数据中心的高速互联解决方案

随着大语言模型和AIGC的飞速发展,数据中心对于高速、高可靠性的网络连接需求日益增长。ADOP系列产品正是在这样的背景下应运而生,为现代数据中心提供了全面的连接解决方案。 ADOP系列产品概览 ADOP系列产品旨在为云、高性能计算、Web 2.0、企业、电信、…

Python | Leetcode Python题解之第167题两数之和II-输入有序数组

题目&#xff1a; 题解&#xff1a; class Solution:def twoSum(self, numbers: List[int], target: int) -> List[int]:low, high 0, len(numbers) - 1while low < high:total numbers[low] numbers[high]if total target:return [low 1, high 1]elif total <…

吴恩达机器学习 第二课 week4 决策树

目录 01 学习目标 02 实现工具 03 问题描述 04 构建决策树 05 总结 01 学习目标 &#xff08;1&#xff09;理解“熵”、“交叉熵&#xff08;信息增益&#xff09;”的概念 &#xff08;2&#xff09;掌握决策树的构建步骤与要点 02 实现工具 &#xff08;1&#xff09;…

格式化数据恢复,4个方法,恢复文件好帮手

“由于电脑病毒的原因&#xff0c;我不得已将磁盘格式化了&#xff0c;不知道大家有没有方法恢复格式化的数据呢&#xff1f;” 在数字时代的浪潮中&#xff0c;我们每个人的生活都如同被数据编织成的一幅幅绚丽画卷。然而&#xff0c;有时这幅画卷可能会因为一次意外的格式化操…

【科研基础】通感一体化讲座

通信和感知在硬件结构上相似&#xff0c;高效地利用资源&#xff0c;实现相互的增益&#xff1b; 感知是基于不同的任务&#xff0c;比如

Python联动Mysql

首先配置pip源(不然在安装库的时候会很慢!!!) pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/安装必要库: mysql.connector MySQL 连接器/ODBC 是 MySQL ODBC 驱动程序&#xff08;以前称为 MyODBC 驱动程序&#xff09;系列的名称&#xff0c;它使…

计算机网络:运输层 - TCP 流量控制 拥塞控制

计算机网络&#xff1a;运输层 - TCP 流量控制 & 拥塞控制 滑动窗口流量控制拥塞控制慢开始算法拥塞避免算法快重传算法快恢复算法 滑动窗口 如图所示&#xff1a; 在TCP首部中有一个窗口字段&#xff0c;该字段就基于滑动窗口来辅助流量控制和拥塞控制。所以我们先讲解滑…

kotlin集合框架

1、集合框架的接口类型对比 2、不可变和可变List fun main() {// 不可变List - 不能删除或添加元素val intList: List<Int> listOf(1,2,3)intList.forEach{println(it) // 1 2 3}println("")// 可变List - 可以删除或添加元素val mutableList mutableListO…

为什么要学Java?

想要自己教会自己java&#xff0c;从小白成长到架构师。实现硬实力就业&#xff01; 因为Java是全球排名第一的编程语言&#xff0c;Java工程师也是市场需求最大的软件工程师&#xff0c;选择Java&#xff0c;就是选择了高薪。 为什么Java应用最广泛&#xff1f; 从互联网到…

[Linux] 文件系统

UNIX操作系统将文件组织成一个有层次的树形结构&#xff1a; 标准目录&#xff1a; 根目录&#xff1a; /tmp目录 主目录&#xff1a; 这就是主目录 一般与系统有关的信息都存放在etc目录下 注意&#xff1a; /etc/passwd存放的是用户账户信息&#xff0c;不是密码信息&#xf…

适用于所有 Android 手机的 8 大 Android 解锁工具

有时您无法解锁手机&#xff0c;因为您忘记了密码或设备停止响应解锁图案。不要惊慌。我们在这里为您列出了最好的 Android 解锁工具。只需选择一个您喜欢的。 为了保护重要数据&#xff0c;许多手机用户倾向于使用图案锁、密码、指纹甚至面部识别来锁定设备。但有时&#xff…