数据存储模型

专栏内容：

postgresql内核源码分析
手写数据库toadb
并发编程
toadb开源库

个人主页：我的主页
座右铭：天行健，君子以自强不息；地势坤，君子以厚德载物.

概述

在数据库的发展过程中，关系型数据库是一个里程碑式的阶段，现在关系型数据仍然占据着重要地位。
在关系型数据中，每张表都是一个关系，每行数据就是关系的一条记录，在存储时每行数据存储在连续的位置，行与行也是连续存放；
这样方便一次能拿到一整条记录。

处理业务类型

随着互联网的兴起，存储容量的提升和计算能力的飞越，我们的生活中不断增加了越来越多的被智能设备，产生了无尽的信息。
这样的信息规模已经超越了某一单体的能力限制，它们被不断分类，对于数据库处理模型，常常分为：

在线事务处理模型(OLTP), 主要以事务一致性，关系型数据为主；
在线分析处理模型(OLAP), 主要以分析统计为主，更多的是从大量数据中提取某几个维度的数据；

但是这样的划分，还远远不能满足信息爆炸带来的需求，它不是非黑即白的界线明晰的分类，还有大量同时存在OLTP和OLAP的特点的数据和业务，此时就需要一种混合性数据库存储模型。

数据存储模型原理

是什么

通过SQL插入的数据，在数据库中实际也是要存到磁盘上的，此时还要考虑我们写入的效率，读取的效率，如何产生的IO次数更少，那以什么格式组织这些数据，才能达到这样的目标呢？

我们使用的文件系统，都是以块为单位进行读写物理存储设备，常用的块大小有2k, 4k等；那么数据库为了提升性能，也选择以块为单位来组织数据，每次按块进行读写数据文件。
每个数据块内又分为：块头信息域，数据域的起始偏移，数据域，在数据域中按逻辑表的行进行连续存储。

当然行数据，又分为定长或变长两种不同的组织方式；定长，就是每种数据类型固定了长度，这样一行数据的长度也是确定的；变长类型，就是像字符，文本等长度是可变的，那么存储时需要记录长度。
它们最大的区别在于更新时，定长是可以直接覆盖更新的，而变长就需要追加更新。

为什么存储模型这么重要

因为我们的存储到数据库中的数据都是持久化到磁盘中，当我们查询时，再从磁盘中读出，
虽然我们数据库和操作系统层面都已经做了缓存，当数据量大时还是会产生大量的磁盘IO，而且数据库大多数情况下都是随机访问，缓存并不保证全部命中。

相较与内存速度来讲，磁盘速度是极底的，但是内存往往是有限的，所以存储模型至关重要，通过将随机写转换为顺序写，少的IO就可以精确找到数据，减少遍历，这些都可以做到减少IO次数，提升性能。