目录
一、数据库文件和文件组
1、数据库文件
(1) 主数据库文件(Primary Database File)
(2) 次数据库文件(Secondary Database File)
(3) 事务日志文件
2、数据库文件组
(1)文件组的好处
(2)主文件组和次文件组
二、数据文件的使用分配
1、基本知识
2、数据页面存储格式
(1)数据页头
(2)数据行
(3)行偏移数组
(4)页面链接
3.空间使用分配管理
4.索引分配映射管理
5.页面自由空间管理
三、事务日志文件结构
1.事务日志
2.事务日志的物理存储
一、数据库文件和文件组
1、数据库文件
(1) 主数据库文件(Primary Database File)
是数据库的起点,可以指向数据库中文件的其它部分。每个数据库都有一个主数据库文件。文件扩展名一般是 .mdf。
(2) 次数据库文件(Secondary Database File)
有些数据库可能没有次数据文件,而有的数据库则有多个次数据文件。文件扩展名多是 .ndf。
(3) 事务日志文件
日志文件包含恢复数据库所需的所有日志信息。每个数据库必须至少有一个日志文件,但可以不止一个。推荐的文件扩展名是 .ldf。
2、数据库文件组
为了便于分配和管理,SQL Server允许将多个文件归纳为同一组,并赋予此组一个名称,这就是文件组。
文件组能够控制各个文件的存放位置,其中的每个文件常建立在不同的硬盘驱动器上,这样可以减轻单个磁盘驱动器的存储负载,提高数据库的存储效率,从而达到提高系统性能的目的。
(1)文件组的好处
在存储数据时, SQL Server采用按比例填充策略使用文件组内每个文件所提供的存储空间。例如,如果一个服务器上有4个可供数据库使用的硬盘,他们提供给数据库的最大存储空间分别为100M,200M,300M和100M,我们可以在前面3个硬盘上建立一个数据文件组,包含三个文件,每个硬盘上分配一个文件,在第4个硬盘上建立数据库的日志文件,当发生数据库的读写操作时,日志数据写入第4个硬盘,而数据库数据写入前3个硬盘。在写入数据时,SQL Server根据文件组内每个数据文件中剩余的空间大小按比例分配写入其中的数据量,即1:2:3,这样不仅保证文件组内每个文件的空间基本上同时用完,而且将一次磁盘操作同时分配给多个磁盘控制器,可以减轻每个磁盘的负载,从而提高写入速度。
建立数据文件和文件组时,应注意以下两点:
- 每个数据文件或文件组只能属于一个数据库,每个数据文件也只能成为一个文件组的成员。也就是说,数据文件不能跨文件组使用,数据文件和文件组不能跨数据库使用。
- 日志文件是独立的,它不能作为其他数据文件组的成员。即数据库内的数据和日志不能存入相同的文件或文件组。
(2)主文件组和次文件组
主文件组:包含主数据文件和所有没有被包含在其它文件组里的文件。在创建数据库时,如果未指定其他数据文件所属文件组,这些文件将归属于主文件组。数据库的系统表都包含在主文件组里,所以,当主文件组的空间用完后,将无法向系统表中添加新的目录信息。
次文件组:也称用户自定义文件组,包括所有使用数据库创建语句(CREATE DATABASES)或数据库修改语句(ALTER DATABASES)时使用FILEGROUP关键字进行指定的文件。
默认文件组:任何时候,只能有一个文件组是默认文件组。默认情况下,主文件组被认为是默认文件组。
使用数据文件和文件组的建议:
1. 创建数据库时,允许数据文件能够自动增长,但要设置一个上限。否则有可能充满磁盘。
2. 主文件组要足够大以容纳所有的系统表。否则新的信息就无法添加到系统表,数据库也就无法追加修改。
3. 建议把频繁查询的文件和频繁修改的文件分放在不同的文件组。
4. 把索引、大型的文本文件、图象文件放到专门的文件组里。
二、数据文件的使用分配
1、基本知识
- 在 SQL Server 中,数据文件存储的基本单位是页。
- 在 SQL Server 2000 中,页的大小是 8 KB。这意味着 SQL Server 2000 数据库每兆字节有 128 页。
- 每页的开始部分是 96 字节的页首,用于存储系统信息,如页的类型、页的可用空间量、页对象ID等。
- 根据页面所存储的不同信息,可以将它划分为8种页类型。
2、数据页面存储格式
(1)数据页头
数据页包含数据行中除 text、ntext 和 image 数据外的所有数据,页头占用每个数据页的前96个字节,剩余的8096字节用于数据和行偏移数组。
(2)数据行
- 紧跟着页头的就是存储表的真正数据行区域。
- 单个数据行的最大长度是8060字节。数据行不能跨页存储(文本和图像例外)。
- 页内数据行的多少依赖于表的结构和要存储的数据。如果一个表的所有列都是定长,那么该表在每一页上存储相同数目的行。
- 如果一个表里有变长列,那么该表总是在每一页上存储尽可能多的行。
- 数据行越短,每一页存储的行数就越多。
(3)行偏移数组
- 当单行数据长度为最大8060字节时,行偏移数组占用8096-8060=36个字节。
- 但实际中一个数据行大多不是8060字节,往往比这个小,所以数据行占用的总字节数目和行偏移数组占用的总字节数是系统动态调整,数据行字节越少,偏移数组字节越多,反之,数据行字节越多,偏移数组字节越少,但不能少于36个字节。
- 每两个字节构成一个条目块,每个条目表示页中相关数据行开始的偏移量。
- 注意:行偏移数组表示的是页中数据行的逻辑顺序,不是物理顺序。真正的物理顺序与聚集索引有关。
(4)页面链接
每个表或索引视图的数据行一般都分开存储在多个 8 KB 数据页中。如上面所述,每个数据页都有一个 96 字节的页头,其中包含拥有该页的表的标识符 (ID) 这样的系统信息,也包含指向下一页及前面用过的页的指针。
3.空间使用分配管理
SQL Server 2000向表或索引分配空间的基本单位为区域,一个区域长度为8个连续的页面,也就是64KB。区域分为以下两种类型:
• 统一区域:区域中的8个页面只能存储同一种数据库对象。
• 混合区域:区域中不同页面可以存储不同的数据库对象。但由于每个页面只能存储同一种数据库对象,所以一个混合区域最多可存储8种数据库对象。
全局分配映射(Global Allocation Map,简称GAM)页面:GAM页面中的每一位记录一个区域的分配情况,当位值为1时,说明区域为空闲区域;当位值为0时,表示区域已经被分配使用。由于每个页面大小为8KB,所以一个GAM页面能够覆盖64000个区域,即4GB。
共享全局分配映射(Shared Global Allocation Map,简称SGAM)页面:SGAM页面用于记录有空闲页面的混合区域。每个SGAM页面覆盖64000个区域。当位值为1时,说明区域为混合区域,并且其中有空闲页面;当位值为0时,说明相应的盘区没有被用作混合区域,或者它是一个没有空闲页可分配的混合区域。
4.索引分配映射管理
SQL Server使用索引分配映射(IAM)页面管理堆或索引所分配区域的使用情况。每个IAM页面的页面头记录该IAM页面所映射区域范围的起始区域,其映射区中的每一位说明一个区域的使用状态,其中第一位代表IAM页面所映射区域范围内的第一个区域,第二位代表第二个区域等等。当映射区中某位为0时,说明该位所映射区域仍未分配给拥有该IAM页面的对象使用;当其值为1时,说明该位所映射区域已经分配给拥有该IAM页面的对象使用。
5.页面自由空间管理
当一个区域分配给某个数据库对象时,SQL Server使用PFS(Page Free Space)页面记录区域内的单个页面是否分配使用,以及页面中的空间使用情况:即全部空闲、1%~50%满、51%~80%满、81%~95%满,还是96%~100%满。当SQL Server需要分配新的页面,或者查找有自由空间页面时,它使用PFS页面中所记录的这些信息。
三、事务日志文件结构
1.事务日志
SQL Server在内存中建立了一个缓冲区,在检索数据时,它将数据读入该缓冲区中,而在修改数据时,它并不是直接修改磁盘中的数据,而是先在缓冲区中建立修改数据副本,之后在页面刷新时再将它们写入磁盘。这样做可以提高数据处理速度,减少磁盘读写次数。在缓冲区中被修改后而没有写入磁盘的页面称作“脏页”,“脏页”由SQL Server迟写进程定期写入磁盘,这一操作叫做“页面刷新”。 每当对缓冲区中的数据页面进行修改时,SQL Server自动在日志缓存中构造该操作的日志记录。
2.事务日志的物理存储
一个数据库事务日志可以对应一个或多个物理文件,SQL Server 2000 在内部又将每个物理日志文件分成许多个虚拟日志文件。虚拟日志文件没有固定大小,且物理日志文件所包含的虚拟日志文件数不固定。
事务日志是回绕的日志文件。例如,假设有一个数据库,它包含一个分成5个虚拟日志文件的物理日志文件。当创建数据库时,逻辑日志文件从物理日志文件的始端开始。在逻辑日志的末端添加新的日志记录,逻辑日志就向物理日志末端增长。截断操作发生时,删除最小恢复日志序号(MinLSN)之前的虚拟日志内的记录,这部分日志记录所占用的空间即可被重复使用。
当逻辑日志的末端到达物理日志文件的末端时,新的日志记录绕回物理日志文件的始端,如图所示。这个循环不断重复,只要逻辑日志的末端不到达逻辑日志的始端。如果经常截断旧的日志记录,使得总能为下一个检查点创建的所有新日志记录保留足够的空间,那么日志永远不会填满。