教材为数据库系统概论第五版(王珊)
第一章基本就纯概念了,考试基本就考简答题啥的。概念还是比较多,平时没事就看看记一下,重点看一些有比较的部分,比如文件管理和数据库的区别,各种数据模型之间的区别或相同点以及优缺点啥的
1.1 数据库系统概述
1.1.1:数据库的四个基本概念:
- 数据(data):定义为数据库中存储的基本对象,用来描述事物的符号记录。特点为数据的解释是指对数据含义的说明,数据的含义称为数据的语义,数据与其语义是不可分的。
- 数据库(Database) : 数据库是长期储存在计算机内、有组织的、可共享的大量数据的集合。数据库的基本特征是数据按一定数据模型组织,描述和储存;可为各种用户共享;冗余度较小;数据独立性较高;易扩展。
- 数据库管理系统(DBMS):数据库管理系统是位于用户与操作系统之间的一层数据管理软件,它是一个大型复杂的软件系统 。主要功能包括数据定义功能,数据组织、存储和管理,数据操作功能,数据库的事务管理和运行管理,数据库的建立和维护功能,其他功能
- 数据库系统(DBS): 数据库系统是由数据库、数据库管理系统(及其应用开发工具)、应用程序和数据库管理员(DataBase Administrator,DBA)组成的存储、管理、处理和维护数据的系统
1.1.3:数据库系统的特点
1:数据结构化
数据的整体结构化是数据库的主要特征之一,它不再仅仅针对某一个应用,而是面向全组织,不仅数据内部结构化,整体也是结构化的,数据之间具有联系,数据记录可以变长,数据的最小存取单位是数据项。是数据库系统与文件系统的本质区别。
2:数据的共享性高,冗余度低,易扩充
数据面向整个系统,可以被多个用户、多个应用共享使用。
数据共享的好处
- 减少数据冗余,节约存储空间
- 避免数据之间的不相容性与不一致性
- 使系统易于扩充
3:数据独立性高
数据独立性由数据库管理系统的二级映像功能来保证,它主要分为:物理独立性和逻辑独立性。
- 物理独立性:指用户的应用程序与数据库中数据的物理存储是相互独立的,当数据的物理存储改变了,应用程序不用改变。
- 逻辑独立性:指用户的应用程序与数据库中数据的逻辑结构是相互独立的,当数据的逻辑结构改变了,应用程序不用改变。
4:数据由DBMS统一管理和控制
DBMS提供的数据控制功能
- 数据的安全性(Security)保护:保护数据以防止不合法的使用造成的数据的泄密和破坏。
- 数据的完整性(Integrity)检查:保证数据的正确性、有效性和相容性。
- 并发(Concurrency)控制:对多用户的并发操作加以控制和协调,防止相互干扰而得到错误的结果。
- 数据库恢复(Recovery)技术:将数据库从错误状态恢复到某一已知的正确状态。
1.2 数据模型
概念:
- 在数据库中用数据模型这个工具来抽象、表示和处理现实世界中的数据和信息。
- 通俗地讲数据模型就是现实世界的模拟。
- 数据模型是数据库系统的核心和基础
数据模型应满足三方面要求
- 能比较真实地模拟现实世界
- 容易为人所理解
- 便于在计算机上实现
1.2.1 两大类数据模型
数据模型分为两类
- 概念模型:也称信息模型,它是按用户的观点来对数据和信息建模,用于数据库设计。
- 逻辑模型和物理模型:
- 逻辑模型主要包括网状模型、层次模型、关系模型、面向对象模型等,按计算机系统的观点对数据建模,用于DBMS实现。
- 物理模型是对数据最底层的抽象,描述数据在系统内部的表示方式和存取方法,在磁盘或磁带上的存储方式和存取方法。
1.2.2 数据模型的组成要素
1.数据结构
什么是数据结构
- 描述数据库的组成对象,以及对象之间的联系
描述的内容
- 与数据类型、内容、性质有关的对象
- 数据之间联系有关的对象
数据结构是对系统静态特性的描述
2.数据操作
数据操作
- 对数据库中各种对象(型)的实例(值)允许执行的操作及有关的操作规则
数据操作的类型
- 查询
- 更新(包括插入、删除、修改)
数据模型对操作的定义
- 操作的确切含义
- 操作符号
- 操作规则(如优先级)
- 实现操作的语言
数据操作是对系统动态特性的描述
3.数据的完整性约束条件
数据的完整性约束条件
- 一组完整性规则的集合。
- 完整性规则:给定的数据模型中数据及其联系所具有的制约和依存规则
- 用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效、相容。
数据模型对完整性约束条件的定义
- 反映和规定本数据模型必须遵守的基本的通用的完整性约束条件。例如在关系模型中,任何关系必须满足实体完整性和参照完整性两个条件。
- 提供定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件。
1.2.3 概念模型
1.概念模型的用途
- 概念模型用于信息世界的建模。
- 是现实世界到机器世界的一个中间层次。
- 是数据库设计的有力工具。
- 数据库设计人员和用户之间进行交流的语言。
2.概念模型的要求
- 较强的语义表达能力。
- 能够方便、直接地表达应用中的各种语义知识
- 简单、清晰、易于用户理解。
3.信息世界中的基本概念
- 实体(Entity):客观存在并可相互区别的事物称为实体。可以是具体的人、事、物或抽象的概念。
- 属性(Attribute) :实体所具有的某一特性称为属性。一个实体可以由若干个属性来刻画。
- 码(Key) :唯一标识实体的属性集称为码。
- 域(Domain):属性的取值范围称为该属性的域。
- 实体型(Entity Type) :用实体名及其属性名集合来抽象和刻画同类实体称为实体型
- 实体集(Entity Set):同一类型实体的集合称为实体集
- 联系(Relationship)
- 现实世界中事物内部以及事物之间的联系在信息世界中反映为实体内部的联系和实体之间的联系。
- 实体内部的联系通常是指组成实体的各属性之间的联系
- 实体之间的联系通常是指不同实体集之间的联系
4.两个实体型之间的联系
一对一联系(1:1)
实例
- 一个班级只有一个正班长
- 一个班长只在一个班中任职
定义:
如果对于实体集A中的每一个实体,实体集B中至多有一个(也可以没有)实体与之联系,反之亦然,则称实体集A与实体集B具有一对一联系,记为1:1
一对多联系(1:n)
实例
- 一个班级中有若干名学生
- 每个学生只在一个班级中学习
定义:
如果对于实体集A中的每一个实体,实体集B中有n个实体(n≥0)与之联系,反之,对于实体集B中的每一个实体,实体集A中至多只有一个实体与之联系,则称实体集A与实体集B有一对多联系,记为1:n
多对多联系(m:n)
实例
- 课程与学生之间的联系:
- 一门课程同时有若干个学生选修
- 一个学生可以同时选修多门课程
定义:
如果对于实体集A中的每一个实体,实体集B中有n个实体(n≥0)与之联系,反之,对于实体集B中的每一个实体,实体集A中也有m个实体(m≥0)与之联系,则称实体集A与实体B具有多对多联系,记为m:n
5.两个以上实体型之间的联系
两个以上实体型之间一对多联系(1:m||1:n)
定义:
若实体集E1,E2,…,En存在联系,对于实体集Ej(j=1,2,…,i-1,i+1,…,n)中的给定实体,最多只和Ei中的一个实体相联系,则我们说Ei与E1,E2,…,Ei-1,Ei+1,…,En之间的联系是一对多的。
实例
课程、教师与参考书三个实体型
一门课程可以有若干个教师讲授,
使用若干本参考书,
每一个教师只讲授一门课程,
- 每一本参考书只供一门课程使用
多个实体型间的一对一联系(1:1:1)
实例
- 一个独生子女只有一个父亲,一个母亲
- 一个父亲也只有一个独生子女
- 一个母亲也只有一个独生子女
两个以上实体型间的多对多
- 实例
供应商、项目、零件三个实体型
一个供应商可以供给多个项目多种零件
每个项目可以使用多个供应商供应的零件
每种零件可由不同供应商供给
6.单个实体型内的联系
一对多联系(1:n)
实例
- 职工实体型内部具有领导与被领导的联系
某一职工(干部)“领导”若干名职工
一个职工仅被另外一个职工直接领导
这是一对多的联系
一对一联系(1:1)
实例
- 身份证可以唯一确认一个人的身份,人与身份证有确认和被确认的关系
- 一个身份证唯一确定一个人
- 一个人也唯一确认一个身份证
多对多联系 (m:n)
实例
- 饮料和厂商之间有制造和被制造的关系
- 多个饮料可以被多个厂商制造
- 多个厂商可以制造出多种饮料
7.概念模型的表示
-
实体-联系方法:用E-R图来描述现实世界的概念模型,E-R方法也称为E-R模型。
-
实体型
-
用矩形表示,矩形框内写明实体名。
-
-
属性
- 用椭圆形表示,并用无向边将其与相应的实体连接起来
联系
-
联系本身
- 用菱形表示,菱形框内写明联系名,并用无向边分别与有关实体连接起来,同时在无向边旁标上联系的类型(1:1、1:n或m:n)
-
联系的表示方法
-
联系的表示方法示例
-
联系的属性:
- 联系本身也是一种实体型,也可以有属性。如果一个联系具有属性,则这些属性也要用无向边与该联系连接起来
1.2.4 最常用的数据模型
-
非关系模型(格式化模型)
- 层次模型(Hierarchical Model)
- 网状模型(Network Model)
-
关系模型(Relational Model)
-
面向对象模型(Object Oriented Model)
-
对象关系模型(Object Relational Model)
1.2.5 层次模型
-
定义:层次数据模型是用树状层次结构来组织数据的数据模型。
-
介绍:层次模型是数据库系统中最早出现的数据模型,层次数据库系统的典型代表是IBM公司的IMS(Information Management System)数据库管理系统,层次模型用树形结构来表示各类实体以及实体间的联系。
满足下面两个条件的基本层次联系的集合为层次模型:
- 有且只有一个结点没有双亲结点,这个结点称为根结点。
- 根以外的其它结点有且只有一个双亲结点
层次模型的特点:
- 结点的双亲是唯一的
- 只能直接处理一对多的实体联系
- 每个记录类型可以定义一个排序字段,也称为码字段
- 任何记录值只有按其路径查看时,才能显出它的全部意义
- 没有一个子女记录值能够脱离双亲记录值而独立存在
多对多联系在层次模型中的表示
- 方法
- 将多对多联系分解成一对多联系
- 分解方法:
- 冗余结点法
- 虚拟结点法
数据操纵与完整性约束
-
层次模型的数据操纵
- 查询
- 插入
- 删除
- 更新
-
层次模型的完整性约束条件
- 无相应的双亲结点值就不能插入子女结点值
- 如果删除双亲结点值,则相应的子女结点值也被同时删除
- 更新操作时,应更新所有相应记录,以保证数据的一致性
存储结构:以后写
层次模型的优缺点
- 优点
- 层次模型的数据结构比较简单清晰
- 查询效率高,性能优于关系模型,不低于网状模型
- 层次数据模型提供了良好的完整性支持
- 缺点
- 多对多联系表示不自然
- 对插入和删除操作的限制多,应用程序的编写比较复杂
- 查询子女结点必须通过双亲结点
- 由于结构严密,层次命令趋于程序化
1.2.6 网状模型
定义:用有向图表示实体和实体之间的联系的数据结构模型称为网状数据模型。
满足下面两个条件的基本层次联系的集合称为网状数据模型:
- 允许一个以上的结点无双亲。
- 一个结点可以有多于一个的双亲。
表示方法(与层次数据模型相同)
- 实体型:用记录类型描述每个结点表示一个记录类型(实体)
- 属性:用字段描述 每个记录类型可包含若干个字段
- 联系:用结点之间的连线表示记录类型(实体)之间的一对多的父子联系
网状模型与层次模型的区别
- 网状模型允许多个结点没有双亲结点
- 网状模型允许结点有多个双亲结点
- 网状模型允许两个结点之间有多种联系(复合联系)
- 网状模型可以更直接地去描述现实世界
- 层次模型实际上是网状模型的一个特例
网状模型中子女结点与双亲结点的联系可以不唯一
要为每个联系命名,并指出与该联系有关的双亲记录和子女记录
网状数据库系统(如DBTG)对数据操纵加了一些限制,提供了一定的完整性约束。
- 查询
- 插入
- 删除
- 更新
完整性约束条件
- 一个联系中双亲记录与子女记录之间是一对多联系。
- 支持双亲记录和子女记录之间某些约束条件。
网状数据模型的优缺点
-
优点
- 能够更为直接地描述现实世界,如一个结点可以有多个双亲
- 具有良好的性能,存取效率较高
-
缺点
- 结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越复杂,不利于最终用户掌握
- DDL、DML语言复杂,用户不容易使用
1.2.7 关系模型
定义:使用表格表示实体和实体之间关系的数据模型称之为关系数据模型。
关系型数据库是目前最流行的数据库,同时也是被普遍使用的数据库,如MySQL就是一种流行的数据库。
一、关系数据模型的数据结构
在用户观点下,关系模型中数据的逻辑结构是一张二维表,它由行和列组成。
-
关系(Relation):一个关系对应通常说的一张表
-
元组(Tuple):表中的一行即为一个元组
-
属性(Attribute): 表中的一列即为一个属性,给每一个属性起一个名称即属性名
-
主码(Key):表中的某个属性组,它可以唯一确定一个元组。
-
域(Domain):属性的取值范围。
-
分量:元组中的一个属性值。
-
关系模式:对关系的描述
- 关系名(属性1,属性2,…,属性n)
- 学生(学号,姓名,年龄,性别,系,年级)
关系必须是规范化的,满足一定的规范条件
最基本的规范条件:关系的每一个分量必须是一个不可分的数据项, 不允许表中还有表
常见的术语对比图:
二、关系数据模型的操纵与完整性约束
- 数据操作
- 查询
- 插入
- 删除
- 更新
- 数据操作是集合操作,操作对象和操作结果都是关系,即若干元组的集合
- 存取路径对用户隐蔽,用户只要指出“干什么”,不必详细说明“怎么干”
关系的完整性约束条件
- 实体完整性
- 参照完整性
- 用户定义的完整性
三、关系数据模型的存储结构
- 实体及实体间的联系都用表来表示
- 表以文件形式存储
- 有的DBMS一个表对应一个操作系统文件
- 有的DBMS自己设计文件结构
四、关系数据模型的优缺点
-
优点
- 建立在严格的数学概念的基础上
- 概念单一
- 实体和各类联系都用关系来表示
- 对数据的检索结果也是关系
- 关系模型的存取路径对用户透明
- 具有更高的数据独立性,更好的安全保密性
- 简化了程序员的工作和数据库开发建立的工作
-
缺点
- 存取路径对用户透明导致查询效率往往不如非关系数据模型
- 为提高性能,必须对用户的查询请求进行优化增加了开发DBMS的难度
1.3 数据库系统结构
从数据库管理系统角度看,数据库系统通常采用三级模式结构,是数据库系统内部的系统结构
从数据库最终用户角度看(数据库系统外部的体系结构) ,数据库系统的结构分为:
- 单用户结构
- 主从式结构
- 分布式结构
- 客户/服务器
- 浏览器/应用服务器/数据库服务器多层结构等
1.3.1 数据库系统模式的概念
“型” 和“值” 的概念
- 型(Type)
- 对某一类数据的结构和属性的说明
- 值(Value)
- 是型的一个具体赋值
例如
学生记录型:(学号,姓名,性别,系别,年龄,籍贯)
一个记录值:(900201,李明,男,计算机,22,江苏)
模式(Schema)
- 数据库逻辑结构和特征的描述
- 是型的描述
- 反映的是数据的结构及其联系
- 模式是相对稳定的
实例(Instance)
- 模式的一个具体值
- 反映数据库某一时刻的状态
- 同一个模式可以有很多实例
- 实例随数据库中的数据的更新而变动
1.3.2 数据库系统的三级模式结构
- 模式(Schema)
- 外模式(External Schema)
- 内模式(Internal Schema)
一、模式(Schema)
- 模式(也称逻辑模式)
- 数据库中全体数据的逻辑结构和特征的描述
- 所有用户的公共数据视图,综合了所有用户的需求
- 一个数据库只有一个模式
- 模式的地位:是数据库系统模式结构的中间层
- 与数据的物理存储细节和硬件环境无关
- 与具体的应用程序、开发工具及高级程序设计语言无关
- 模式的定义
- 数据的逻辑结构(数据项的名字、类型、取值范围等)
- 数据之间的联系
- 数据有关的安全性、完整性要求
二、外模式(External Schema)
-
外模式(也称子模式或用户模式)
- 数据库用户(包括应用程序员和最终用户)使用的局部数据的逻辑结构和特征的描述
- 数据库用户的数据视图,是与某一应用有关的数据的逻辑表示
-
外模式的地位:介于模式与应用之间
- 模式与外模式的关系:一对多
- 外模式通常是模式的子集
- 一个数据库可以有多个外模式。反映了不同的用户的应用需求、看待数据的方式、对数据保密的要求
- 对模式中同一数据,在外模式中的结构、类型、长度、保密级别等都可以不同
- 外模式与应用的关系:一对多
- 同一外模式也可以为某一用户的多个应用系统所使用
- 但一个应用程序只能使用一个外模式
- 模式与外模式的关系:一对多
-
外模式的用途
- 保证数据库安全性的一个有力措施
- 每个用户只能看见和访问所对应的外模式中的数据
三、内模式(Internal Schema)
- 内模式(也称存储模式)
- 是数据物理结构和存储方式的描述
- 是数据在数据库内部的组织方式
- 记录的存储方式(顺序存储,按照B树结构存储,按hash方法存储)
- 索引的组织方式
- 数据是否压缩存储
- 数据是否加密
- 数据存储记录结构的规定
- 一个数据库只有一个内模式
1.3.3 数据库的二级映像功能与数据独立性
- 三级模式是对数据的三个抽象级别
- 二级映象在DBMS内部实现这三个抽象层次的联系和转换
- 外模式/模式映像
- 模式/内模式映像
一、外模式/模式映象
- 模式:描述的是数据的全局逻辑结构
- 外模式:描述的是数据的局部逻辑结构
- 同一个模式可以有任意多个外模式
- 每一个外模式,数据库系统都有一个外模式/模式映象,定义外模式与模式之间的对应关系
- 映象定义通常包含在各自外模式的描述中
保证数据的逻辑独立性
- 当模式改变时,数据库管理员修改有关的外模式/模式映象,使外模式保持不变
- 应用程序是依据数据的外模式编写的,从而应用程序不必修改,保证了数据与程序的逻辑独立性,简称数据的逻辑独立性。
二、模式/内模式映象
- 模式/内模式映象定义了数据全局逻辑结构与存储结构之间的对应关系。
- 例如,说明逻辑记录和字段在内部是如何表示的
- 数据库中模式/内模式映象是唯一的
- 该映象定义通常包含在模式描述中
保证数据的物理独立性
- 当数据库的存储结构改变了(例如选用了另一种存储结构),数据库管理员修改模式/内模式映象,使模式保持不变
- 应用程序不受影响。保证了数据与程序的物理独立性,简称数据的物理独立性。
总结:
- 数据库模式
- 即全局逻辑结构,是数据库的中心与关键
- 独立于数据库的其他层次
- 设计数据库模式结构时应首先确定数据库的逻辑模式
- 数据库的内模式
- 依赖于它的全局逻辑结构
- 独立于数据库的用户视图,即外模式
- 独立于具体的存储设备
- 将全局逻辑结构中所定义的数据结构及其联系按照一定的物理存储策略进行组织,以达到较好的时间与空间效率
- 数据库的外模式
- 面向具体的应用程序
- 定义在逻辑模式之上
- 独立于存储模式和存储设备
- 当应用需求发生较大变化,相应外模式不能满足其视图要求时,该外模式就得做相应改动
- 设计外模式时应充分考虑到应用的扩充性
数据库的二级映像主要功能:
- 保证了数据库外模式的稳定性
- 从底层保证了应用程序的稳定性,除非应用需求本身发生变化,否则应用程序一般不需要修改
1.4 数据库系统的组成
- 数据库
- 数据库管理系统(及其开发工具)
- 应用系统
- 数据库管理员