【系统架构设计】数据库系统（五）

news2026/3/30 22:19:36

数据库系统（五）

数据库模式与范式
数据库设计
备份与恢复
分布式数据库系统
数据仓库
数据挖掘
NoSQL
大数据

数据库模式与范式

数据库设计

备份与恢复

分布式数据库系统

数据仓库

数据挖掘

对数据挖掘技术进行支持的三种基础技术已经发展成熟，它们是 海量数据搜集、强大的多处理器计算机和数据挖掘算法。

从技术角度看，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：

数据源必须是真实的、大量的、含噪声的；
发现的是用户感兴趣的知识；
发现的知识要可接受、可理解、可运用；
并不要求发现放之四海而皆准的知识，仅支持特定的发现问题。

ps ：数据中存在着错误或异常 (偏离期望值)的数据，即为 ** 噪声** 。

数据挖掘与传统的数据分析（如查询、报表、联机应用分析）的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知，有效和可实用三个特征。

聚类分析是根据物以类聚的原理，将本身没有类别的样本聚集成不同的组，并且对每个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该批次相似，而属于不同组的样本应该足够不相似。

ps：注意聚类和分类的区别，聚类根据没有具体类别，只是相似；分类有明确类别。

数据挖掘的大致流程：

问题明确
建立数据挖掘库
要进行数据挖掘必须要收集要挖掘的数据资源，一般建议要挖掘的数据都收集到一个数据库中，而不是采用原有的数据库或数据仓库。这是因为大部分情况下需要修改要挖掘的数据，而且还会遇到采用外部数据的情况；另外，数据挖掘还要对数据进行各种纷繁复杂的统计分析，而数据仓库可能不支持这些数据结构。
分析数据
调整数据
通过上述步骤的操作，对数据的状态和趋势有了进一步的了解，这时要尽可能对问题解决的要求能进一步明确化、进一步量化。针对问题的需求对数据进行增删，按照对整个数据挖掘过程的新认识组合或生成一个新的变量，以体现对状态的有效描述。
模型化
评价和解释

NoSQL

NoSQL 即 Not Only SQL，可直译“不仅仅是SQL”。NoSQL 数据存储不需要固定的表结构，通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。

与关系型数据库相比，NoSQL数据库具有以下几个优点：

易扩展
NoSQL 数据库种类繁多，但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系，这样就非常容易扩展。
大数据量，高性能

NoSQL数据库都具有非常高的读写性能，尤其是在大数据量下，同样表现优秀。这得益于它的无关系性，数据库的结构简单。一般MySQL 使用Query Cache ，每次表一更新Cache 就失效，它是一种大粒度的Cache ，在针对web2.0的交互频繁的应用，Cache 性能不高。而NoSQL的Cache 是记录级，是一种细粒度的Cache，所以NoSQL在这个层面上来说性能就高很多。