1主流数据库技术介绍
常见的数据库模型主要分为SQL关系型数据库和NoSQL非关系型数据库。其中关系型数据库分为传统关系数据库和大数据数据库,非关系型数据库分为键值存储数据库、列存储数据库、面向文档数据库、图形数据库、时序数据库、搜索引擎存储数据库及其他,如下图。
(1)关系型数据库
关系型数据库是一种基于关系模型的数据库管理系统。根据DB-Engine发布的2021年8月全球数据库排行中关系型数据库前10名如下图所示。
关系型数据库的特点主要是有一个数据库由多张表构成、每张表都有用户定义的表结构信息(schema)来描述表格的结构,数据表是面向行增长的,而列的模式是相对固定的。
(2)非关系型数据库
1)键值(Key-Value)存储数据库
数据按照键值对的形式进行组织、索引和存储。KV存储非常适合不涉及过多数据关系业务关系的业务数据,同时能有效减少读写磁盘的次数,比SQL数据库存储拥有更好的读写性能。其典型的产品 有Redis、Memcache。
2)列存储(Column-oriented)数据库
列存储数据库又被称为面向可扩展性的分布式数据库,它反转了传统的行存储数据库。这种数据库通常用来应对分布式存储海量数据。典型产品:Cassandra(AP)、HBase(CP)
3)面向文档(Document-Oriented)数据库
文档数据库旨在将半结构化数据存储为文档,其中文档包括 XML、YAML、JSON、BSON、office 文档等。其灵感是来自于Lotus Notes办公软件,典型产品:MongoDB、CouchDB。
4)图形数据库
图形数据库是应用图形理论存储实体之间的关系信息。实体会被作为顶点,而实体之间的关系则会被作为边。典型产品:Neo4J、InforGrid
5)时序数据库
时序数据是基于时间的一系列的数据。在有时间的坐标中将这些数据点连成线,往过去看可以做成多纬度报表,揭示其趋势性、规律性、异常性;往未来看可以做大数据分析,机器学习,实现预测和预警。时序数据库就是存放时序数据的数据库,并且需要支持时序数据的快速写入、持久化、多纬度的聚合查询等基本功能。对比传统数据库仅仅记录了数据的当前值,时序数据库则记录了所有的历史数据。同时时序数据的查询也总是会带上时间作为过滤条件。典型产品:InfluxDB、Prometheus(普罗米修斯)、OpenTSDB(底层基于HBase)
6)搜索引擎存储
搜索引擎数据库是一类专门用于数据内容搜索的非关系数据库。搜索引擎数据库使用索引对数据中的相似特征进行归类,并提高搜索能力。目前市场比较火的搜索引擎Solr和Elasticsearch等,这两者均是开源搜索引擎。
2主流数据库选型分析
(1)关系型数据库选型分析
1)主流关系型数据库分析
下表选取常见关系型数据库进行对比:
| Oracle | Microsoft SQL Server | MySQL |
开放性 | 能在所有主流平台上运行; 完全支持所有工业标准; 采用完全开放策略,使客户选择适合的解决方案,对开发商全力支持 | 只能在Windows环境上运行 | 跨多平台 |
可伸缩性、并行性 | 提供高用性和高伸缩性簇方案 | SQL Server并行实施和共存模型并不成熟;难处理日益增多用户数和数据卷;伸缩性有限。 | 提供主从、分区、分库分表的伸缩性方案。 |
安全性 | 最高,获得最高认证级别的ISO标准认证 | 没有任何安全证书 | 没有获得安全认证 |
性能 | 最高 | 次之 | 最低,但在大量查询读取数据的条件下,MySQL一定程度上可媲美Oracle |
数据库事务处理能力 | 最高 | 较高 | 默认状态不支持事务处理,但MySQL中的InnoDB存储引擎支持事务 |
图形化管理操作便捷性 | 较高 | 最高 | 较低,主要以命令的形式 |
部署方式 | 支持单节点、复制、集群等部署方式 | 提供HA故障转移功能 | 支持集群 |
主要应用场景 | 例如银行,金融等对可用性,健壮性,安全性,实时性要求极高的业务;零售,物流等对海量数据存储分析要求很高的业务。 | 介于Oracle和MySQL间 | 大都集中于互联网Web应用 |
全球应用排名(2021年8月) | 第一 | 第三 | 第二 |
对支持硬件基础要求 | 最高 | 较高 | 最低 |
成本 | 最高 | 较高 | 最低,对个人来版是免费的 |
管理维护 | 操作较复杂,需要技术 | 最简单 | 较易 |
院内使用情况 | 较少 | 最多 | 较多 |
如果需要基于行的关系数据库且需要事务处理和复杂的数据库功能,那么Oracle和SQL Server用得较多。对于小型桌面和移动应用,一般可选择SQLite数据库。
(2)非关系型数据库选型分析
具体选型根据实际业务情况,并结合平台技术架构再进行选择,比如分布式文件系统选择。
3结论
综合考虑平台对数据实时性、安全性、数据量剧增性及数据库系统可扩展性、数据库对频繁读写的支持能力,以及常用的结构化数据、部署使用成本等,建议以Oracle数据库为主要关系型数据库,其他辅助用数据库的选择根据实际业务情况软件平台技术架构进行筛选。