什么是数据库?数据库有哪些基本分类和主要特点?

news2024/10/1 12:10:42

数据库是以某种有组织的方式存储的数据集合。本文从数据库的基本概念出发,详细解读了数据库的主要类别和基本特点,并就大模型时代备受瞩目的数据库类型——向量数据库进行了深度剖析,供大家在了解数据库领域的基本概念时起到一点参考作用。

1. 什么是数据库?

先来看看维基百科对于数据库的定义:以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。一个数据库由多个表空间构成。

百度百科对数据库的定义如下:数据库是“按照数据结构来组织、存储和管理数据的仓库”,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。

数据库(Database,英文简称 DB)是一个以某种有组织的方式存储的数据集合。可以理解为是一个存放计算机数据的仓库,这个仓库按照一定的数据结构(即数据的组织形式或数据之间的联系)来对数据进行组织和存储,我们可以通过数据库提供的多种方法来管理其中的数据。

在这里插入图片描述

2. 数据库的分类

根据组织存储数据时所采用的数据模型,数据可分为关系型数据库(Relational Database Management System,简称RDBMS)和非关系型数据库(NoSQL)。

关系型数据库: 以表格形式存储数据,SQL为操作语言,如MySQL、Oracle、SQL Server等。特点是可以对数据进行高度组织、分类、筛选,并能够等值查找。适用于数据维护强一致性,交易量大,结构变化少的应用场景。

非关系型数据库(NoSQL):不使用表格进行数据存储,而是使用文档、列族、键值等不同的数据模型存储数据。优点是能够处理海量数据,高并发读写,扩展性强,但不支持 JOIN 类操作,不适用于需要多表操作且事务要求较高的应用场景。

在这里插入图片描述

Tips:非关系型数据库的诞生历程

· 非关系型数据库也称为 NoSQL 数据库,NoSQL 的本意是“Not Only SQL”,指的是非关系型数据库,而不是“No SQL”(没有SQL)的意思。NoSQL 数据库的产生之初并不是要彻底地否定和终结关系型数据库,而是作为传统关系型数据库的一个有效补充。

· 随着互联网 Web2.0、Web3.0 网站的兴起,传统的关系型数据库在应对规模日益扩大的海量数据,超大规模和高并发的动态网站时遇到了很多问题与挑战,例如,传统关系型数据库的 I/O 瓶颈、性能瓶颈等都难以有效突破。

· 于是出现了大批针对特定场景,以高性能、高并发以及使用便利为目的的功能特异化的数据库产品,非关系型数据库就是在这样的情景中诞生并得到非常迅速发展的。在这些特定的场景下,NoSQL 数据库可以发挥出难以想象的高效率和高性能。NoSQL 是非关系型数据库的广义定义,它打破了长久以来关系型数据库与 ACID 理论大一统的局面。

· NoSQL 数据库的数据存储不需要固定的表结构,通常也不存在连接操作,其在大数据存取上具备关系型数据库无法比拟的性能优势,满足了企业应用需要将数据存储在横向且伸缩性上更强的功能需求。

目前NoSQL数据库仍然没有一个统一的标准,现在有四种大的分类:键值数据库、列存储数据库、文档数据库、图数据库。

· 键值(Key-Value)存储数据库

键值(key-value)数据库类似于传统语言中使用的哈希表,可以通过 key 来添加、查询或者删除数据,因为是使用 key 主键访问,所以会获得很高的性能及扩展性。

键值数据库主要使用一个哈希表,表中有一个特定的键和一个指针(指向特定的数据)。对于 IT 系统来说,key/value 模型的优势在于简单、易部署、高并发。

· 列存储数据库

这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.

· 文档型数据库

文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可以看作是键值数据库的升级版,允许之间嵌套键值,在处理网页等复杂数据时,文档型数据库比传统键值数据库的查询效率更高。如:CouchDB, MongoDb.

· 图形(Graph)数据库

图数据库顾名思义,就是一种存储图形关系的数据库,而图模型是图数据库中的重要概念。图模型由两个要素组成:节点和边,每个节点代表一个实体(人、地点、事物等),每条边代表两个节点之间的连接,这种通用结构可以对各种场景进行建模,如社交网络以及由关系定义的任何其他事物。特点是可以处理高密度连接和稀疏数据,支持快速的复杂查询。GraphDB和Neo4j是常用的图形数据库。

此外,随着大模型技术的爆发式增长,作为一种新型数据库,“大模型的海马体”——向量数据库(Vector Database)成为当前最为灼热的技术焦点。

向量数据库:

向量数据库是一种以向量嵌入方式存储和管理向量数据的数据库。在向量数据库中,每个向量都有一个唯一的标识符,并且可以存储在一个连续的向量空间中。

图像、文本和音视频这种非结构化数据都可以通过某种变换或者嵌入学习转化为向量数据存储到向量数据库中,从而实现对图像、文本和音视频的相似性搜索和检索。这意味着可以使用向量数据库根据语义或上下文含义查找最相似或相关的数据,而不是使用基于精确匹配或预定义标准查询数据库的传统方法。

向量数据库在处理向量数据方面具有以下特点:

· 高效存储和查询:向量数据库采用特定的存储结构和索引算法,可以高效地存储和查询向量数据,减少数据冗余,提高查询效率。

· 多维查询:向量数据库支持多维查询,可以根据向量的多个属性进行查询,例如相似度查询、范围查询等。

· 向量相似度计算:向量数据库可以对向量进行相似度计算,用于寻找最相似的向量数据,常用于推荐系统、图像搜索等应用。

· 高并发处理:向量数据库具有较强的并发处理能力,可以同时处理大量的向量数据查询请求。

· 支持向量索引:向量数据库支持各种向量索引技术,例如倒排索引、KD-Tree、LSH等,用于加速向量数据的查询。

· 分布式存储:一些向量数据库支持分布式存储和计算,可以横向扩展,适用于处理大规模的向量数据。

向量数据库可以实现高效存储与检索,利用索引技术和向量检索算法实现高维大数据下的快速响应。向量数据库也是非关系型数据库的一种,除了要管理向量数据外,还支持对传统结构化数据的管理。实际使用时,有很多场景会同时对向量字段和结构化字段进行过滤检索,这对向量数据库来说也是一种挑战。

3. 数据库的特点

· 实现数据共享

数据共享包含所有用户可同时存取数据库中的数据,也包括用户可以用各种方式通过接口使用数据库,并提供数据共享。

· 减少数据的冗余度

同文件系统相比,由于数据库实现了数据共享,从而避免了用户各自建立应用文件。减少了大量重复数据,减少了数据冗余,维护了数据的一致性。

· 数据的独立性

数据的独立性包括逻辑独立性(数据库中数据库的逻辑结构和应用程序相互独立)和物理独立性(数据物理结构的变化不影响数据的逻辑结构)。

· 数据实现集中控制

文件管理方式中,数据处于一种分散的状态,不同的用户或同一用户在不同处理中其文件之间毫无关系。利用数据库可对数据进行集中控制和管理,并通过数据模型表示各种数据的组织以及数据间的联系。

· 数据一致性和可维护性,以确保数据的安全性和可靠性

· 安全性控制:以防止数据丢失、错误更新和越权使用;

· 完整性控制:保证数据的正确性、有效性和相容性;

· 并发控制:使在同一时间周期内,允许对数据实现多路存取,又能防止用户之间的不正常交互作用。

· 故障恢复:由数据库管理系统提供一套方法,可及时发现故障和修复故障,从而防止数据被破坏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1180615.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 服务器监控

服务器几乎与任何 IT 基础设施密不可分,Linux 是服务器兼容性最强的开源操作系统,因为它具有灵活性、一致性和安全性。大多数 Linux 服务器都设置了以下 Linux 操作系统的任何变体:Red Hat Enterprise Linux (RHEL)、D…

分享5款有趣的软件,你都知道吗?

​ 今天我想分享几个有趣但或许不那么多人知道的软件,各位喜欢的朋友可以自行下载呢。 1.文本比较软件——Diffchecker ​ Diffchecker是一款在线文本比较软件,可以找出两个文本文件之间的差异。Diffchecker可以比较文本、代码、PDF、Word等多种格式的…

day10-内核实验项目概述与内核信号

1.在系统中什么是信号,都有什么信号 2.在系统接收到信号后,他是如何处理的 3.信号作用 信号处理流程: _system_call: call _sys_call_table(,%eax,4) sys_signal sys_signal int sys_signal(int signum, long handler, long restorer) {/…

打造工业数字基础设施坚实底座,麒麟信安参展2023工业软件生态大会

11月5日,2023工业软件生态大会在深圳揭开帷幕。以“共建新一代工业软件体系,引领制造业高质量发展”为主题,本次大会邀请政府、高校、行业专家和企业代表齐聚一堂,展示工业全产业链前沿技术、创新产品和解决方案,围绕核…

零代码编程:用ChatGPT批量合并文件夹

一个文件夹里面有很多个子文件夹,其中一些是互相配对的,比如: 动物寓言王国_合作力量大 (上)国英语版 动物寓言王国_合作力量大 (下)国英语版 动物寓言王国-狮子与猎狗 (上&#…

出现 Daemons using outdated libraries 的解决方法

目录 1. 问题所示2. 原理分析3. 解决方法1. 问题所示 使用apt安装某些包的时候,弹出如下界面: Daemons using outdated libraries的选择框 并问我需要重启的服务,which services should be restarted? 不知什么情况,选择esc之后,所安装的包并没有成功!于是深入剖析 2.…

falsk框架中安装flask-mysqldb报错解决方案

错误示例 我的是py37版本,无法直接安装flask-mysqldb pip install flask-mysqldb报错如下 解决方案 先去第三方库 https://www.lfd.uci.edu/~gohlke/pythonlibs/#mysqlclient 下载mysqlclient 这个是我的版本 mysqlclient-1.4.6-cp37-cp37m-win_amd64.whl 下…

麒麟信安协办 | 2023工业控制系统产业大会隆重举办

11月3日,由中国高科技产业化研究会、湖南省科学技术协会、国防科技大学、湖南大学、中南大学共同主办,工业控制系统产业联盟、长沙经济技术开发区管委会等单位共同承办,麒麟信安等单位协办的“2023 工业控制系统产业大会”在长沙召开。此次会…

中创|多家AI大模型获批上线,“百模”大战已打响,掀起新一轮AI风暴!

9个AI大模型获批上线 “百模”大战已正式打响 拼算法、争数据、卷算力...... 大模型们到底该比拼什么? 它们将给生活和产业变革 带来哪些惊喜和挑战? 今年8月,8家大模型备案通过,百度、字节、智谱华章、商汤、中科院、百川智…

Mach Systems—总线接口转换工具

产品概述 在汽车研发过程中,需要大量的总线数据支持,总线转换工具可以将总线数据转换为我们计算机常见接口,达到总线监视、采集、仿真等目的。MACH SYSTEMS来自于捷克的一家公司,专注于嵌入式和车载网络转换,为LIN、S…

麒麟信安加入“工业操作系统创新伙伴计划”,并亮相2023第三届工控中国大会新品发布会

11月1日-3日,2023第三届工控中国大会在苏州太湖国际会议中心举办。本届大会以“生态链接 智控未来 筑基新型工业化”为主题,由中国电子信息产业发展研究院、中国工业经济联合会、国家智能制造专家委员会、国家产业基础专家委员会、江苏省工业和信息化厅、…

【23真题】易!题源全部定位!带讲解!

今天分享的是23年长春理工大学808的信号与系统试题及解析。 本套试卷难度分析:22年长春理工808考研真题,我也发布过,若有需要,戳这里自取!本套试题内容难度中等偏下,题量较少,没有选择填空题&a…

基于FPGA的模板匹配红外目标跟踪算法设计

为什么要写这篇文章 我写这篇文章的原因是一天在B站看到了一个大神发的视频是关于跟踪一个无人机的,看到作者跟网友的回复说是用的图像匹配算法,我就在网上搜索相关资料,最终找到一篇文献。文献中对该算法的评价很高,满足制导系统…

React进阶之路(一)-- JSX基础、组件基础

文章目录 React介绍React开发环境搭建项目目录说明以及相关调整 JSX基础JSX介绍JSX中使用js表达式JSX列表渲染JSX条件渲染JSX样式处理JSX注意事项 组件基础组件的概念函数组件类组件事件绑定如何绑定事件获取事件对象传递额外参数 组件状态状态不可变表单处理受控表单组件非受控…

structure needs cleaning结构需要清理

以Centos7,xfs文件系统为例进行验证,理论适用于其他 在使用rm命令执行删除/root下某个文件时提示rm无法删除,structure needs cleaning(即结构需要清理) 在网上搜索一下,你会发现千篇一律的卸载磁盘挂载&…

小程序+spring boot疫起买菜平台99212-计算机毕业设计项目选题推荐(附源码)

摘 要 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,疫起买菜平台小程序被用户普遍使用,为方便用户…

「Verilog学习笔记」求两个数的差值

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点,刷题网站用的是牛客网 timescale 1ns/1ns module data_minus(input clk,input rst_n,input [7:0]a,input [7:0]b,output reg [8:0]c );always (posedge clk or negedge rst_n) begin if (~rst_…

16、Python的常用标准库介绍

文章目录 Python被誉为“胶水语言”,这在很大程度上归功于其庞大而全面的标准库。标准库是一组预先打包的、可直接使用的模块集合,无需安装额外的包即可使用。这些库跨越了编程的各个领域,几乎每个Python开发者都会在他们的编程生涯中用到它们。这篇文章将介绍50个常用的Pyt…

爆火的正规号卡推广分销 流量卡分销代理平台

正规号卡推广和流量卡分销代理可以通过“聚量推客”申请 聚量推客上的号卡单价高 数据及时 结算快,你还可以搭配平台上的拉新产品各种推广场景,更值得拥有哦

【T690 之十二】基于方寸EVB2开发板(T690芯片)构建基于GMSSL的文件系统的方式

备注: 1,假设您已对方寸微电子的T690系列芯片的使用方式都有了一定的了解,然后需要构建基于GMSSL的文件系统,此文才对您有意义; 2,若您对方寸微电子的T690芯片不了解,但想进一步了解它&#xff…