大数据 - 行式存储与列式存储

news2024/9/22 16:39:48

为什么要区分?

大多数数据库系统存储一组数据记录,这些记录由表中的列和行组成。表可以水平分区(将属于同一行的值存储在一起),也可以垂直分区(将属于同一列的值存储在一起)。
数据库用于存储、检索和管理大量数据,一般情况下,数据库系统采用了两种主要的存储方式:行式存储和列式存储。
在数据库管理系统中,数据存储的方式对性能和效率有重要影响,所以用户可以根据业务场景自行选择行存还是列存的数据库。
在这里插入图片描述

行式存储

在行式存储中,一条记录(即一行数据)被存储在一块连续的物理空间中,而整张表的所有记录按照一定的顺序依次存放。
适用的场景,如:数据记录(姓名、出生日期和电话号码)类的数据。即:由多个字段组成且用某个键(在本例中为单调递增的ID)进行唯一标识。
表示单个用户的数据记录的所有字段通常被一起读取,在创建数据时(例如,当用户填写注册表单时),我们也将它们一起写入数据库,同时我们可以单独修改某个字段。因为诸如磁盘之类的持久性介质上的数据通常是按块访问的(换句话说,磁盘访问的最小单位是块),所以单个块可能将包含某行中所有列的数据。

对于我们希望访问用户的整条记录的情况非常有用,但这样的存储布局会使访问多个用户记录某个字段的查询(例如,只获取电话号码的查询)开销更大,因为其他字段的数据在这个过程中也会被读入。

优势:
A. 顺序访问:由于行式存储按照记录的顺序进行存储,因此可以快速地访问特定的记录,即通过主键或索引进行查询。
B. 事务处理:由于行式存储按照记录的顺序进行存储,因此在执行事务处理(如增删改查操作)时,行式存储能够更好地支持并发控制和恢复机制。
C. 完整性约束:行式存储可以更好地支持完整性约束,如主键、外键等。
劣势:
A. 空间利用:如果某些行的某些列没有值,那么这些位置将会被占用,造成空间浪费。
B. 数据压缩:由于行式存储是按照记录的顺序进行存储的,因此无法简单地利用数据压缩技术来减少存储空间。
C. 全表扫描:在查询时,如果需要通过全表扫描来查找满足某些条件的数据,那么将会带来较大的性能开销。

列式存储

在列式存储中,同一列的所有数据都被存储在一起,而不同列的数据则被分开存储。
适用的场景,如:存储股票市场的历史价格,那么股票价格这一列的数据便会被存储在一起。不同列的值存储在不同的文件或文件段中,可以按列进行有效的查询,因为它们可以一次性地被读取出来,而不是先对整行进行读取后再丢弃掉不需要的列。

面向列的存储非常适合计算聚合的分析型工作负载,如:查找趋势、计算平均值等。

优势:
A. 数据压缩:在列式存储中,将同一列的数据存储在一起,因此可以使用更高效的数据压缩算法来减少存储空间。如果某一列的数据类型都是相同的(如全部为数字),那么可以使用位图索引等技术来进行压缩。
B. 查询优化:在列式存储中,数据是按照列进行组织的,因此在查询时可以更快地定位到满足条件的数据。此外,列式存储也支持更高级的索引技术(如位图索引、B树索引等),进一步提高了查询性能。
C. 分页和缓存:列式存储在分页和缓存方面也表现出较好的性能。由于同一页或缓存块中的数据是同一列的,因此可以减少I/O操作次数。
劣势:
A. 访问特定行:在列式存储中,数据是按照列进行组织的,因此在访问特定的行数据时需要更多的I/O操作。
B. 事务处理:由于列式存储的数据是分开的,因此在执行事务处理(如增删改查操作)时需要更多的锁资源,可能影响并发性能。

优劣对比

在这里插入图片描述

总结

A. 行式存储在数据写入和修改上具有优势;列式存储在数据读取和解析、分析数据上具有优势。
B. 将具有相同数据类型的值存储在一起(例如,数字与数字在一起,字符串与字符串在一起)可以提高压缩率。我们可以根据不同的数据类型使用不同的压缩算法,并为每种情况选择最有效的压缩方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2111217.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

zdppy+vue3+onlyoffice文档管理系统实战 20240906 上课笔记 整合权限校验中间件

基于角色方法的中间件基本用法 import zdppy_api as api import zdppy_apimidauthasync def index(request):return api.resp.success()async def login(request):token zdppy_apimidauth.get_role_token(role"admin")return api.resp.success(token)auth_dict {&…

单例模式的总结

常规模式:有属性/构造方法/普通方法,也可以在类中执行主方法,也可以在test类中执行主方法 单例模式是什么? 单例模式:类只有1个对象;保证一个类仅有一个实例,并提供一个访问它的全局访问点。单例模式是在内存中 仅会创建一次对象 的设计模式特点: 成员是 私有的静态的 构…

手机扬声器音量总是不够大?试试“扬声器助推器”吧

手机的扬声器音量总是不够大,尤其是在嘈杂的环境中,音乐和视频的声音总是不太清晰。直到我发现了这款“扬声器助推器”,我的手机音质瞬间提升了好几个档次。 软件简介: “扬声器助推器”利用先进的音频处理技术,能够…

中国各银行流动性比例数据(2000-2022年)

介绍中国银行业2000年至2022年间的流动性比例数据,涵盖500多家银行,包括城市商业银行、城镇银行、大型商业银行、股份制银行、民营银行、农村合作银行、农村商业银行、农村信用社等。这些数据对于理解中国银行业的流动性状况至关重要,有助于投…

ansible+awx搭建

1、环境介绍 操作系统版本:龙蜥os 8.9 docker 版本:26.0.2 python版本:3.11.9 ansible版本:2.16.6 awx版本:24.2.0 2、安装docker 设置软件源 yum install -y yum-utilsyum-config-manager \--add-repo \https://mirr…

【生日视频制作】长腿美女模特坐在椅子上打招呼大屏幕AE模板修改文字软件生成器教程特效素材【AE模板】

生日视频制作教程长腿美女模特坐在椅子上打招呼大屏幕文字AE模板修改文字特效广软件告生成神器素材祝福玩法AE模板工程 怎么如何做的【生日视频制作】长腿美女模特坐在椅子上打招呼大屏幕AE模板修改文字软件生成器教程特效素材【AE模板】 生日视频制作步骤: 安装A…

Google play最新政策更新和重要提醒

我们都知道,谷歌会定期更新其政策,而政策的变更通常对开发者及其团队的要求会更为严格,也会增加应用上架的一些限制条件,以此提高应用在谷歌商店的质量。 一起来看看Google play最近的一些政策更新和需要注意的地方。 新政策要求 …

2024高教社杯全国大学生数学建模竞赛C题精美可视化(python代码)

2024高教社杯全国大学生数学建模竞赛C题原创python代码 C题题目:农作物的种植策略 先给大家看看图吧: #描述性统计分析 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from scipy.stats import kurt…

DWPD指标:为何不再适用于大容量SSD?

固态硬盘(Solid State Drives, SSD)作为计算机行业中最具革命性的技术之一,凭借其更快的读写速度、增强的耐用性和能效,已经成为大多数用户的首选存储方案。然而,如同任何其他技术一样,SSD也面临自身的挑战…

vite创建的vue项目怎么使用jsx来实现elementPlus表格表尾的合计有多行大的方法

vite创建的vue3项目安装vitejs/plugin-vue-jsx 先附上代码效果 npm i vitejs/plugin-vue-jsx -D 注意:vite的版本不同请安装不同版本的 /plugin-vue-jsx 我创建项目的vite版本是 4.3.9 所以我就按照了 3.0.2版本的vitejs/plugin-vue-jsx 安装完后需要在 vite.con…

牛客刷题之JZ31.栈的压入、弹出序列(C++)

1.题目解析 本题给出两个序列,判断一个序列压入栈后的弹出序列是否有可能成为另一个序列,核心难度就是如何判断能否满足弹出序列 2.算法原理 这里的算法思路是讲压入栈的序列模拟弹出,即将压入的序列与弹出的序列对比,相同则将压入…

7、关于LoFTR

7、关于LoFTR LoFTR论文链接:LoFTR LoFTR的提出,是将Transformer模型的注意力机制在特征匹配方向的应用,Transformer的提取特征的机制,在自身进行,本文提出可以的两张图像之间进行特征计算,非常适合进行特…

GAMES101(5~6节,光栅化)

光栅化Rasterization 透视投影已知field和近平面,如何推导宽度? 根据三角函数:tan field / 2 (height / 2) / ||n||近平面,从而可以求出高度 因为知道宽高比,所以可以求出宽度,高度 * 宽/高 视口变换 …

Vulkan描述符、描述符Pool、Layout概念

1、DescriptorSetLayout为了组织和管理着色器资源(如缓冲区、纹理、采样器等),多个相同类型的Descriptor放在一个Layout中以优化GPU对资源的访问 //DescriptorSetLayout定义了哪些描述符Descriptor类型(Buffers、Textures、Sample…

四、搭建网站服务器超详细步骤——解决宝塔界面无法登录问题

前言 本篇博客是搭建网站服务器的第四期,也到了中间的一节 先分享一下我在搭建网站时的个人感受,我在这个环节卡住了很久 后来突然醒悟了,然后成功进入了宝塔界面 现在就来分享一下,我所遇到的问题 小伙伴们坐好了 …

LINUX和Windows提权前信息收集的两种方式

信息收集分为两种方式: 手动收集、自动收集; 手动枚举一个系统非常耗时,然而这种方法允许更多的控制,并可以帮助识别自动化工具经常遗漏的更奇特的提权提升方式; 一、手动收集 1、枚举用户 Windows whoami …

【C++】手动实现nique_ptr智能指针

1、自己实现封装了一个智能指针&#xff0c;并且使用了模板 目录 代码实现&#xff1a; 输出结果如下&#xff1a; 代码实现&#xff1a; #include <iostream>using namespace std;template <typename T> class UniquePtr { private:T *ptr;public://默认构造函…

【2024数学建模国赛赛题思路】C题第四套思路已出丨仅供参考

问题一思路分析 假定各种农作物未来的预期销售量、种植成本、亩产量和销售价格相对于2023年保持稳定&#xff0c;每季种植的农作物在当季销售。如果某种作物每季的总产量超过相应的预期销售量&#xff0c;超过部分不能正常销售。请针对以下两种情况&#xff0c;分别给出该乡村…

语法分析例题

答案&#xff1a;A 选项B&#xff0c;选项C&#xff0c;选项D都只有在程序运行后才能看出来是否正确 答案&#xff1a;D 自己写一个C程序&#xff0c;未赋值&#xff0c;就可以看出可以运行&#xff0c;但结果是乱码 #include<stdio.h>int main() {int a;int b;b10;bb…

图形推理-错题集

001 解析&#xff1a; 002 解析&#xff1a; 003 解析&#xff1a; 004 005 006