列式数据库、行式数据库简介
- 1、数据准备
- 2、行式数据库
- 3、列式数据库
- 4、行式、列式存储对比
常见的行式数据库有Mysql,DB2,Oracle,Sql-server等;列数据库(Column-Based)数据存储方式按列存储,常见的列数据库有Hbase,Hive,Clickhouse,Sybase 等。
1、数据准备
数据表示例:
SQL示例(无索引):
2、行式数据库
行式数据库,优先以行存储,一个块存储多行数据。读取多行时,需要更多的IO,但是读某行的多列数据时,需要更少的IO.
行式存储方式:示例中每一个块存储两行。
通过多次IO操作,找到ssn=666后,可以直接获取到first_name.
通过多次IO操作,找到id=1后,可以直接获取到一行的所有字段.
需要扫描所有的块,进行求和。
3、列式数据库
列式存储数据库:如果取一列值的时候,需要更少的IO;但是如果取多列值的时候需要更多的IO.
列式存储按列存储,如果某列过多,会分块存储。
列式存储可以直接找到ssn对应的列,然后根据ID,找到first_name所在列的值。
如果要查ID=1对应行的所有字段的数据,就要全表扫描了。
找到salary对应列,直接进行求和。
4、行式、列式存储对比
行式:读写;适合OLTP;不压缩;集合操作效率低;对于多列数据的操作效率高;
列式:写慢;适合OLAP;压缩;集合操作效率高;对于多行数据的操作效率高;