Hadoop Database
- 简介
- 表结构
- 数据只能读不能改==>生成新版本
- 总结
简介
永远的百度百科
HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统”。
HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
关系型数据库是二维定位按行操作整行数据。
Hbase数据库是四维定位按列操作单元格数据。
表结构
读写HBase数据(HBase简介)
不同分区,分布式存储。
数据只能读不能改==>生成新版本
增删改查本质
- 新增单元格数据时,在HDFS上新增一条记录
- 修改一个单元格时,也是新增一条记录,只是版本号比之前大了。
- 删除时,还是新增一条记录,只不过没有value值,类型为DELETE。
为了提高性能,Hbase每间隔一段时间或者文件大小达到阀值后,都会进行一次合并,
合并的对象就是HFile文件。当合并成一个HFile时,会忽略掉DELETE类型的记录,
从而达到了删除的目的,并对剩下的数据做排序和版本合并。形成一个大的HFile,
当Hfile的大小达到需要切分的阀值时,会等分为两个HFile…
时间戳的存在意义就是为了标明版本,为了可以修改数据构建新版本。
总结
【Hbase】知识总结
什么是HBase?终于有人讲明白了
- 关系型数据库是二维定位按行操作整行数据。
- Hbase数据库是四维定位按列操作单元格数据。
Hbase中某个具体的数值,叫单元格, Hbase的读写都是以单元格进行的,读写不是以数据行进行。