1、有哪些分布式数据库

2、OLAP、OLTP、HTAP

3、TIDB、clickhouse、hive

一、TIDB

1. TiDb 核心特性：

2. TiDb 整体架构：

3.TiDB 存储：

二、clickhouse

三、hive

1.什么是 Hive？

2.Hive 架构和如何运作？

1、有哪些分布式数据库

一、PG-XC 风格：

由传统分库分表演进而来，再加上额外的调度节点实现分片路由、全局时钟实现分布式事务，基本构成了一个分布式数据库。

• 中兴的 GoldenDB

• 华为的 GaussDB

• 腾讯的 TDSQL

二、NewSQL 风格：

数据库中的每个组件都采用分布式设计，底层存储多采用键值（KV）系统，同时引入多数派选举算法实现多副本同步，存储、计算、调度完全分离。

• 国外的 CockroachDB、YugabyteDB

• PingCAP 的 TiDB

• 蚂蚁的 OceanBase

三、云原生数据库：

• AWS 的 Aurora

• 微软的 Cosmos DB

• 阿里的 PolarDB

参考：什么是分布式数据库？我不信，看完这篇你还不懂!! - 知乎

2、OLAP、OLTP、HTAP

数据处理大致可以分成两大类：

联机事务处理 OLTP（On-Line Transaction Processing）

OLTP 的场景如电商场景中加购物车、下单、支付等需要在原地进行大量insert、update、delete操作

联机分析处理 OLAP（On-Line Analytical Processing）

OLAP 场景通常是将数据批量导入后，进行任意维度的灵活探索、BI工具洞察、报表制作等

混合事务和分析处理 HTAP（Hybrid Transaction and Analytical Process）

同时支持在线事务处理与在线分析处理的融合型数据库。

3、TIDB、clickhouse、hive

一、TIDB

官网：https://docs.pingcap.com/zh/ （以下内容摘自官网介绍）

参考：15分钟了解TiDB_D_Guco的博客-CSDN博客_tidb

TiDB 是 PingCAP 公司研发的分布式关系型数据库，是一款同时支持在线事务处理与在线分析处理的融合型分布式数据库产品，目标是为用户提供一站式 OLTP、OLAP、HTAP 解决方案。TiDB 适合高可用、强一致要求较高、数据规模较大等各种应用场景。

1. TiDb 核心特性：

支持水平扩容或者缩容

TiDB 存储计算分离的架构设计，可按需对计算、存储分别进行扩容或者缩容。

金融级高可用

数据采用多副本存储，数据副本通过 Multi-Raft 协议同步事务日志，多数派写入成功事务才能提交，确保数据强一致性且少数副本发生故障时不影响数据的可用性。

实时 HTAP

提供行存储引擎 TiKV、列存储引擎 TiFlash 两款存储引擎，TiFlash 通过 Multi-Raft Learner 协议实时从 TiKV 复制数据，确保行存储引擎 TiKV 和列存储引擎 TiFlash 之间的数据强一致。

云原生的分布式数据库

专为云而设计的分布式数据库，通过 TiDB Operator 可在公有云、私有云、混合云中实现部署工具化、自动化。

兼容 MySQL 5.7 协议和 MySQL 生态

2. TiDb 整体架构：

TiDB Server：SQL 层，负责接受客户端的连接，执行 SQL 解析和优化，最终生成分布式执行计划。可以启动多个 TiDB 实例，通过负载均衡组件（如 LVS、HAProxy 或 F5）对外提供统一的接入地址，客户端的连接可以均匀地分摊在多个 TiDB 实例上以达到负载均衡的效果。TiDB Server 本身并不存储数据，只是解析 SQL，将实际的数据读取请求转发给底层的存储节点 TiKV（或 TiFlash）

PD Server：整个 TiDB 集群的元信息管理模块，负责存储每个 TiKV 节点实时的数据分布情况和集群的整体拓扑结构，提供 TiDB Dashboard 管控界面，并为分布式事务分配事务 ID。PD 不仅存储元信息，同时还会根据 TiKV 节点实时上报的数据分布状态，下发数据调度命令给具体的 TiKV 节点，可以说是整个集群的“大脑”。

Storage Server：数据存储。

TiKV Server：负责存储数据，从外部看 TiKV 是一个 Key-Value 存储引擎。存储数据的基本单位是 Region。TiKV 的 API 在 KV 键值对层面提供对分布式事务的原生支持，默认提供了 SI (Snapshot Isolation) 的隔离级别，这也是 TiDB 在 SQL 层面支持分布式事务的核心。TiDB 的 SQL 层做完 SQL 解析后，会将 SQL 的执行计划转换为对 TiKV API 的实际调用。所以，数据都存储在 TiKV 中。

TiFlash：TiFlash 是一类特殊的存储节点。和普通 TiKV 节点不一样的是，在 TiFlash 内部，数据是以列式的形式进行存储，主要的功能是为分析型的场景加速。

简化为 PD -> TiDB -> TiKV 的架构：

3.TiDB 存储：

① 存储数据结构： Key-Value Pairs（键值对）：TiKV 选择的是 Key-Value 模型，并且提供有序遍历方法。

② 数据落盘方式：本地存储 (RocksDB)：TiKV 没有选择直接向磁盘上写数据，而是把数据保存在 RocksDB 中，具体的数据落地由 RocksDB 负责（RocksDB 是由 Facebook 开源的一个非常优秀的单机 KV 存储引擎）。

③ 数据同步协议：Raft 协议：TiKV 利用 Raft 来做数据复制，每个数据变更都会落地为一条 Raft 日志，通过 Raft 的日志复制功能，将数据安全可靠地同步到复制组的每一个节点中。

④ 分布式存储解决方案：Region：以 Region 为单位，将数据分散在集群中所有的节点上，并且尽量保证每个节点上 Region 的数量差不多；以 Region 为单位做 Raft 的复制和成员管理。

二、clickhouse

参考：ClickHouse深度揭秘 - 知乎

ClickHouse 是一整套完善的解决方案，它自包含了存储和 计算能力，完全自主实现了高可用，而且支持完整的 SQL 语法。相比于 hadoop 体系，以数据库的方式来做大数据处理更加简单易用，学习成本低且灵活度高。

ClickHouse 的技术优势：

极致的查询性能；
低成本的海量存储：列存、压缩，大幅提升单机数据存储和计算能力，大幅降低使用成本；
简单灵活且强大：完善 SQL 支持；提供 json、map、array 等数据类型；支持近似计算、概率数据结构等。

clickhouse 优势体现在 OLAP 场景

OLAP 场景的特点：

1、读多于写：数据分析通常是数据一次性写入后，分析师尝试从各个角度对数据做挖掘、分析，直到发现其中的商业价值、业务变化趋势等信息。

2、大宽表，读大量行但仅需少量列：数据分析时，选择其中的少数几列作为维度列、其他少数几列作为指标列，然后对全表或某一较大范围内的数据做聚合计算。这个过程会扫描大量的行数据，但是只用到了其中的少数列。

3、数据批量写入，且数据不更新或少更新：OLAP类业务数据量非常大，通常更加关注写入吞吐（Throughput），要求海量数据能够尽快导入完成。

4、无需事务，数据一致性要求低：OLAP类业务对于事务需求较少，通常是导入历史日志数据。

针对 OLAP 场景，clickhouse 的优势特点：

1、数据有序存储：ClickHouse 支持在建表时，指定将数据按照某些列进行 sort by。排序后相同 sort key 的数据在磁盘上连续存储，有序摆放。查询时命中的数据都紧密存储在一个或若干个连续的Block 中，大幅减少 IO，提高查询性能。

2、主键索引：ClickHouse 支持主键索引，它将数据按照 index granularity（默认8192行）进行划分，每个 index granularity 的开头第一行被称为 mark 行。主键索引存储该 mark 行对应的值。对于where 条件中含有主键索引的查询，通过对主键索引进行二分查找，减少查询时间。

3、有限支持delete、update：ClickHouse 没有直接支持delete、update操作。

4、列式存储：一条数据以列的形式存储，同一行为多条数据的同一个字段数据。同一字段的数据顺序存储到在一个或邻近的 block 中，对于大宽表的情况能减少 IO。

5、高吞吐写入能力：ClickHouse 在数据导入时全部是顺序写。

6、数据 Sharding：ClickHouse 支持单机模式，也支持分布式集群模式。

7、数据 Partitioning：ClickHouse 可以指定按照任意合法表达式进行数据分区操作。

三、hive

官网：Apache Hive

参考1：https://blog.csdn.net/l1212xiao/article/details/80432759

参考2：Hive是什么？_Apache Hive数据仓库介绍-AWS云服务

参考3：Hive架构及原理 - 知乎

1.什么是 Hive？

Apache Hive 是建立在 Apache Hadoop 基础之上，可实现大规模分析的分布式容错数据仓库系统。Hive 可以将结构化的数据文件映射为一张数据库表，让用户可以利用 SQL 读取、写入和管理 PB 级数据。

2.Hive 架构和如何运作？

Jobtracker 是 hadoop1.x 中的组件，它的功能相当于： Resourcemanager + AppMaster

TaskTracker 相当于： Nodemanager + yarnchild

· Hive 旨在让非程序员熟悉 SQL，并使用名为 HiveQL 的类似于 SQL 的界面对 PB 级数据进行操作。

· 传统关系数据库被用于对中小型数据集进行交互式查询，它在处理大型数据集时的表现并不理想。但 Hive 使用批处理，因此它可以快速操作非常大型的分布式数据库。

· Hive 会将 HiveQL 查询转换成在 Apache Hadoop 的分布式作业计划框架，即 Yet Another Resource Negotiator (YARN) 上运行的 MapReduce 或 Tez 作业。它会查询存储在分布式存储解决方案，如 Hadoop 分布式文件系统 (HDFS) 或 Amazon S3 当中的数据。

· Hive 将表元数据存储在数据库中，元数据包括(表名、表所属的数据库名、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等）。