文章目录
- 一 从技术发展探究使用Nosql的原因
- 1.1 单机Mysql时代
- 1.2 Memcached(缓存)+ MySQL + 垂直拆分[读写分离]
- 1.3 MySQL主从读写分离
- 1.4 分表分库 + 水平拆分 + Mysql 集群
- 1.5 如今时代
- 1.6 使用NoSQL的原因
- 二 Nosql初识
- 2.1 NoSQL的特点【解耦】
- 三 NoSQL的四大分类
- 四 CAP + BASE
- 4.1 ACID特性
- 4.2 CAP(三进二)
- 4.3 BASE 理论
一 从技术发展探究使用Nosql的原因
1.1 单机Mysql时代
- mysql:代指服务器
- 早期,一个网站的访问量一般不大,用单个数据库解决
- 静态网页居多,动态交互类型的网站不多
- 整个网站的瓶颈/数据存储的瓶颈
- 数据量的过多,一个机器无法存储
- 数据的索引(B+ Tree)过多,一个机器的内存放不下
- 访问量(读写混合),一个实例不能承受
1.2 Memcached(缓存)+ MySQL + 垂直拆分[读写分离]
- mysql:代指服务器
- 由于网站读的操作比较多,为减轻数据的压力,可以使用缓存保证效率!
- 发展过程
- 优化数据结构和索引
- 文件缓存(IO)
- Memcached
1.3 MySQL主从读写分离
- 由于数据库的写入压力增加,Memcached只能缓解数据库的读取压力,读写集中在一个数据库上让数据库不堪重负。
- 大部分网站开始使用主从复制技术来达到读写分离,以提高读写性能和读库的可扩展性,MySQL的master-slave模式成为这个时候的网站标配。
1.4 分表分库 + 水平拆分 + Mysql 集群
- 在Memcached的高速缓存,MySQL的主从复制,读写分离的基础之上,这时MySQL主库的写压力开始出现瓶颈,而数据量的持续猛增,由于MyISAM使用表锁,在高并发下会出现严重的锁问题,大量的高并发MySQL应用开始使用InnoDB引擎代替MyISAM。
- MyISAM:表锁
- InnoDB:行锁
- MySQL虽然推出了还不太稳定的表分区,这也给一般的公司带来了希望。
- MySQL推出了MySQL Cluster集群,但性能也不能很好满足互联网的需求,只是在高可靠性上提供了非常大的保证。
1.5 如今时代
- MySQL 的扩展性瓶颈
- MySQL数据库也经常存储一些大文本的字段,导致数据库表非常的大,在做数据库恢复的时候就导致非常的慢,不容易快速恢复数据库。
- 如果能把这些数据从MySQL省去,MySQL将变的非常的小,关系数据库很强大,但是它并不能很好的应付所有的应用场景,MySQL的扩展性差(需要复杂的技术来实现),大数据下IO压力大,表结构更改困难。
1.6 使用NoSQL的原因
- 今天可以通过第三方平台(如:Google,FaceBook等)可以很容易的访问和抓取数据【用户的个人信息,社交网络,地理位置】
- 用户生成的数据和用户操作日志已经成倍的增加、如果要对这些用户数据进行挖掘,SQL数据库已经不适合,而NoSQL数据库的发展却能很好的处理这些大的数据。
二 Nosql初识
- NoSQL = Not Only SQL【不仅仅是SQL】
- NoSQL泛指非关系型的数据库
- NoSQL数据库的产生就是为了解决大规模数据集合多种数据种类带来的挑战,尤其是大数据应用难题,包括超大规模数据的存储。(例如谷歌或Facebook每天为他们的用户收集万亿比特的数据)。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。
2.1 NoSQL的特点【解耦】
- 方便拓展
- 去掉关系数据库的关系型特性,数据之间没有关系,很好拓展
- 大数据量高性能
- NoSQL数据库都具有非常高的读写性能。得益于它的非关系性,数据库的结构简单
- NoSQL是一种细粒度的缓存,性能会比较高
- 数据模型多样
- NoSQL无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式,而在关系数据库里,增删字段是一件非常麻烦的事情。
- 传统的RDBMS VS NoSQL
- 传统的关系型数据库 RDBMS
- 高度组织化结构化数据
- 结构化查询语言(SQL)
- 数据和关系都存储在单独的表中
- 数据操纵语言,数据定义语言
- 严格的一致性
- 基础事务
- NoSQL
- 代表着不仅仅是SQL
- 没有声明性查询语言
- 没有预定义的模式
- 键值对存储,列存储,文档存储,图形数据库
- 最终一致性,而非ACID属性
- 非结构化和不可预知的数据
- CAP定理和BASE(异地多活)
- 高性能,高可用性 和 可伸缩性
- 传统的关系型数据库 RDBMS
- 拓展:3V+3高
- 大数据时代的3V [对问题的描述]
- 海量 Volume
- 多样 Variety
- 实时 Velocity
- 互联网需求的3高 [对程序的要求]
- 高并发
- 高可用
- 高性能
- 技术没有高低之分:Mysql和Nosql
三 NoSQL的四大分类
- KV键值
- 文档型数据库
- MongoDB
- 一个基于分布式文件存储的数据库。由 C++ 语言编写,主要处理大量文档
- 一个介于关系数据库和非关系数据库之间的产品
- 是非关系数据库当中功能最丰富,最像关系数据库的。
- MongoDB
- 列存储数据库
- HBase
- 分布式文件系统
- 图关系数据库
- 存放的是关系
- Neo4J, InfoGrid
四 CAP + BASE
- 关系型数据库遵循ACID规则,事务在英文中是transaction
4.1 ACID特性
- A (Atomicity) 原子性
- 事务里的所有操作要么全部做完,要么都不做,事务成功的条件是事务里的所有操作都成功,只要有一个操作失败,整个事务就失败,需要回滚
- 比如转账业务:转账双方的余额必须都进行正确的改变;否则不改变余额
- C (Consistency) 一致性
- 事务前后数据的完整性必须保持一致
- I (Isolation) 隔离性
- 并发的事务之间不会互相影响,如果一个事务要访问的数据正在被另外一个事务修改,只要另外一个事务未提交,它所访问的数据就不受未提交事务的影响
- A账户转100元至B账户,在这个交易还未完成的情况下,如果此时B查询自己的账户,是看不到新增加的100元的
- D (Durability) 持久性
- 一旦事务提交后,它所做的修改将会永久的保存在数据库上,即使出现宕机也不会丢失
4.2 CAP(三进二)
- C : Consistency(强一致性)
- A : Availability(可用性)
- P : Partition tolerance(分区容错性)
- CAP理论就是说在分布式存储系统中,最多只能实现上面的两点
- 由于当前的网络硬件肯定会出现延迟丢包等问题,所以分区容错性是我们必须需要实现的,所以我们只能在一致性和可用性之间进行权衡,没有NoSQL系统能同时保证这三点。
- 注意:分布式架构的时候必须做出取舍
- 一致性和可用性之间取一个平衡。多余大多数web应用,其实并不需要强一致性。
因此牺牲C换取P,这是目前分布式数据库产品的方向
- 一致性与可用性的决择
- 对于web2.0网站来说,关系数据库的很多主要特性却往往无用武之地
- 数据库事务一致性需求
- 很多web实时系统并不要求严格的数据库事务,对读一致性的要求很低, 有些场合对写一致性要求并不高。允许实现最终一致性。
- 数据库的写实时性和读实时性需求
- 对关系数据库来说,插入一条数据之后立刻查询,是肯定可以读出来这条数据的,但是对于很多web应用来说,并不要求这么高的实时性,比方说发一条消息之 后,过几秒乃至十几秒之后,我的订阅者才看到这条动态是完全可以接受的。
- 对复杂的SQL查询,特别是多表关联查询的需求
- 任何大数据量的web系统,都非常忌讳多个大表的关联查询,以及复杂的数据分析类型的报表查询,特别是SNS类型的网站,从需求以及产品设计角度,就避免了这种情况的产生。往往更多的只是单表的主键查询,以及单表的简单条件分页查询,SQL的功能被极大的弱化了。
- CAP理论的核心
- 一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个。因此,根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP原则和满足 AP 原则三 大类:
- CA - 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。
- CP - 满足一致性,分区容忍必的系统,通常性能不是特别高。
- AP - 满足可用性,分区容忍性的系统,通常可能对一致性要求低一些
- 一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个。因此,根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP原则和满足 AP 原则三 大类:
4.3 BASE 理论
- BASE理论是由eBay架构师提出的。BASE是对CAP中一致性和可用性权衡的结果,其来源于对大规模互联网分布式系统实践的总结,是基于CAP定律逐步演化而来。其核心思想是即使无法做到强一致性,但每个应用都可以根据自身业务特点,采用适当的方式来使系统达到最终一致性。
- BASE就是为了解决关系数据库强一致性引起的问题而引起的可用性降低而提出的解决方案。
- BASE详解
- 基本可用(Basically Available):
- 基本可用是指分布式系统在出现故障的时候,允许损失部分可用性,即保证核心可用。
- 电商大促时,为了应对访问量激增,部分用户可能会被引导到降级页面,服务层也可能只提供降级服务。这就是损失部分可用性的体现。
- 软状态(Soft State)
- 软状态是指允许系统存在中间状态,而该中间状态不会影响系统整体可用性。
- 分布式存储中一般一份数据至少会有三个副本,允许不同节点间副本同步的延时就是软状态的体现。MySQL Replication 的异步复制也是一种体现。
- 最终一致性(Eventual Consistency)
- 最终一致性是指系统中的所有数据副本经过一定时间后,最终能够达到一致的状态。弱一致性和强一致性相反,最终一致性是弱一致性的一种特殊情况。
- 基本可用(Basically Available):
- 它的思想是通过让系统放松对某一时刻数据一致性的要求来换取系统整体伸缩性和性能上改观。这么说的原因就在于大型系统往往由于地域分布和极高性能的要求,不可能采用分布式事务来完成这些指标,要想获得这些指标,我们必须采用另外一种方式来完成,这里BASE就是解决这个问题的办法。
- 解释:
- 分布式:不同的多台服务器上面部署不同的服务模块(工程),他们之间通过Rpc通信和调用,对外提供服务和组内协作。
- 集群:不同的多台服务器上面部署相同的服务模块,通过分布式调度软件进行统一的调度,对外提供服务和访问。