存储快速入门——【2】数据复制与容灾、云存储、大数据概念

一、数据复制与容灾

1 恢复时间目标（RTO）和恢复点目标（RPO）

对于信息系统而言，容灾就是使信息系统具有应对一定的灾难袭击，保持系统或间断运行的能力。

目前，大家比较习惯用一些技术指标来衡量容灾系统性能、需求等等，本文就来介绍一下常常提到的两个关键指标：RTO和RPO

指标一，恢复时间目标（RTO: Recovery Time Objective），其以应用为出发点，即应用的恢复时间目标，主要指的是所能容忍的应用停止服务的最长时间，也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。RTO是反映业务恢复及时性的指标，表示业务从中断到恢复正常所需的时间。RTO的值越小，代表容灾系统的数据恢复能力越强；
指标二，恢复点目标（RPO: Recovery Point Objective），RPO是反映恢复数据完整性的指标，其以数据为出发点，主要指的是业务系统所能容忍的数据丢失量，见下图:

一般来说，RTO和RPO的值是根据实际的业务需求来确定的。从狭义上讲，容灾是通过在异地建立和维护一个备份存储系统，利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。从广义上讲，任何提高系统可靠性与可用性的努力都可称之为容灾。

2 数据中心变革-从主动/被动到双活

2.1 主动/被动（被动中心不处理业务）

主动/被动：

数据主要存储在主数据中心中，备用数据中心只是在主数据中心出现故障或停机的时候起到备份的作用。而在主数据中心出现故障的期间，备用数据中心并不会被用于实时的数据访问或应用使用。

2.2 双活（主备都处理业务）

双活：

双活是觉得备用数据中心只做备份太浪费了，所以让主备两个数据中心都同时承担用户的业务，此时，主备两个数据中心互为备份，并且进行实时备份。一般来说，主数据中心的负载可能会多一些，比如分担60_{70%的业务，备数据中心只分担40%}30%的业务。

3 数据缩减技术效率对比

面对数据的急剧膨胀，企业需要不断购置大量的存储设备来应对不断增长的存储需求。然而，单纯地提高存储容量，这似乎并不能从根本解决问题。大量的异构物理存储资源大大增加了存储管理的复杂性，容易造成存储资源浪费和利用效率不高。因此，我们需要另辟蹊径来解决信息的急剧增长问题，堵住数据“井喷”。
高效存储理念正是为此而提出的，它旨在缓解存储系统的空间增长问题，缩减数据占用空间，简化存储管理，最大程度地利用已有资源，降低成本。目前业界公认的五项高效存储技术分别是:
数据压缩
重复数据删除
自动精简配置
自动分层存储
存储虚拟化

数据压缩和重复数据删除是实现数据缩减的两种关键技术。简而言之，数据压缩技术通过对数据重新编码来降低冗余度，而重复数据删除技术侧重于删除重复的文件或数据块，从而实现数据容量缩减的目的。

数据压缩与删除重复数据对比：

数据压缩和重复数据删除技术都着眼于减少数据量，其差别在于数据压缩技术的前提是信息的数据表达存在冗余，以信息论研究作为基础;而重复数据删除的实现依赖数据块的重复出现，是一种实践性技术。然而，通过上面的分析我们发现，这两种技术在本质上却是相同的，即通过检索冗余数据并采用更短的指针来表示来实现缩减数据容量。它们的区别关键在于，消除冗余范围不同，发现冗余方法不同，冗余粒度不同，另外在具体实现方法有诸多不同。

	数据压缩（这里指：无损压缩）	删除重复数据
关键点	通过串匹配	通过hash匹配
消除冗余范围	对局部数据产生作用，对单个文件效果明显	全局范围内进行冗余消除，适合包含众多文件的全局存储系统
发现冗余方法	通过串匹配	通过数据块的数据指纹（采用hash函数计算获得）
冗余粒度	冗余粒度小	数据块粒度大，冗余较大
性能瓶颈	数据串匹配，滑动窗口或缓存窗口越大，计算量就会随着增大	数据分块与数据指纹计算
数据安全	安全，不会发生丢数据现象	存在安全隐患，不同的数据块可能产生相同的数据块指纹（hash）
应用角度	对流式数据处理，不需要实现进行全局分析统计，应用更为简单	需要对数据进行分块，需要对原先物理文件进行逻辑表示

二、云存储概念

1 云计算定义及三种服务类型（SaaS、PaaS、IaaS）

1.1 云计算定义

①必要特性

按需自助付费

消费者单方面根据自己需求自动调配计算资源，例如：服务器时间和网络存储

广泛网络访问

移动电话、平板电脑、笔记本、工作站都能使用标准机制通过网络访问资源

资源地

多租户模型。提供商的计算资源池可用于服务多为消费者，根据用户需求动态分配或重新分配不同的物理和虚拟资源。资源在感觉上是与位置无关的。

快速灵活性

资源能够灵活调配并下发，并在某些情况下可按需自动快速的向外/向内伸缩。

可度量服务

云计算系统能够自动控制并优化资源的使用，能够监控和报告资源使用率（如：存储、带宽等），为服务提供商和消费者提供透明的服务使用情况。

②服务模型（SaaS、PaaS、IaaS）

Software-as-a-Service (SaaS，提供应用程序本身等)

用户不必购买并在自己的计算机或设备上安装、更新和管理这些资源，而可以通过Web 浏览器访问并使用它们。SaaS 提供商在云中为用户管理软件、处理能力和存储。

例如 Salesforce.com、Google Apps for Business 和 SAP SuccessFactors，以及免费的社交网络解决方案，例如 LinkedIn 和 Twitter。

Platform-as-a-Service（PaaS,提供库、工具等）

拥有 Internet 连接的任何人都可以参与并开发基于云的解决方案，而不必寻找、购买和管理硬件、操作系统、数据库、中间件以及其他软件。大多数PaaS 供应商都可以提供比传统编程工具更易于使用的JavaScript、Adobe Flex 和 Flash 等工具。用户不必拥有或控制开发环境，但却能真正地控制他们在其中开发和部署的应用程序。

一些知名度较高的 PaaS 提供商包括 Google App Engine、Windows Azure 和 Salesforce。

Infrastructure-as-a-Service（IaaS，提供网络、存储等）

aaS 提供商运行并管理此基础架构，用户可以在此基础架构上运行选择的操作系统和应用程序软件。

IaaS 提供商的例子有 Amazon Elastic Compute Cloud (EC2)、VerizonTerremark和 Google Compute Engine。

③部署模型（私有云、社区云、公有云、混合云）

私有云 – 云计算基础架构调配后用于包括多个消费者（例如业务单元）的单个组织，该云计算基础架构可以由该组织、第三方机构或他们的组合来拥有、管理和运营，所有基础架构可以位于组织内部或外部。

可由第三方机构来管理和运营

社区云 - 云计算基础架构调配后用于某个拥有相同需求（例如，使命、安全需求、策略、合规性考虑）的消费者社区。该云计算基础架构可以由该社区中的一个或多个组织、第三放架构或他们的组合来拥有、管理和运营，所有基础架构可位于组织内部或外部。

用于某个拥有相同需求的消费者社区，由某个社区组织维护、管理、运营

公有云 - 云计算基础架构调配后用于公众，该云计算基础架构可以由商业组织、学术组织或政府组织、或者他们的组合来拥有、管理和运营，所有基础架构位于云计算服务提供商。

用于公众

混合云 – 由两个或更多独立的云计算基础架构（私有、社区或公有）组成，通过标准或私有技术绑定在一起，实现数据和应用程序的可移植性（portability）。

2 云计算的三种模型（公有云、私有云和混合云）

2.1 公有云(面向大众)

公有云是面向大众提供计算资源的服务。由商业机构、学术机构或政府机构拥有、管理和运营，公有云在服务提供商的场所内部署。用户通过互联网使用云服务，根据使用情况付费或通过订购的方式付费。

公有云的优势是成本低，扩展性非常好。缺点是对于云端的资源缺乏控制、保密数据的安全性、网络性能和匹配性问题。公有云服务提供商有Amazon、Google和微软等。下图显示的是一个为组织和个人提供云服务的公有云。

2.2 私有云(面向单一组织)

在私有云模式中，云平台的资源为包含多个用户的单一组织专用。私有云可由该组织、第三方或两者联合拥有、管理和运营。

私有云的部署场所可以是在机构内部，也可以在外部。下面是私有云的两种实现形式：

①内部私有云

在这里插入图片描述

内部（on-premise）私有云：也被称为内部云，由组织在自己的数据中心内构建，如下图所示。该形式在规模和资源可扩展性上有局限，但是却有利于标准化云服务管理流程和安全性。组织依然要为物理资源承担资金成本和维护成本。这种方式适合那些需要对应用、平台配置和安全机制完全控制的机构。

②外部私有云

在这里插入图片描述

外部（off-premise）私有云：这种私有云部署在组织外部，由第三方机构负责管理。第三方为该组织提供专用的云环境，并保证隐私和机密性。该方案相对内部私有云成本更低，也更便于扩展业务规模。下图是一个典型的外部私有云结构图。

2.3 混合云

在混合云模式中，云平台由两种不同模式（私有或公有）云平台组合而成。这些平台依然是独立实体，但是利用标准化或专有技术实现绑定，彼此之间能够进行数据和应用的移植（例如，在不同云平台之间的均衡）。

应用混合云模式，一个机构可以将次要的应用和数据部署到公有云上，充分利用公有云在扩展性和成本上的优势。同时将任务关键型应用和数据放在私有云中，安全性更高。下图是一个混合云的例子。
在这里插入图片描述

3 私有云项目实施的四个阶段

云计算部署模型之间的差异：

3.1 整合(虚拟化技术整合基础设施)

企业机构可以通过各种虚拟化技术，整合其基础设施来大幅度提高网络效率。虚拟化是迁移到云计算机构的第一步，因它可创建无缝的资源逻辑存储并增加技术资产的使用率。虚拟化将应用程序与硬件基础设施分开，从而获得更高的服务灵活性。虚拟化正确实施后，将能更有效地重新配置资源，提高灵活性和降低运营成本。目前，服务器虚拟化是最广为人知的虚拟化类型，此外用户也应考虑虚拟化存储系统、应用程式、网络基础设施和端点，如台式电脑，这些都将有助于整合工作的进行。

3.2 优化(网络、存储、服务管理层)

整合IT 基础设施可通过增加资产利用率提高效率。但是，整合必须先通过优化存储、网络和服务管理层，使其支持虚拟化基础设施，并达到一致的共同需求。有报告认为网络架构需要经过三个关键变化，以帮助数据中心网络更好地实行虚拟化和云计算。

协议增强：首先，企业必须寻找新的协议，如TRILL （多链接透明互联）来取代STP（生成树协议）。TRILL 的广泛使用将能实现第2层多路径，提高带宽的可用性。

重新设计架构：现有的数据中心大部分都是基于三层体系架构，涵盖了接入、汇聚及核心层。这种架构在虚拟环境中的运行效率低下，无法优化服务器到服务器和服务器到存储所产生的流量。网络用量不断流过不同层次，这更造成了延迟，也影响了实时应用的性能。近年来，交换机的性能已显著改善，这包括了通过迁移到第二层体系结构，来消除汇聚层。此外，消除多层次也能减少数据中心网络所需的交换机和电缆的数量，从而降低运营成本以及资本消耗。

采用开放式架构：随着数据中心网络的异质性上升，客户应依据其行业标准，选择采用开放式的解决方案。这项投资在未来将能证明其正确性。

网络优化通过使用以太网架构，确保网络以最高的效率运行。它创建了一个更弹性、更灵活的网络基础设施，该设施可提供无缝的可扩展性以支持动态业务需求，并允许管理员维持商定的服务水平协议（SLA）。

3.3 自动化

企业必须将工作负载自动化，才能真正实现云技术的承诺–即业务敏捷性和按需重新配置资源。自动化可将大量繁复及耗时的手工流程转换到无缝的工作流程，从而减少重复过程。下面的图表概述了云自动化的各个阶段：

在这里插入图片描述

网络自动化是整个云自动化的重要组成部分。它必须支持按需重新配置资源和工作负载自动化。在选择网络自动化基础设施时，应考虑的关键因素包括：虚拟机感知零接触式虚拟化支持、最低配置的网络基础设施、执行自动化策略、预先定义的配置模板和服务配置

3.4 管理

最重要的一点，云服务供应商和企业内部的IT团队必须维持私有云的高可用性和服务水平。由于核心基础设施资源（计算、存储和网络功能）的虚拟化性质有不稳定的状态，这导致私有云的监控系统相当复杂。

另外重要的一点是，在业务运营被影响之前，通过积极主动的监控和预警管理来减少潜在的性能瓶颈。早期预警系统可以加快故障排除，并允许企业进一步改善和微调监控系统。尽管监控是管理方面很重要的一点，客户在考虑实现网络进化过程中，也应考虑系统是否有能力隔离、分析和报告流量模式以简化网络运营

三、大数据

1 什么是数据湖

1.1 概念

数据湖：一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据（无需先对数据进行结构化处理），并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习，以指导做出更好的决策。

简单来说，数据湖是一个信息系统，并且符合下面两个特征：

一个可以存储大数据的并行系统
可以在不需要另外移动数据的情况下进行数据计算

目前，Hadoop是最常用的部署数据湖的技术，所以很多人会觉得数据湖就是Hadoop集群。但未来总会有新的技术出现，因此我们要区分出Hadoop和数据湖的不同点。数据湖是一个概念，而Hadoop是用于实现这个概念的技术。

1.2 数据湖的主要特性

1、数据湖需要提供足够用的数据存储能力，这个存储保存了一个企业/组织中的所有数据。

2、数据湖可以存储海量的任意类型的数据，包括结构化、半结构化和非结构化数据。

3、数据湖中的数据是原始数据，是业务数据的完整副本。数据湖中的数据保持了他们在业务系统中原来的样子。

4、数据湖需要具备完善的数据管理能力（完善的元数据），可以管理各类数据相关的要素，包括数据源、数据格式、连接信息、数据schema、权限管理等。

5、数据湖需要具备多样化的分析能力，包括但不限于批处理、流式计算、交互式分析以及机器学习；同时，还需要提供一定的任务调度和管理能力。

6、数据湖需要具备完善的数据生命周期管理能力。不光需要存储原始数据，还需要能够保存各类分析处理的中间结果，并完整的记录数据的分析处理过程，能帮助用户完整详细追溯任意一条数据的产生过程。

7、数据湖需要具备完善的数据获取和数据发布能力。数据湖需要能支撑各种各样的数据源，并能从相关的数据源中获取全量/增量数据；然后规范存储。数据湖能将数据分析处理的结果推送到合适的存储引擎中，满足不同的应用访问需求。

8、对于大数据的支持，包括超大规模存储以及可扩展的大规模数据处理能力。
在这里插入图片描述

1.3 机会与风险

①机会

数据湖的重点是保存不同的数据，数据湖概念是希望解决两个问题：

信息孤岛：现在我们可以将不同来源都集中到一个未经管理的数据湖中，而不是保持数十种独立管理的数据集合。从理论上讲，整合的结果是加强信息利用和共享，同时降低服务器和许可成本。
暂存效果：大数据项目要求大量的各种信息，这种信息如此不同，以至于我们不知道这些信息究竟是什么，以及什么时候收到的，这时，我们就可以把它归类到某种类似数据仓库的结构化数据，或者关系型数据库管理系统以便未来使用。

②风险

无法决定数据质量或利用其他前人的经验。从定义上看，数据湖可以接收任何数据，不受监督或管理。没有描述性的元数据，和维护它的机制，数据湖就会变成数据沼泽。如果没有元数据，所有对数据的后续使用都意味着从零开始对数据进行分析。
安全性和访问控制。数据可以在不受内容监管的情况下被放到数据湖中，很多数据湖中数据的使用意味着其隐私和法规要求可能使其暴露于风险之下。
性能因素

2 大数据概念解析

大数据是指规模巨大、速度快、种类繁多的数据集合。大数据的特点包括数据量大、数据生成速度快、数据种类多样以及数据价值高。大数据通常包括结构化数据（例如数据库中的表格数据）、半结构化数据（例如日志文件、XML文件）和非结构化数据（例如文本、图像、音频、视频等）。大数据的产生主要来自于互联网、传感器、社交媒体、移动设备等各种数据源。

3 大数据如何创造价值

大数据可以通过分析和挖掘数据中的有价值信息，为企业和组织带来巨大的商业价值。大数据的价值主要体现在以下几个方面：

战略决策支持：通过对大数据的分析，可以帮助企业和组织做出更准确、更明智的决策，从而提高竞争力和市场反应能力。
产品和服务创新：通过对大数据的分析，可以发现用户需求和市场趋势，从而为企业和组织提供更具竞争力的产品和服务。
智能化运营和管理：通过对大数据的分析，可以实现企业和组织的智能化运营和管理，提高生产效率和资源利用率。
客户关系管理：通过对大数据的分析，可以深入了解客户需求和行为，从而提供个性化的产品和服务，增强客户满意度和忠诚度。
风险管理和安全防护：通过对大数据的分析，可以发现潜在的风险和安全威胁，从而采取相应的措施进行风险管理和安全防护。

4 大数据在存储中的应用

大数据在存储中的应用主要包括以下几个方面：

存储容量扩展：由于大数据的规模巨大，存储系统需要具备足够的容量来存储大量的数据。存储系统可以通过扩展硬盘容量、使用分布式存储技术等方式来满足大数据存储的需求。
存储性能优化：大数据的生成速度快，存储系统需要具备足够的性能来支持高速的数据写入和读取。存储系统可以通过使用高性能硬盘、采用多路径技术、使用缓存和加速技术等方式来提高存储性能。
数据保护和可靠性：大数据的价值往往非常高，存储系统需要提供可靠的数据保护机制来防止数据丢失和损坏。存储系统可以通过使用RAID技术、快照技术、连续数据保护技术等方式来提供数据的冗余和备份，以保证数据的可靠性和完整性。
数据管理和分析：大数据需要进行有效的管理和分析，以发现数据中的有价值信息。存储系统可以提供虚拟化技术、数据压缩和去重技术、数据分类和标签技术等方式来帮助用户进行数据管理和分析，提高数据的利用率和分析效果。
数据隐私和安全：大数据中可能包含敏感的个人和商业信息，存储系统需要提供数据隐私和安全的保护机制。存储系统可以通过加密技术、访问控制和身份认证技术、数据备份和灾备技术等方式来保护数据的隐私和安全。

参考：https://mp.weixin.qq.com/s/nO6m48UDBrjuEJ5CoTe2uw