流计算

流计算
- 流计算概述
- - 静态数据和流数据
  - 批量计算和实时计算
  - 流计算概念
  - 流计算与Hadoop
  - 流计算框架
- 流计算处理流程
- - 数据处理流程
  - 数据实时采集
  - 数据实时计算
  - 实时查询服务
- 流计算的应用
- 开源流计算框架Storm
- - Storm简介
  - Storm的特点
Flink
- Flink简介
- 为什么选择Flink
- - 传统数据处理架构
  - 大数据Lambda架构
  - 流处理架构
  - Flink的优势
- Flink应用场景
图计算
- 图计算简介
- - 图结构数据
  - 传统图计算解决方案的不足之处
  - 图计算通用软件
- Pregel简介

流计算

流计算概述

静态数据和流数据

很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是静态数据。
技术人员可以利用数据挖掘和OLAP（On-Line Analytical Processing）分析工具从静态数据中找到对企业有价值的信息。
在这里插入图片描述
近年来，在Web应用、网络监控、传感监测等领域，兴起了一种新的数据密集型应用——流数据，即数据以大量、快速、时变的流形式持续到达。
流数据具有如下特征：

数据快速持续到达，潜在大小也许是无穷无尽的
数据来源众多，格式复杂
数据量大，但是不关注存储，一旦经过处理，要么被丢弃，要么被归档存储
注重数据的整体价值，不过分关注个别数据
数据顺序颠倒，或者不完整，系统无法控制将要处理的新到达的数据元素的顺序

批量计算和实时计算

对静态数据和流数据的处理，对应着两种截然不同的计算模式：批量计算和实时计算
批量计算：充裕时间处理静态数据，如Hadoop
流数据不适合采用批量计算，因为流数据不适合用传统的关系模型建模
流数据必须采用实时计算，响应时间为秒级
数据量少时，不是问题，但是，在大数据时代，数据格式复杂、来源众多、数据量巨大，对实时计算提出了很大的挑战。因此，针对流数据的实时计算——流计算，应运而生
在这里插入图片描述

流计算概念

流计算：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息
在这里插入图片描述

流计算的基本理念：数据的价值随着时间的流逝而降低。
当事件出现时就应该立即处理，而不是缓存起来进行批量处理。
为了及时处理流数据，就需要一个低延迟、可扩展、高可靠的处理引擎。
对于一个流计算系统来说，它应达到如下需求：
（1）高性能：处理大数据的基本要求，如每秒处理几十万条数据
（2）海量式：支持TB级甚至是PB级的数据规模
（3）实时性：保证较低的延迟时间，达到秒级别，甚至是毫秒级别
（4）分布式：支持大数据的基本架构，必须能够平滑扩展
（5）易用性：能够快速进行开发和部署
（6）可靠性：能可靠地处理流数据

流计算与Hadoop

Hadoop设计的初衷是面向大规模数据的批量处理，每台机器并行运行MapReduce任务，最后对结果进行汇总输出
MapReduce是专门面向静态数据的批量处理的，内部各种实现机制都为批处理做了高度优化，不适合用于处理持续到达的动态数据可能会想到一种“变通”的方案来降低批处理的时间延迟——将基于MapReduce的批量处理转为小批量处理，将输入数据切成小的片段，每隔一个周期就启动一次MapReduce作业。但这种方式也无法有效处理流数据：

切分成小片段，可以降低延迟，但是也增加了附加开销，还要处理片段之间依赖关系
需要改造MapReduce以支持流式处理

流计算框架

目前有三类常见的流计算框架和平台：商业级的流计算平台、开源流计算框架、公司为支持自身业务开发的流计算框架
商业级：IBM InfoSphere Streams和IBM StreamBase
较为常见的是开源流计算框架：Twitter Storm、Yahoo! S4（Simple Scalable Streaming System）
公司为支持自身业务开发的流计算框架：Facebook Puma、Flink、Dstream（百度）、银河流数据处理平台（淘宝）

流计算处理流程

数据处理流程

传统的数据处理流程：
需要采集数据并存储在关系数据库等数据管理系统中，之后由用户通过查询操作和数据管理系统进行交互
传统的数据处理流程隐含了两个前提：

存储的数据是旧的。存储的静态数据是过去某一时刻的快照，这些数据在查询时可能已不具备时效性了。
需要用户主动发出查询来获取结果。

流计算的处理流程：
流计算的处理流程一般包含三个阶段：

数据实时采集
数据实时计算
实时查询服务

数据实时采集

数据实时采集阶段通常采集多个数据源的海量数据，需要保证实时性、低延迟和稳定可靠
以日志数据为例，由于分布式集群的广泛应用，数据分散存储在不同的机器上，因此需要实时汇总来自不同机器上的日志数据
数据采集系统的基本架构一般有以下三个部分：
（1）Agent：主动采集数据，并把数据推送到Collector部分
（2）Collector：接收多个Agent的数据，并实现有序、可靠、高性能的转发
（3）Store：存储Collector转发过来的数据（对于流计算不存储数据）

数据实时计算

数据实时计算阶段对采集的数据进行实时的分析和计算，并反馈实时结果
经流处理系统处理后的数据，可视情况进行存储，以便之后再进行分析计算
在时效性要求较高的场景中，处理之后的数据也可以直接丢弃

实时查询服务

实时查询服务：经由流计算框架得到的结果可供用户进行实时查询、展示或储存
在流处理流程中，实时查询服务可以不断更新结果，并将用户所需的结果实时推送给用户
虽然通过对传统的数据处理系统进行定时查询，也可以实现不断地更新结果和结果推送，但通过这样的方式获取的结果，仍然是根据过去某一时刻得到的结果，与实时计算有着本质的区别。

流处理系统与传统的数据处理系统的区别：

流处理系统处理的是实时的数据，而传统的数据处理系统处理的是预先存储好的静态数据
用户通过流处理系统获取的是实时结果，而通过传统的数据处理系统，获取的是过去某一时刻的结果
流处理系统无需用户主动发出查询，实时查询服务可以主动将实时结果推送给用户

流计算的应用

流计算是针对流数据的实时计算，可以应用在多种场景中，如Web服务、机器翻译、广告投放、自然语言处理、气候模拟预测等
并不是每个应用场景都需要用到流计算。流计算适合于需要处理持续到达的流数据、对数据处理有较高实时性要求的场景

开源流计算框架Storm

批处理系统关注吞吐率，流处理系统关注延时

Storm简介

Twitter Storm是一个免费、开源的分布式实时计算系统，Storm对于实时计算的意义类似于Hadoop对于批处理的意义，Storm可以简单、高效、可靠地处理流数据，并支持多种编程语言
Storm框架可以方便地与数据库系统进行整合，从而开发出强大的实时计算系统

Storm的特点

整合性：Storm可方便地与队列系统和数据库系统进行整合
简易的API：Storm的API在使用上即简单又方便
可扩展性：Storm的并行特性使其可以运行在分布式集群中
容错性：Storm可自动进行故障节点的重启、任务的重新分配
可靠的消息处理：Storm保证每个信息都能完整处理
支持各种编程语言：Storm支持使用各种编程语言来定义任务
快速部署：Storm可以快速进行部署和使用
免费、开源：Storm是一款开源框架，可以免费使用

Flink

Flink简介

Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架，并且可以同时支持实时计算和批量计算
Flink具有十分强大的功能，可以支持不用类型的应用程序。Flink的主要特性包括：批流一体化、精密的状态管理、时间事件支持以及精确一次的状态一致性保障等。
Flink不仅可以运行在包括YARN、Mesos、Kubernetes等在内的多种资源管理框架上，还支持在裸机集群上独立部署。在启用高可用选项的情况下，不存在单点失效问题。

为什么选择Flink

传统数据处理架构

显著特点是采用一个中心化的数据库系统，用于存储事务性数据
在这里插入图片描述

大数据Lambda架构

主要包含两层，即批处理层和实时处理层
在批处理层中，采用MapRedice、Spark等技术进行批量数据处理
在实时处理层中，采用Storm、Spark Streaming等技术进行数据的实时处理

流处理架构

为了高效地实现流处理架构，一般需要设置消息传输层和流处理层
消息传输层从各种数据源采集连续事件产生的数据，并传输给订阅了这些数据的应用程序
流处理层会持续地将数据在应用程序和系统间移动，聚合并处理事件，并在本地维持应用程序的状态
在这里插入图片描述
流处理架构的核心是使各种应用程序互连在一起的消息队列，消息队列连接应用程序，并作为新的共享数据源，这些消息队列取代了从前的大型集中式数据库。
流处理器从消息队列中订阅数据并加以处理，处理后的数据可以流向另一个消息队列，这样，其他应用程序都可以共享流数据。
在一些情况下，处理后的数据会被存放到本地数据库中。
在这里插入图片描述
流处理架构正在逐步取代传统数据处理架构和Lambda架构，成为大数据处理架构的一种新趋势。
在流处理架构中，批处理被看做是流处理的一个子集，因此，就可以用面向流处理的框架进行批处理，这样就可以用一个流处理框架来统一处理流计算和批量计算，避免了Lambda架构中存在的“多个框架难管理”的问题。

Flink的优势

Flink是一种兼高吞吐、低延迟和高性能的实时流计算框架，并且同时支持批处理和流处理。
总体而言，Flink具有以下优势：

同时支持高吞吐、低延迟、高性能
同时支持流处理和批处理
高度灵活的流式窗口
支持有状态计算
具有良好的容错性
具有独立的内存管理
支持迭代和增量迭代

Flink应用场景

事件驱动型应用
数据分析应用
数据流水线应用

图计算

图计算简介

图结构数据

许多大数据都是以大规模图或网络的形式呈现，如社交网络、传染病传播途径、交通事故对路网的影响
许多非图结构的大数据，也常常会被转换为图模型后进行分析
图数据结构很好地表达了数据之间的关联性
关联性计算是大数据计算的核心——通过获得数据的关联性，可以从噪音很多的海量数据中抽取有用的信息

传统图计算解决方案的不足之处

传统的图计算算法都存在以下几个典型问题：
（1）常常表现出比较差的内存访问局部性
（2）针对单个顶点的处理工作过少
（3）计算过程中伴随着并行度的改变
针对大型图（比如社交网络和网络图）的计算问题，可能的解决方案及其不足之处具体如下：
（1）为特定的图应用定制相应的分布式实现
（2）基于现有的分布式计算平台进行图计算
（3）使用单机的图算法库
（4）使用已有的并行图计算系统

图计算通用软件

传统的图计算解决方案无法解决大型图的计算问题，因此，就需要设计能够用来解决这些问题的通用图计算软件
针对大型图的计算，目前通用的图计算软件主要包括两种：

第一种主要是基于遍历算法的、实时的图数据库，如Neo4j、OrientDB、DEX和 Infinite Graph
第二种则是以图顶点为中心的、基于消息传递批处理的并行引擎，如GoldenOrb、Giraph、Pregel和Hama，这些图处理软件主要是基于BSP模型实现的并行图处理系统

一次BSP(Bulk Synchronous Parallel Computing Model，又称“大同步”模型)计算过程包括一系列全局超步（所谓的超步就是计算中的一次迭代），每个超步主要包括三个组件：

局部计算：每个参与的处理器都有自身的计算任务，它们只读取存储在本地内存中的值，不同处理器的计算任务都是异步并且独立的
通讯：处理器群相互交换数据，交换的形式是，由一方发起推送(put)和获取(get)操作
栅栏同步：当一个处理器遇到“路障”（或栅栏），会等到其他所有处理器完成它们的计算步骤；每一次同步也是一个超步的完成和下一个超步的开始