导读:原文《省级智慧农业大数据平台项目规划建设方案[195页Word]》(获取来源见文尾),本文精选其中精华及架构部分,逻辑清晰、内容完整,为快速形成售前方案提供参考。
1 农业大数据平台项目概述
1.1 建设背景
1.2 农业大数据带了的新的挑战
1.2.1 数据挖掘搜集复杂
1.2.2 经验与数据的结合
1.2.3 分析与优化的结合
1.2.4 数据类型复杂
1.3 农业大数据发展趋势
1.4 建设目标
1.5 建设原则
2 农业大数据需求分析
2.1 统一业务平台
2.1.1 农业监控预警
2.1.2 农业精准种植
3 总体建设方案
3.1 总体设计原则
3.2 总体目标
3.2.1 宏观目标
3.2.2 阶段目标
3.3 总体建设任务
3.4 系统总体结构和逻辑结构
4 本期项目设计方案
4.1 应用支撑平台设计
4.1.1 设计目标
4.1.2 系统功能设计
4.2 大数据分析层规划设计
4.2.1 大数据平台介绍
4.2.2 大数据分析系统架构
4.2.3 数据总线
4.2.4 数据采集
4.2.5 数据存储
4.2.6 计算引擎
4.2.7 业务处理
4.2.8 业务管理
4.2.9 用户权限管理
4.3 应用系统设计
4.3.1 总体架构
4.3.2 以“统一业务应用系统”为核心的业务应用系统
4.3.3 综合事务协同管理平台建设
4.3.4 农业机关及相关单位信息共享应用系
4.3.5 智能视讯管理平台系统
4.3.6 农业职能延伸拓展互联网应用系统
4.3.7 农业卷宗管理应用系统
4.3.8 农业培训信息化系统
4.3.9 综合门户平台
4.4 网络系统设计
4.4.1 优化办公业务资源网络
4.4.2 内部办公网基础网络和支撑平台
4.4.3 完善省农业厅互联网数据中心
4.5 网络安全系统设计
4.5.1 优化办公业务资源网络
4.5.2 内部办公网基础网络和支撑平台
4.5.3 完善省农业厅互联网数据中心
4.6 网络安全系统设计
4.6.1 建设原则
4.6.2 总体安全策略
4.6.3 建设内容
4.6.4 安全部署总体架构图
4.7 农业云规划
4.7.1 云计算概述
4.7.2 农业云计算框架
4.7.3 IAAS农业云基础设施层建设
4.7.4 PAAS农业云平台层建设
4.7.5 SAAS农业云应用层建设
4.7.6 农业云实施建议
4.8 存储备份系统设计
4.8.1 建设必要性
4.8.2 建设目标
4.8.3 建设方案
4.8.4 备份策略
4.8.5 存储备份量计算
4.9 农业信息指挥中心设计
4.9.1 建设需求
4.9.2 建设方案
4.9.3 系统实现功能
部分内容:
1.1 系统总体结构和逻辑结构
XX市智慧农业项目数据中心是全省数据处理加工和数据分析应用的中心,总体上需实现上连省农业厅、下连各级农业、外连市级部门;构建资源整合、互联互通、资源共享的全省统一的数据中心资源库;构建完善的底层支撑平台,实现各类中间件、支撑系统、应用服务的统一管理;实现全省各部门、各级农业不同口径业务之间的协同应用、分级管理;实现二张网络应用的分开部署;实现各级农业电子农业数据资源电子化、数据处理业务自动化、决策分析科学化的信息化体系。
XX市智慧农业项目总体设计一个综合门户平台、十二个业务应用系统、一个大数据中心、二张通讯网络、二个保障体系。系统总体架构图如下。
系统总体架构图
以温度、湿度、摄像头等设备构成传感器完成大数据平台的初始数据收集工作,采用移动互联网完成数据数据的传输,最终在大数据平台完成数据的清洗、归类、分析、挖掘工作,最终形成可视化的图标展示等功能。
1.1.1.1 综合门户平台
建设综合门户平台,面向农民、农业机关、科研支撑单位以及社会公众等各类用户,根据角色权限以及网络的不同,提供统一的电子农业应用系统入口,以及全方位的智慧、个性化、快捷的综合性服务平台。包括智能门户系统、移动农业平台系统、农业信息全局视图系统和数字审批系统。
(1)智能门户系统
智能门户作为XX市智慧农业项目系统的集中展现窗口,是以用户需求为导向、以服务为目标的,集展现、受理、交付、监管于一身的一站式服务平台。通过采集整合各应用系统的数据资源,将分散在各处的异构服务信息按照面向用户的公共服务体系结构方式进行梳理,重构扁平化的服务栏目结构,搭建一个为XX市各级农业、科研支撑单位、公众农民等多种身份的群体提供全方位的智慧、个性化、快捷的公共服务平台。
(2)移动农业平台系统
移动农业平台系统提供了一套可在智能手机、平板电脑等移动终端设备上运行的客户端程序,采用与移动互联网通讯技术融合的方式,将移动终端变成XX市智慧农业项目的移动载体,使得XX市智慧农业项目的建设及应用模式变得更加灵活方便,满足XX市农业相关用户日常办公、审判的需求,满足农业各级领导开展业务处理、工作管理、决策支撑等需求,满足社会公众对农业办理、信息公开服务的需求等。
(3)农业信息全局视图系统
农业信息全局视图系统利用大数据分析技术形成各类管理全局视图,实现对全省农业厅工作整体的把控。同时能够自动生成相关汇报、对外交流、成果展示等数据,利用指挥中心大屏等设备的区域设计和展示优势进行多维直观展示,实现全省电子农业数据的可视化。
1.1.1.2 业务应用系统
从满足多样化的应用需求出发,以科学、规范、高质量的各类电子农业数据资源为基础提供全面的应用系统。应用系统基于强大完备的数据资源体系,以对农业、队伍管理、农业保障支撑为目的,构建面向各类用户的多层次多形式的综合应用系统,实现对农业全过程的规范化、网络化和智能化管理,全面提升农业信息收集利用能力、综合审判能力、快速反应能力,提高农业工作的高效发展。主要包括统一业务应用系统、综合事务管理、农业信息共享管理等9个业务应用系统。
1.1.1.3 应用支撑系统
应用支撑平台是一个承上启下的、组件化的支撑中间件平台,提供业务支撑及业务协同相关的各类组件服务。通过提供一个良好的可扩展平台,以降低信息化系统建设的复杂度、提高建设的可靠度。
考虑到办公业务资源网的系统部署数量多、对外交互多的实际状况,应用支撑平台能够提供纵向贯通各类不同层级的信息资源与上层应用之间的垂直通道,构建高效、实时、共享、准确的信息流;横向通过各类业务组件组装,满足跨农业部门、跨行业领域的信息共享和协同应用,最终达成资源共享、协同管理、多元服务的总体目标。
通过标准服务总线向上层应用平台提供粗粒度的应用基础服务接口,对应用开发者屏蔽下层信息细节和计算模型;另一方面对跨部门、跨领域应用流程提供管道,并进行管理与监控,实现各应用系统间的高效协同工作。
应用支撑平台由三类组件构成:基础组件、统一身份认证组件。
1.1.1.4 大数据分析平台
按照统一规划、统一标准、统一架构的指导思想,采用云计算、大数据等信息化前沿技术,打造高效、集约化、先进、稳定的智慧农业大数据平台。紧密切合政务大数据的发展契机,通过采集农业档案数据、海量的历史文书数据,汇总形成农业统一的大数据中心。通过大数据分析技术,挖掘数据价值,自动生成相关分析报告,文书内容,决策数据,预警数据等,以信息高效自动化手段提升农业的工作效率和决策分析水平。
通过对农业历史数据、采集数据、科研数据等,对数据进行清洗、转换、集中存储,同时结合现有各类数据库,形成标准化的农业数据中心。并通过海量数据的综合分析,形成核心数据、指标库、专项分析、业务监督、人员管理等多项数据应用服务功能,提供完善的信息检索功能,更好的为各级领导及机关人员服务。
1.1.1.5 基础设施层
1.1.1.5.1 农业云平台
通过部署虚拟化软件、服务器、存储设备、网络设备,内部搭建虚拟化环境,通过虚拟化技术构建新一代的数据中心,形成统一的云计算信息系统平台。
在数据中心,所有资源整合后在逻辑上以单一整体的形式呈现,这些资源根据需要进行动态扩展和配置,各单位最终信息系统业务按需使用资源。通过虚拟化技术,增强数据中心的可管理性,提高应用的兼容性和可用性,加速应用的部署,提升硬件资源的利用率,降低能源消耗。
虚拟化是云计算的基础,在数据中心,通过虚拟化技术将物理服务器进行虚拟化,具体为CPU虚拟化、内存虚拟化、设备I/O虚拟化等,实现在单一物理服务器上运行多个虚拟服务器(虚拟机),把应用程序对底层的系统和硬件的依赖抽象出来,从而解除应用与操作系统和硬件的耦合关系,使得物理设备的差异性与兼容性与上层应用透明,不同的虚拟机之间相互隔离、互不影响,可以运行不同的操作系统,并提供不同的应用服务。
1.1.1.5.2 存储及备份系统
随着农业信息系统的不断发展,信息化程度越来越高,信息化建设规模不断扩大,农业信息数据及各种业务应用系统被广泛依赖。
数据是承载所有业务的基础和核心,业务系统是提供高效稳定服务的关键,它们已成为各级农业体系提供正常服务的灵魂和核心。信息系统的数据丢失或业务系统中断,将带来严重后果。利用技术手段,确保重要数据安全和重要信息系统的连续稳定运行,对于农业来讲,至关重要。
二套网络数据分别存储在各自的虚拟存储资源池,数据存储的安全性至关重要,目前以国产CPU为核心的分布式集群存储完全能满足农业云的数据存储需求,建议采用以国产CPU为核心的分布式集群存储,从底层硬件到上层软件完全自主研发,从根本上保障数据的安全性。
1.1.1.5.3 三套基础网络
(1)互联网
主要提供农业的互联网访问及农业信息的公众发布,部署农业信息发布网站集群。市农业、各区县农业已建设完成。
(2)办公业务资源网络
办公业务资源网络为涉密业务专网,覆盖市县二级农业,主要处理涉密敏感信息,连接全省各级农业局、省农业厅及农业部。内部办公网建设了边界防护、违规外联、安全准入、入侵检测等各类安全防御系统,实现市县二级农业的分级保护。
(3)内部办公网
为本次新建设网络,覆盖省市县三级农业局,实现农业信息业务的部署,同时按照国家信息安全等级保护规范对机关内部办公网进行安全防御,确保机关内部办公网的稳定安全运行。
1.1.1.6 二个保障体系
(1)安全保障管理体系建设主要是依据《信息系统安全等级保护基本要求》中的管理要求,分别从安全管理机构、安全管理制度、人员安全管理、系统建设管理、安全运维管理、安全服务体系6个方面进行设计。
安全管理体系基于安全基础设施、以安全策略为指导,提供全面的安全服务内容,覆盖从物理、网络、系统、直至数据和应用平台各个层面,以及保护、检测、响应、恢复等各个环节,构建全面、完整、高效的信息安全体系,从而提高XX市农业的整体安全等级,为农业发展提供坚实的安全保障。
(2)运维保障体系建设
优化整合信息资源,在标准规范体系指导下,以智能运维管理平台为手段,建立直管、高效的IT服务管理,建设统一、规范的事件响应监督机制,实现统一管理、协调运转,主动预警、综合排查,量化评估、掌控全局的体系化、立体化的全面运行维护保障体系。
2 本期项目设计方案
2.1 应用支撑平台设计
2.1.1 设计目标
应用支撑平台是一个承上启下的、组件化的支撑中间件平台,提供业务支撑及业务协同相关的各类组件服务。通过提供一个良好的可扩展平台,以降低信息化系统建设的复杂度、提高建设的可靠度。
考虑到农业信息网的系统部署数量多、对外交互多的实际状况,应用支撑平台能够提供纵向贯通各类不同层级的信息资源与上层应用之间的垂直通道,构建高效、实时、共享、准确的信息流;横向通过各类业务组件组装,满足跨农业部门、跨行业领域的信息共享和协同应用,最终达成资源共享、协同管理、多元服务的总体目标。
通过标准服务总线向上层应用平台提供粗粒度的应用基础服务接口,对应用开发者屏蔽下层信息细节和计算模型;另一方面对跨部门、跨领域应用流程提供管道,并进行管理与监控,实现各应用系统间的高效协同工作。
2.1.2 系统功能设计
应用支撑平台由两类组件构成:基础组件和统一身份认证组件。其中基础组件包括服务总线、消息队列、短信邮件及全文检索;统一身份认证包括身份管理、身份认证、授权管理和安全审计等。
图 5.2.2 应用支撑平台功能架构
各组件遵循业界标准SOA架构。通过这种架构的实现机制,并采用开放标准和面向构件的设计,可很好地实现应用系统的平台支撑作用,使系统具有很好的灵动性和扩展性;同时能够使智慧农业数据中心在面对业务变化时能够快速做出反应,利用对现有的应用程序和应用基础结构投资来解决新出现的业务需求。
2.2 大数据分析层规划设计
2.2.1 大数据平台介绍
2.2.1.1 平台功能框架
大数据平台必须是一个开放的体系,相关软件系统和硬件设备应是业界主流产品,遵循国家标准、行业标准,保证平台、设备、管理系统能够随时无障碍地进行更新和移植。大数据管理平台还应遵循统一的标准规范,充分考虑与外部系统(4A及其它网管系统、业务系统等)的接口。
支撑数据挖掘、数据实时存储和访问、ETL计算平台这三类业务应用。
2.2.1.2 分布式存储功能
分布式存储为用户提供企业级大数据平台软件一体化解决方案;并支持特殊应用场景下的定制化硬件加速。面对结构复杂、需求多变的异构数据处理业务,分布式存储不仅提供统一、稳定、高效的存储子系统,还整合了先进的分布式集群资源管理和进程调度方案、高性能数据总线技术、全并行架构分布式关系数据库、面向图计算的并行图数据库、分布式 KV 存数据库,以及面向用户业务的各类工具软件和库支持。基于分布式存储平台,用户可以以非常低的时间代价构建大规模企业大数据一体化解决方案。
存储组件的结构图
上图是存储组件的结构图,主要包括如下功能组件:
1) 分布式集群存储: 基于对象的高性能分布式文件存储系统。
2) DFS: 分布式文件系统。
3) HBase:分布式 Key-Value 数据库。
4) DSQL:分布式关系数据库。
5) GraphDB:并行图数据库。
6) DB:传统数据库。
集群存储系统基于自主可控的申威硬件平台,采用带外分布式架构,隔离元数据信息与数据信息,降低二者之间的性能干扰,采用对象存储技术将文件切片分布式存储在存储服务器集群上,充分利用所有存储服务器硬件性能,并且同时对客户端提供访问服务,形成高效聚合带宽,增加业务读写效率。
Hadoop分布式文件系统HDFS(Hadoop Distributed File System)能提供高吞吐量的数据访问,适合大规模数据集方面的应用。通过聚合数十上百台,甚至数千台服务器本地文件系统的吞吐能力,HDFS提供同时对超大数据文件的访问能力。
2.2.1.3 分布式计算功能
MapReduce是一种简化并行计算的编程模型,名字源于该模型中的两项核心操作:Map和Reduce。Map将一个任务分解成为多个任务,Reduce将分解后多任务处理的结果汇总起来,得出最终的分析结果。
MapReduce适合于半结构化数据或非结构化数据的挖掘和分析。
2.2.1.4 NoSQL功能
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,其设计目标是用来解决关系型数据库在处理海量数据时的局限性。
HBase使用场景有如下几个特点:海量数据(TB或PB级别以上);需要很高的吞吐量;需要在海量数据中实现高效的随机读取;需要很好的伸缩能力;能够同时处理结构化和非结构化的数据;不需要完全拥有传统关系型数据库所具备的ACID特性。United Hadoop的HBase支持地理容灾、二级索引等高级特性,满足极高可靠性和开发易用性要求。
HBase适合于建立海量数据存储平台,用于数据的存储和实时访问,例如历史明细查询、详单查询等业务。
2.2.1.5 数据仓库功能
Hive是一个建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。
Hive主要特点如下:通过HQL语言非常容易的完成数据提取、转换和加载(ETL);通过HQL完成海量结构化数据分析;灵活的数据存储格式,支持JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFILE等存储格式,并支持自定义扩展;Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,United Hadoop的Hive具有如下特性:基于kerberos技术的安全认证机制;数据文件加密机制;双机热备;完善的权限管理。
Hive适合于结构化数据或半结构化数据的挖掘和分析。
2.2.1.6 分布式协调功能
ZooKeeper是一个分布式、高可用性的协调服务。在Hadoop系统中主要提供两个功能:一个功能是帮助系统避免单点故障,建立可靠的应用程序,另一个功能是提供分布式协作服务和维护配置信息。
ZooKeeper主要特点:
l 顺序一致性:按照客户端发送请求的顺序更新数据。
l 原子性:更新要么成功,要么失败,不会出现部分更新。
l 单一性 :无论客户端连接哪个server,都会看到同一个视图。
l 可靠性:一旦数据更新成功,将一直保持,直到新的更新。
l 及时性:客户端会在一个确定的时间内得到最新的数据。
2.2.1.7 工作流管理功能
Oozie是一个用来管理Hadoop job任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。
Oozie主要特点:支持分发、聚合、选择等工作流流程模式;与Hadoop生态系统各组件紧密结合;流程变量支持参数化;支持流程定时触发;提供了HA机制;自带一个Web Console,提供了流程查看、流程监控、日志查看等功能。
2.2.1.8 维护管理功能
提供的维护管理功能是Hadoop平台的维护管理系统,是Hadoop系统操作和维护的统一入口,提供操作的定义和流程引导,并对于系统中的各项资源运行情况和操作进行监控记录,为系统的日常维护提供依据;
运维管理包括升级向导、日常向导、日志收集与分析、告警、监控、安装向导、配置管理、审计管理、用户管理等。
集群管理包括集群资源授权管理、数据服务封装接口、集群资源动态调度、并发控制、备份和容灾、用户和应用接入安全、集群组件HA和数据私密性。
集群管理系统负责整个系统的管理,包括北向接口、南向接口和本地管理GUI界面。北向接口包括OM类的Syslog、SNMP,以及安全管理对接接口LDAP。本地管理GUI界面提供系统中各类软硬件的图形化维护入口,包括日常维护,以及安装、升级和扩容向导等。
2.2.2 大数据分析系统架构
平台系统架构图
如上图所示,作为一款大数据分析平台,平台可以分为四个大的子系统。包括:采集子系统、存储分析子系统、业务管理子系统、系统管理子系统。
存储分析子系统又自下而上可以分三层,依次是数据存储层、算法模块层以及业务处理层。
系统采用分布式文件、分布式数据库、分布式集群计算等多种分布式技术作为构建系统的基础平台,使得整个系统平台具有了高扩展、高容错、高性能、高可用的能力。
采集子系统提供多种接口,支持对不同数据源的采集,支持对多种数据类型的提取信息,同时对采集的数据进行分析提取,对数据内容进行匹配过滤,将各种类型的数据分门别类的存储到存储分析子系统中,供后者分析使用。子系统提供对多种文档类型的导入功能,包括word,ppt,execl,pdf,rtf,txt等多种文件类型。
业务管理子系统管理客户的大数据分析业务,系统提供用户权限、业务管理、数据检索、业务定义等功能模块,满足客户业务分析的管理需求。
系统运维子系统管理整个系统的设备,软件,配置等,采用统计报表、状态显示等多种方式展示系统运行状态,维护整个系统稳定运行,实现系统的高可用性,高扩展性。
存储分析子系统是整个系统的核心部分。实现海量数据的存储、检索、分析等功能。实现对目标数据、图像信息、声音信息等各种文件类型的海量存储,实现对这些类型的文件的关键字快速检索。
数据存储层:支持海量异构数据的统一可靠的存储管理,对外提供统一的分布式调用接口,提供文件、数据库、索引等多种存储形式。
基本算法模块层:提供大数据分析的各种基本算法模块,支持多种计算模型的分布式计算框架,为上层业务系统提供专业的计算处理库。
业务处理层:基于底层提供的算法模块和基础数据,完成各种业务分析处理,同时支持对基本算法的组合定义,实现客户自定义的业务处理任务。
数据总线是系统运行的一个重要基础架构,整个系统中,包括子系统之间,子系统内部均采用数据总线技术,实现子系统之间和子系统内部的数据和消息传递。数据总线支持数据和消息的缓存、中转、分发、调度等。数据总线是计算与存储的枢纽,同时是内外数据交换的通道,完成数据在组件间及层次间中转、缓冲及调度。
产品特点:
l 各种异构数据接入
l 海量数据存储,高可用,高扩展
l 提供各种基本算法,可以组合业务模型
l 基于权限管理业务,控制用户访问业务和数据
喜欢文章,您可以关注+评论+转发本文,了解更多内容请私信:方案