大数据对银行业的价值不言而喻。
在业务上,如何去挖掘客户的内在需求,为客户提供更有价值的服务是目前金融机构的战略转型和业务创新的关键。大数据技术正是金融机构深挖数据资产、实现差异化竞争、推动业务创新的重要工具。
在运营上,通过大数据应用和分析,金融机构能够定位内部管理短板、制订有效改进措施、优化管理思路,从而降低管理运营成本。
在风险上,大数据技术有助于降低信息不对称程度,增强风控能力。目前大数据风控管理在金融业已广泛推广,已有小额信贷等成功应用案例。
相对一般业务系统而言,大数据系统是一个分布式系统、规模较大、组件众多,金融企业对大数据系统在扩展性、可靠性、可控性、安全性、运维方便、资源动态调配、多租户支持等方面提出了诸多需求。
那么金融行业如何构建大数据平台呢?
小亿今天想分享一些关于这个话题。
一、金融行业面临的问题
相比中小型金融企业, 银行具有庞大的客户数量, 其数字化转型难度更为巨大。挑战主要包括数据种类越来越多样, 数据量日趋庞大, 无论是数据存储还是数据查询, 在软硬件等方面都遇到了瓶颈。
用户的应用和分析结果呈整合趋势, 对实时性和指令响应时间的要求越来越高;同时, 数据处理的模型也越来越复杂, 算法的复杂性相应提高, 这些都需要从数据采集、数据管理、数据处理 (包括数据传输) 等方面改进优化。例如某些银行在数据处理和应用中就存在以下的问题:
1、传统工具数据存储空间成为瓶颈
随着业务的日益发展, 金融企业出现了大量的冷数据、低价值数据和历史数据。这些数据已经超出了传统数据存储工具软件的管理上限, 同时还消耗了价格昂贵的服务器、数据库的有效存储空间。随着数据增长速度的加快, 此问题日益成为金融业务改造和拓展的巨大障碍。
2、传统工具的数据加工效率日益低下
在信用风险管理、客户关系管理、财务分析、合规管理、运行监控、数据仓库等领域, 每天都需要进行TB、10 TB甚至100 TB级数据的加工, 传统存储过程加工周期越来越长, 已经无法满足应用的要求。
3、应用系统的客户体验越来越差
数据量的剧增、加工效率的下降导致金融应用系统的客户体验越来越差。此类情况在很多金融应用中存在, 部分金融应用不得不将实时查询方式改造为离线查询方式, 进而导致客户体验进一步下降。
既然目前的金融行业数据分析与处理存在这样一些问题,那么金融大数据平台的建设就更加有必要了。
二、金融大数据平台建设思路
1、建设目标
金融大数据应用平台集合海量结构化和非结构化数据,通过实时分析,可以为金融监管机构、金融机构、证券机构、互联网金融等,提供客户全方位信息,通过分析和挖掘客户的消费习惯,并准确预测客户行为,使金融监管机构和金融服务平台在营销和风控方面有的放矢。利用大数据来分析金融风险,精准营销,以及建设健全的诚信体系也是目前综合平台建设的主要目标。
2、金融大数据平台架构
大数据平台的架构如下图所示:
其中,最上层是大数据应用。大数据平台的最终目的是要解决实际的业务问题, 在央行履职方面可以应用于宏观审慎评估、宏观经济分析、社会信用体系建设、反洗钱和精准扶贫等领域。
第二层是应用接口层。包括数据的采集、交互查询、算法库和数据展示等多个组件, 涵盖了数据的采集、处理、分析、展示以及删除等整个数据生命周期。
第三层是资源管理层。主要用于存储资源和计算资源的统一管理和分配, 以容器的方式, 来为计算框架和存储框架分配资源, 并支持资源调度、弹性伸缩。第四层是基础设施层。基础设施层提供基本的计算、网络和存储资源, 是上层数据存储、计算和传输的基础。
最后, 大数据平台还需要部署统一的平台安全监控, 用于实现大数据平台的安全管理、运维监控等功能。
3、大数据关键技术分析
(1)数据采集与预处理
在大数据的生命周期中, 数据采集处于第一个环节。数据采集就是把分散地存在于不同的网络和系统中的结构化和非结构化数据整合在一起, 进而对这些数据进行综合分析。数据的采集方法包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等, 此外, 不同的数据集之间存在异构性问题, 需要对采集到的数据进行数据预处理, 尤其是将异构数据提取和整理成一个新的、具有统一的结构和模式的数据集合, 形成一系列便于增删查改、分析和处理的数据视图。
(2)大数据计算模式
大数据的分析挖掘是数据密集型计算, 不但需要巨大的计算能力和数据吞吐率, 还对计算系统的扩展性和性价比有很高要求。所谓大数据计算模式, 是根据大数据的不同数据特征和计算需求, 提炼并建立的各种高层抽象或模型。随着大数据的出现和发展, 人们更加意识到数据背后隐藏的价值, 同时, 大数据所特有的数据量大、类型多样、更新速度快和价值密度低的特征对数据处理提出更为严苛的挑战, 大数据的应用场景、用户需求和数据特征的多样性要求更高层次的大数据计算模式。
针对不同的计算需求出现了多种典型和重要的大数据计算模式, 如, MapReduce并行计算抽象、Spark系统中的“分布内存抽象RDD”和GraphLab中的“图并行抽象”等。与此同时, 也出现了很多与这些计算模式相适应的大数据计算系统和工具。
(3)数据可视化
数据可视化旨在借助图形化手段, 清晰有效地传达与沟通信息, 是实现用户与数据集合交互的直观的方式。可视化与可视化分析软件可以根据用户需求, 通过提炼数据特征, 从不同的维度将不同类型的数据集合, 以关系图、时序图或表格等形式展示在用户面前, 帮助用户更加快速地获取有效信息, 得出准确的分析结果。
(4)大数据存储管理技术
大数据存储技术首先需要解决的是数据海量化和快速增长的需求。存储的硬件架构和文件系统的性价比要大大高于传统技术, 存储容量要具备良好的吞吐量和扩展性, 且要求健壮的容错能力和高性能的并发读写能力。目前, 谷歌文件系统GFS和Hadoop的分布式文件系统HDFS奠定了大数据存储技术的基础。大数据存储技术第二个要解决的是处理格式多样化的数据, 这要求大数据存储管理系统能够处理各种非结构化数据。其代表产品主要有谷歌的Big Table和Hadoop Hbase等非关系型数据库。
4、金融大数据平台安全防护
随着大数据技术在金融行业的广泛应用, 大数据技术在促进金融创新的同时, 也带来了无法忽视的安全风险。理应客观看待风险, 提前做好风险识别及应急预案, 从数据管理、基础设施防护和法律法规等方面应对大数据安全问题。
一是在平台安全管理方面, 要强化数据权限控制、数据脱敏和隐私保护和数据可信赖管理。
二是加强大数据应用系统的安全建设, 将所有的环节包括数据采集、存储、分析和处理、数据挖掘和数据展示纳入信息安全的范畴, 并配置相应的安全产品, 形成统一的、可控的安全体系。
三是要健全安全管理制度, 在大数据安全法律法规的框架下, 完善信息安全管理制度、信息安全监管体系, 培养大数据安全人才。
三、金融大数据平台案例
前文讲了那么多理论,小亿想分享一个亿信华辰实际建设的金融大数据平台以便大家更好地理解。
中国农业发展银行:数据分析应用架构设计
应用产品:数据采集汇总平台 亿信ABI 元数据管理平台
1、项目背景
根据中国农业发展银行信息化建设“十二五”规划,在“十二五”期间,要对业务经营数据进行梳理,以保证数据的一致性和准确性为目的,实施数据质量工程;以数据交换平台为基础,建设数据仓库;到2015年末,实现经营和管理数据在全行范围的共享,以数据仓库为基础,推动建立面向主题、面向市场、面向决策、满足内部管理和外部政策要求的智能应用,力争形成全行完整统一、各有侧重的决策支持平台,为经营管理和客户服务提供基础信息和决策依据。
近年来,随着内部管理和外部监管要求的不断提高,面向数据分析的管理应用需求日益增加。农发行当前在用的几个报表系统分别实现了对应业务领域的管理分析,但农发行报表应用的整体建设存在以下主要问题:
- 各报表系统的数据来源不一,缺乏统一的数据标准和规范,跨系统进行业务综合分析难以实现;
- 同一口径的统计指标需要在不同系统内重复补录获取,而数据结果却可能不一致;
- 随着内部管理和外部监管要求的不断提高,面向数据分析的管理应用和数据采集补录应用需求日益增加;
- 各类报表应用系统的数据获取流程和报送流程基本相同,却需要单独开发不同的报表系统;
- 采集报表应用存在业务人员补录数据工作量大,数据质量无法保证、报送流程不易管控和采集数据无法有效进行分析等问题,因监管部门制定了一些新的监管报表或者改变监管报表的统计口径等,报表格式也需经常进行调整;
为将不同的业务报表集中到一个统一的系统框架下来,并为将来的简单业务报表提供快捷的定制和实现手段,农发行在2009-2011年间,完成通用综合报表平台的建设和省行推广,初步实现经营管理数据的集成和共享。
到2012年初,综合报表平台已经上线使用近三年时间,系统完成了初步建设目标后,随着报表应用、使用用户、数据量的迅速增长,系统也暴露出了一些问题,主要有:
- ETL性能不理想,数据抽取转换加载时间过长;
- 各个业务部门使用平台制作报表难,主要表现在难以理解数据模型上;
- 数据量增长过快,在第一次优化前,数据已呈现爆炸式增长的趋势;
- 仍然存在综合业务系统与信贷管理系统数据不同步的问题;
- 数据及时性不能保证,导致有些时效性要求高的业务部门无法放心使用报表平台。
2、项目建设概况
为了解决以上问题,保障系统的科学性、先进性、高效性、易用性,更为了全面夯实农发行数据分析应用侧的技术架构,从2012年中到2014年初,于行内发起了更大规模的综合报表平台升级改造项目。
经过历时五年,总共两期项目的建设,农发行数据应用体现形成了一个较为完整的技术体系,囊括了数据仓库、分析应用、数据管理、数据治理、数据外围服务等范畴
项目建设概况:
(1)根据金融行业数据建模模型,建成了一个囊括会计核心系统(CBS),信贷系统(CM2006),外汇系统(EE)和债券系统(BOND)四大主要业务系统所有业务分析数据,并完全记录其历史变化信息的数据仓库,包括ODS层、整合层、汇总层、应用集市层;
(2)综合报表平台以数据仓库为主要数据源,实现了各报表应用的数据同源、同构,统一数据口径;逐渐将行内的主要指标数据统一到一个平台内,实现指标共享,解决各报表系统的数据来源不一,缺乏统一的数据标准和规范,跨系统进行业务综合分析难以实现的问题;
(3)建立了一个包括“数据采集模块、展现分析模块”两大模块的分析应用综合报表平台,“数据采集模块”由i@Report实现、“展现分析模块”由BI@Report实现,通过这两个产品的功能快速定制,实现各类业务报表需求,能够降低报表开发的成本和难度,缩短报表开发周期,规范报表使用的操作流程,降低管理与维护的复杂度,灵活实现日益增加的各类报表需求;
(4)优化ETL性能,引入调度平台和优化各ETL作业,对数据仓库中飞速增长的业务数据进行有效的生命周期管理,大大优化了ETL性能,解决数据抽取转换加载时间过长的问题。
(5)建设各面向业务应用的数据集市,数据集市中的数据主要是概括级面向业务主题的数据,属业务人员容易理解和使用的主题模型,便于业务人员使用综合报表平台自定义制作报表和进行各类报表展现分析;
(6)综合报表平台中对会计报表专门设计了"会计指标库",通过定义会计指标所包含的科目、科目的属性、条件以及会计指标的启用和停用时间来满足会计相关报表的设计;
(7)亿信BI可与i@Report无缝对接,不仅能够通过i@Report从亿信BI取数,实现采集数据的初始化,还可以将i@Report采集的数据在亿信BI进行展现分析,前者能够大大减少业务人员的补录工作量,后者通过i@Report上报的数据不需要做任何ETL处理,即可通过亿信BI进行丰富多样的统计分析;
(8)i@Report提供了从报表设计、报表发布、数据填报、数据审核、汇总上报和审批流程一整套解决方案,从报表定义到数据应用这一系列工作流程都是通过该平台完成,无需人工逐级传递,减少了许多中间环节,从而帮助农发行提高数据采集的效率,缩短数据采集周期。
3、项目成果
截止2015年,农发行综合报表平台已经完成以下几方面工作:
建成了一个囊括主要业务系统所有业务分析数据,并完全记录其历史变化信息的数据仓库,包括ODS层、整合层、汇总层、应用集市层;
建成了一个包括“数据采集模块、展现分析模块”两大模块的分析应用综合平台,并在此基础上,完成了多个业务部门共十四套报表应用的建设,解决内部管理和外部监管要求;
完成了数据抽取、转换、加载的基础技术体系建设、夯实,实现了数据处理效率的数量级优化,实现了智能调度、均衡负载/灾备的建设;
完善了数据治理体系建设,完成了元数据、数据生命周期、数据标准、数据质量体系的建设;
完成了30个区域数据/应用中心建设,实现了数据中心对外数据服务建设,完成了数据动态传输、应用版本同步等辅助系统建设。
报表应用层面,在整体架构的基础上,实现了面向9个业务部门的14套报表用,并且应用的数量仍将快速增长,形式将更丰富。
金融企业通过建设大数据平台,可以全面梳理全行数据资产、完善全行数据结构、形成全局数据视图。通过批量处理、实时数据流分析和各类即时查询等大数据技术对丰富的数据资源进行开发和利用,是金融创新潮流的主流选择。但也要开发适合自身的金融大数据平台才能发挥出最大的效果。