金融大数据平台是怎么构建的?

news2024/11/23 6:38:23

大数据对银行业的价值不言而喻。

业务上,如何去挖掘客户的内在需求,为客户提供更有价值的服务是目前金融机构的战略转型和业务创新的关键。大数据技术正是金融机构深挖数据资产、实现差异化竞争、推动业务创新的重要工具。

运营上,通过大数据应用和分析,金融机构能够定位内部管理短板、制订有效改进措施、优化管理思路,从而降低管理运营成本。

风险上,大数据技术有助于降低信息不对称程度,增强风控能力。目前大数据风控管理在金融业已广泛推广,已有小额信贷等成功应用案例。

相对一般业务系统而言,大数据系统是一个分布式系统、规模较大、组件众多,金融企业对大数据系统在扩展性、可靠性、可控性、安全性、运维方便、资源动态调配、多租户支持等方面提出了诸多需求。

那么金融行业如何构建大数据平台呢?

小亿今天想分享一些关于这个话题。

一、金融行业面临的问题

相比中小型金融企业, 银行具有庞大的客户数量, 其数字化转型难度更为巨大。挑战主要包括数据种类越来越多样, 数据量日趋庞大, 无论是数据存储还是数据查询, 在软硬件等方面都遇到了瓶颈

用户的应用和分析结果呈整合趋势, 对实时性和指令响应时间的要求越来越高;同时, 数据处理的模型也越来越复杂, 算法的复杂性相应提高, 这些都需要从数据采集、数据管理、数据处理 (包括数据传输) 等方面改进优化。例如某些银行在数据处理和应用中就存在以下的问题

1、传统工具数据存储空间成为瓶颈

随着业务的日益发展, 金融企业出现了大量的冷数据、低价值数据和历史数据。这些数据已经超出了传统数据存储工具软件的管理上限, 同时还消耗了价格昂贵的服务器、数据库的有效存储空间。随着数据增长速度的加快, 此问题日益成为金融业务改造和拓展的巨大障碍。

2、传统工具的数据加工效率日益低下

在信用风险管理、客户关系管理、财务分析、合规管理、运行监控、数据仓库等领域, 每天都需要进行TB、10 TB甚至100 TB级数据的加工, 传统存储过程加工周期越来越长, 已经无法满足应用的要求。

3、应用系统的客户体验越来越差

数据量的剧增、加工效率的下降导致金融应用系统的客户体验越来越差。此类情况在很多金融应用中存在, 部分金融应用不得不将实时查询方式改造为离线查询方式, 进而导致客户体验进一步下降。

既然目前的金融行业数据分析与处理存在这样一些问题,那么金融大数据平台的建设就更加有必要了。

二、金融大数据平台建设思路

1、建设目标

金融大数据应用平台集合海量结构化和非结构化数据,通过实时分析,可以为金融监管机构、金融机构、证券机构、互联网金融等,提供客户全方位信息,通过分析和挖掘客户的消费习惯,并准确预测客户行为,使金融监管机构和金融服务平台在营销和风控方面有的放矢。利用大数据来分析金融风险,精准营销,以及建设健全的诚信体系也是目前综合平台建设的主要目标。

2、金融大数据平台架构

大数据平台的架构如下图所示:

其中,最上层是大数据应用。大数据平台的最终目的是要解决实际的业务问题, 在央行履职方面可以应用于宏观审慎评估、宏观经济分析、社会信用体系建设、反洗钱和精准扶贫等领域。

第二层是应用接口层。包括数据的采集、交互查询、算法库和数据展示等多个组件, 涵盖了数据的采集、处理、分析、展示以及删除等整个数据生命周期。

第三层是资源管理层。主要用于存储资源和计算资源的统一管理和分配, 以容器的方式, 来为计算框架和存储框架分配资源, 并支持资源调度、弹性伸缩。第四层是基础设施层。基础设施层提供基本的计算、网络和存储资源, 是上层数据存储、计算和传输的基础。

最后, 大数据平台还需要部署统一的平台安全监控, 用于实现大数据平台的安全管理、运维监控等功能。

3、大数据关键技术分析

(1)数据采集与预处理

在大数据的生命周期中, 数据采集处于第一个环节。数据采集就是把分散地存在于不同的网络和系统中的结构化和非结构化数据整合在一起, 进而对这些数据进行综合分析。数据的采集方法包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等, 此外, 不同的数据集之间存在异构性问题, 需要对采集到的数据进行数据预处理, 尤其是将异构数据提取和整理成一个新的、具有统一的结构和模式的数据集合, 形成一系列便于增删查改、分析和处理的数据视图。

(2)大数据计算模式

大数据的分析挖掘是数据密集型计算, 不但需要巨大的计算能力和数据吞吐率, 还对计算系统的扩展性和性价比有很高要求。所谓大数据计算模式, 是根据大数据的不同数据特征和计算需求, 提炼并建立的各种高层抽象或模型。随着大数据的出现和发展, 人们更加意识到数据背后隐藏的价值, 同时, 大数据所特有的数据量大、类型多样、更新速度快和价值密度低的特征对数据处理提出更为严苛的挑战, 大数据的应用场景、用户需求和数据特征的多样性要求更高层次的大数据计算模式。

针对不同的计算需求出现了多种典型和重要的大数据计算模式, 如, MapReduce并行计算抽象、Spark系统中的“分布内存抽象RDD”和GraphLab中的“图并行抽象”等。与此同时, 也出现了很多与这些计算模式相适应的大数据计算系统和工具。

(3)数据可视化

数据可视化旨在借助图形化手段, 清晰有效地传达与沟通信息, 是实现用户与数据集合交互的直观的方式。可视化与可视化分析软件可以根据用户需求, 通过提炼数据特征, 从不同的维度将不同类型的数据集合, 以关系图、时序图或表格等形式展示在用户面前, 帮助用户更加快速地获取有效信息, 得出准确的分析结果。

(4)大数据存储管理技术

大数据存储技术首先需要解决的是数据海量化和快速增长的需求。存储的硬件架构和文件系统的性价比要大大高于传统技术, 存储容量要具备良好的吞吐量和扩展性, 且要求健壮的容错能力和高性能的并发读写能力。目前, 谷歌文件系统GFS和Hadoop的分布式文件系统HDFS奠定了大数据存储技术的基础。大数据存储技术第二个要解决的是处理格式多样化的数据, 这要求大数据存储管理系统能够处理各种非结构化数据。其代表产品主要有谷歌的Big Table和Hadoop Hbase等非关系型数据库。

4、金融大数据平台安全防护

随着大数据技术在金融行业的广泛应用, 大数据技术在促进金融创新的同时, 也带来了无法忽视的安全风险。理应客观看待风险, 提前做好风险识别及应急预案, 从数据管理、基础设施防护和法律法规等方面应对大数据安全问题。

一是在平台安全管理方面, 要强化数据权限控制、数据脱敏和隐私保护和数据可信赖管理。

二是加强大数据应用系统的安全建设, 将所有的环节包括数据采集、存储、分析和处理、数据挖掘和数据展示纳入信息安全的范畴, 并配置相应的安全产品, 形成统一的、可控的安全体系。

三是要健全安全管理制度, 在大数据安全法律法规的框架下, 完善信息安全管理制度、信息安全监管体系, 培养大数据安全人才。

三、金融大数据平台案例

前文讲了那么多理论,小亿想分享一个亿信华辰实际建设的金融大数据平台以便大家更好地理解。

中国农业发展银行:数据分析应用架构设计

应用产品:数据采集汇总平台 亿信ABI 元数据管理平台

1、项目背景

根据中国农业发展银行信息化建设“十二五”规划,在“十二五”期间,要对业务经营数据进行梳理,以保证数据的一致性和准确性为目的,实施数据质量工程;以数据交换平台为基础,建设数据仓库;到2015年末,实现经营和管理数据在全行范围的共享,以数据仓库为基础,推动建立面向主题、面向市场、面向决策、满足内部管理和外部政策要求的智能应用,力争形成全行完整统一、各有侧重的决策支持平台,为经营管理和客户服务提供基础信息和决策依据。

近年来,随着内部管理和外部监管要求的不断提高,面向数据分析的管理应用需求日益增加。农发行当前在用的几个报表系统分别实现了对应业务领域的管理分析,但农发行报表应用的整体建设存在以下主要问题

  • 各报表系统的数据来源不一,缺乏统一的数据标准和规范,跨系统进行业务综合分析难以实现;
  • 同一口径的统计指标需要在不同系统内重复补录获取,而数据结果却可能不一致;
  • 随着内部管理和外部监管要求的不断提高,面向数据分析的管理应用和数据采集补录应用需求日益增加;
  • 各类报表应用系统的数据获取流程和报送流程基本相同,却需要单独开发不同的报表系统;
  • 采集报表应用存在业务人员补录数据工作量大,数据质量无法保证、报送流程不易管控和采集数据无法有效进行分析等问题,因监管部门制定了一些新的监管报表或者改变监管报表的统计口径等,报表格式也需经常进行调整;

为将不同的业务报表集中到一个统一的系统框架下来,并为将来的简单业务报表提供快捷的定制和实现手段,农发行在2009-2011年间,完成通用综合报表平台的建设和省行推广,初步实现经营管理数据的集成和共享。

到2012年初,综合报表平台已经上线使用近三年时间,系统完成了初步建设目标后,随着报表应用、使用用户、数据量的迅速增长,系统也暴露出了一些问题,主要有:

  • ETL性能不理想,数据抽取转换加载时间过长;
  • 各个业务部门使用平台制作报表难,主要表现在难以理解数据模型上;
  • 数据量增长过快,在第一次优化前,数据已呈现爆炸式增长的趋势;
  • 仍然存在综合业务系统与信贷管理系统数据不同步的问题;
  • 数据及时性不能保证,导致有些时效性要求高的业务部门无法放心使用报表平台。

2、项目建设概况

为了解决以上问题,保障系统的科学性、先进性、高效性、易用性,更为了全面夯实农发行数据分析应用侧的技术架构,从2012年中到2014年初,于行内发起了更大规模的综合报表平台升级改造项目。

经过历时五年,总共两期项目的建设,农发行数据应用体现形成了一个较为完整的技术体系,囊括了数据仓库、分析应用、数据管理、数据治理、数据外围服务等范畴

项目建设概况:

(1)根据金融行业数据建模模型,建成了一个囊括会计核心系统(CBS),信贷系统(CM2006),外汇系统(EE)和债券系统(BOND)四大主要业务系统所有业务分析数据,并完全记录其历史变化信息的数据仓库,包括ODS层、整合层、汇总层、应用集市层;

(2)综合报表平台以数据仓库为主要数据源,实现了各报表应用的数据同源、同构,统一数据口径;逐渐将行内的主要指标数据统一到一个平台内,实现指标共享,解决各报表系统的数据来源不一,缺乏统一的数据标准和规范,跨系统进行业务综合分析难以实现的问题;

(3)建立了一个包括“数据采集模块、展现分析模块”两大模块的分析应用综合报表平台,“数据采集模块”由i@Report实现、“展现分析模块”由BI@Report实现,通过这两个产品的功能快速定制,实现各类业务报表需求,能够降低报表开发的成本和难度,缩短报表开发周期,规范报表使用的操作流程,降低管理与维护的复杂度,灵活实现日益增加的各类报表需求;

(4)优化ETL性能,引入调度平台和优化各ETL作业,对数据仓库中飞速增长的业务数据进行有效的生命周期管理,大大优化了ETL性能,解决数据抽取转换加载时间过长的问题。

(5)建设各面向业务应用的数据集市,数据集市中的数据主要是概括级面向业务主题的数据,属业务人员容易理解和使用的主题模型,便于业务人员使用综合报表平台自定义制作报表和进行各类报表展现分析;

(6)综合报表平台中对会计报表专门设计了"会计指标库",通过定义会计指标所包含的科目、科目的属性、条件以及会计指标的启用和停用时间来满足会计相关报表的设计;

(7)亿信BI可与i@Report无缝对接,不仅能够通过i@Report从亿信BI取数,实现采集数据的初始化,还可以将i@Report采集的数据在亿信BI进行展现分析,前者能够大大减少业务人员的补录工作量,后者通过i@Report上报的数据不需要做任何ETL处理,即可通过亿信BI进行丰富多样的统计分析;

(8)i@Report提供了从报表设计、报表发布、数据填报、数据审核、汇总上报和审批流程一整套解决方案,从报表定义到数据应用这一系列工作流程都是通过该平台完成,无需人工逐级传递,减少了许多中间环节,从而帮助农发行提高数据采集的效率,缩短数据采集周期。

3、项目成果

截止2015年,农发行综合报表平台已经完成以下几方面工作:

建成了一个囊括主要业务系统所有业务分析数据,并完全记录其历史变化信息的数据仓库,包括ODS层、整合层、汇总层、应用集市层;

建成了一个包括“数据采集模块、展现分析模块”两大模块的分析应用综合平台,并在此基础上,完成了多个业务部门共十四套报表应用的建设,解决内部管理和外部监管要求;

完成了数据抽取、转换、加载的基础技术体系建设、夯实,实现了数据处理效率的数量级优化,实现了智能调度、均衡负载/灾备的建设;

完善了数据治理体系建设,完成了元数据、数据生命周期、数据标准、数据质量体系的建设;

完成了30个区域数据/应用中心建设,实现了数据中心对外数据服务建设,完成了数据动态传输、应用版本同步等辅助系统建设。

报表应用层面,在整体架构的基础上,实现了面向9个业务部门的14套报表用,并且应用的数量仍将快速增长,形式将更丰富。


金融企业通过建设大数据平台,可以全面梳理全行数据资产、完善全行数据结构、形成全局数据视图。通过批量处理、实时数据流分析和各类即时查询等大数据技术对丰富的数据资源进行开发和利用,是金融创新潮流的主流选择。但也要开发适合自身的金融大数据平台才能发挥出最大的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/652459.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

利用事务消息实现分布式事务

什么是事务 什么是事务呢?事务是并发控制的单位,是用户定义的一个操作序列。有四个特性(ACID): 原子性(Atomicity): 事务是数据库的逻辑工作单位,事务中包括的诸操作要么全做,要么全不做。一致性(Consist…

深入探究kubernetes resources - Part 2

你以为CPU请求只是用来调度的吗? 再想一想。 引入 CPU 份额,并为消除限制奠定基础! 了解 CPU 请求 在上一篇文章中,我谈到了 Kubernetes 资源管理的基础。 在这篇文章中,我们将深入探讨当我们将 CPU 请求配置到 pod 的…

3D建模Cocos Creator3D:发射器模块(ShapeModule)

推荐:将 NSDT场景编辑器 加入你的3D工具链 3D工具集: NSDT简石数字孪生 发射器模块(ShapeModule) 公有属性: 属性作用position相对于挂载节点的位置rotation相对于挂载节点的旋转scale相对于挂载节点的缩放sphericalDirectionAmount表示当前…

ESP32(Micro Python)LVGL 两个动画程序

本次发布两个程序,仪表盘动画程序对刻度数量等参数进行调整,方便布置多个小尺寸仪表盘;进度条动画程序展示了多个进度条的排列方式。 仪表盘程序 import lvgl as lv import time from espidf import VSPI_HOST from ili9XXX import ili93…

人机交互学习-6 交互式系统的设计

交互式系统的设计 设计框架定义外形因素和输入方法定义功能和数据元素决定功能组合层次勾画大致的设计框架构建关键情景场景剧本通过验证性的场景剧本来检查设计 设计策略删除组织隐藏转移简化设计策略的组合 设计中的折中个性化和配置本地化和国际化审美学与实用性 软件设计的…

Golang context 实现原理与源码分析

0 context入门介绍 context是Golang应用开发常用的并发控制技术,主要在异步场景中用于实现并发协调以及对 goroutine 的生命周期控制,它与WaitGroup最大的不同点是context对于派生goroutine有更强的控制力,它可以控制多级的goroutine。 con…

DataGrip使用技巧

DataGrip介绍 DataGrip是JetBrains提供的面向开发人员的数据库管理产品。提供智能查询控制台、高效的架构导航、智能SQL补全等功能。 同类的产品有navicat、dbeaver。本文中使用的DataGrip版本为2023.1 显示数据库其他类型的数据库结构 DataGrip中如果某类型数据库结构数量为…

GaussDB单SQL性能慢分析

文章目录 问题描述问题现象告警单SQL性能慢分析步骤一:确定目标SQL步骤二:收集统计信息、提前排除影响步骤三:分析SQL性能瓶颈 单SQL性能慢-视图分析流控导致慢SQL并发锁冲突导致慢SQL表膨胀导致大量的死元组业务语句不优、计划不优 问题描述…

8自由度并联腿机器狗实现姿态平衡

1. 功能说明 本文示例将实现8自由度并联腿机器狗保持姿态平衡的功能,当机器狗在一个平台上原地站立,平台发生倾斜时,机器狗能够自动调整姿态,保证背部水平。 2. 机器狗的稳定性分析 稳定性是机器狗运动中很重要的一部分&#xff0…

Leetcode | 35 搜索插入位置

35 搜索插入位置 文章目录 35 搜索插入位置题目我的思路[官方题解](https://leetcode.cn/problems/search-insert-position/solutions/333632/sou-suo-cha-ru-wei-zhi-by-leetcode-solution/ "官方题解")欢迎关注公众号【三戒纪元】 题目 给定一个排序数组和一个目标…

Rocky linux 9.0系统安装MySQL5.7

前言 本文将带你在Rocky linux 9.0上折腾一个MySQL5.7, 说干就干。 文章目录 前言安装环境下载mysql 包开始安装启动测试总结 安装环境 删除系统中可能存在的包: [rootmufeng ~]# rpm -qa |grep mysql [rootmufeng ~]# rpm -qa |grep mariadb [rootmu…

Ansible概述和模块解释

Ansible概述 Ansible介绍 Ansible是一个基于Python开发的配置管理和应用部署工具,现在也在自动化管理领域大放异彩。它融合了众多老牌运维工具的优点,Pubbet和Saltstack能实现的功能,Ansible基本上都可以实现。 Ansible能做什么 Ansible能…

Linux---详细讲解linux计算机体系结构

前言 Linux是一种开源的操作系统,它的核心思想是基于冯诺依曼体系结构。在本文中,我们将深入探讨Linux的基本原理和操作系统的概念。 Linux是一款基于Unix操作系统的开源软件,它的核心是由Linus Torvalds在1991年开发的。Linux的出现&#x…

认识 Vue.js

node版本管理工具 nvm - 简书 Vue介绍 Vue.js(简称Vue) 是一套用于构建用户界面的渐进式前端框架。(其实就是使用js开发的一个框架) Vue.js 核心实现 : 响应式的数据绑定:当数据发生改变,视图可以自动更新,不用关心D…

「有问必答」Go如何优雅的对时间进行格式化?

昨天 交流群 关于「Go如何优雅的对时间进行格式化?」展开了讨论: 咋搞捏? 如何在不循环的情况下,把列表数据结构体的时间修改为咱们习惯的格式,而不是UTC模式 我们要实现的效果如下: created_at 是go语言原生的方式&#xff0…

Android Framework分析Zygote进程的启动过程

Zygote进程是Android系统中的一个重要进程,其主要作用是预热Java虚拟机和启动应用进程。本文将着重分析Zygote进程的启动过程,结合代码注释和示例代码,让读者更好地理解Zygote的内部工作原理。 Zygote进程的启动过程 Zygote进程的启动过程包…

Python3 里面的四舍五入

目录 1.一般的四舍五入 : 使用内置的round函数 1.1官方文档: 1.2 举例说明: 2.python3里的格式化输出 format 2.1 记忆法则 :填齐宽 逗精类 2.2 format实质就是通过设置精度间接使用了等效round函数,但是不要把格式化输出和四…

chatgpt赋能python:Python是如何帮助确定location的?

Python是如何帮助确定location的? 什么是location? 在SEO中,location指的是特定页面、文章或者商铺在搜索结果中的排名位置。通常来说,更高的location意味着更多的点击率和流量,因此在SEO中,确定location…

独立站思考:Facebook选品测品

导语:对于独立站而言,获取稳定的流量是至关重要的。本文将探讨如何利用Facebook的选品测品功能,精准找到用户并提高点击率,以及如何通过数据分析优化,提高转化率并快速产生订单。 第一部分:精准定位用户的方…

Nodejs五、Express

零、文章目录 Nodejs五、Express 1、初识 Express (1)Express 简介 Express是什么 官方给出的概念:Express 是基于 Node.js 平台,快速、开放、极简的 Web 开发框架。 通俗的理解:Express 的作用和 Node.js 内置的 …