鲸图知识图谱平台,助力金融业务深度洞察(上)

news2025/1/12 20:42:20

导语

大数据时代的背景下,数据早就成为数字经济重要的生产资料。对数据的挖掘能力成为企业数字化转型的驱动力。就金融行业来说,如果经营和管理方式跟不上大数据时代的发展脚步就会使得数据价值无法得到充分发挥。知识图谱作为一个结合了知识存储、知识表示和知识推理的综合数据平台,应用到金融业务上可以很好地与传统流程相配合为企业提供大数据时代下的发力点。

作者|中电金信研究院 人工智能实验室

目录

●1. 知识图谱简介

● 2. 知识图谱构建与应用的痛点

● 3. 鲸图——便捷可靠的知识图谱平台

● 4. 鲸图的价值和特色

● 5. 鲸图平台金融应用场景

● 6. 结语

如何建立数据体系并且发挥出数据的价值,是当前金融企业提升业务能力实现降本增效的关键之处。以银行的风险审计业务为例,因银行信息系统相对独立与割裂,数据往往不能形成统一的标准,很难进行有效整合,银行积累了大量客户信息却没有真正意义上用起来,这就形成了数据“孤岛”。

同时,国内外经济形势不断发展变化,各类新兴风险层出不穷,监管机构和行业对内部审计工作的要求日益提高,银行各项业务和产品的迅猛发展,数据量不断增加,违规人员的违规操作愈发复杂化、隐蔽化、团伙化、多样化,传统的审计检查方法和审计规则模型的准确性、覆盖面存在不足,容易被模拟、被突破,这就导致发现重要性问题的难度也越来越大。因此,需要引入知识图谱技术协助进行审计,串联起多样数据并且定制智能算法来对复杂模式进行甄别研判。实现以AI能力补充专家经验,以大数据规律替代人工判断。

通过引入知识图谱,串联多源头、多类型的数据,打破关系型数据库的存储限制和业务壁垒,让数据信息不止是表格和文字,可以生动地反映数据和数据之间的关系。此外,引入知识图谱,调用智能算法帮助专业人士对潜在风险数据进行检测预警,还可以协助企业进行复杂业务场景的任务实现。

中电金信鲸图知识图谱平台是一站式知识图谱构建与服务平台,专为金融领域广大业务需求打造。鲸图提供了从文本数据标注、知识抽取、知识融合、图谱存储和图谱分析的全流程能力。目前,鲸图知识图谱解决方案已经在若干个场景中应用,如对公风控、风险传导分析、隐形资金交易关系发现等。为金融企业提供了稳定可靠的服务,成功助力客户实现业务提升。

1. 知识图谱简介

1.1 什么是知识图谱?

知识图谱(Knowledge Graph)是一种用于描述复杂知识的数据模型,其本质是一种语义网络。它通过图形的方式表示知识,并使用节点和边来表示实体和实体之间的关系。节点代表知识图谱中的实体,如公司、产品、人物等;边则表示实体之间的关系,如公司和产品之间的所属关系、人物和公司之间的任职关系等。知识图谱背靠大数据和自然语言处理技术的支持,主要目的是用来描述真实世界中存在的各种实体以及实体之间的关系。

1.2 知识图谱能做什么?

知识图谱是大数据时代的产物,最先应用于搜索领域,其最早可以追溯到2012年前后,主要是为了解决搜索引擎用户体验问题。2012年,微软开始构建Microsoft Satori知识图谱来增强Bing搜索能力。随后,Google、百度等搜索引擎也都开始应用知识图谱技术。

搜索领域中,知识图谱能够将用户所提交的查询词理解成实体或者概念,然后为用户返回其可能关心的全部网页内容。例如,在搜索引擎中搜索某名人的生日,传统搜索模式下会返回涉及关键词的若干网页链接。有了知识图谱的技术加持之后,用户会在搜索界面首先看到该名人的生日年月,这个返回的语句是通过知识图谱解析搜索结果得到的。

除了搜索领域,现如今知识图谱也应用在智能推荐、智能问答以及决策平台当中。近些年,知识图谱开始应用于金融领域,逐渐成为金融领域风控反欺诈的主要手段,并不断拓展到其他业务中去。

1.3 知识图谱怎么构建?

构建流程包括三个部分,图谱设计、图谱构建和图谱融合。首先,设计实体关系网络,然后将数据导入实体关系网络,最后针对不同来源的数据需要对数据进行知识融合。

图谱设计是知识图谱构建的第一步,使用者可以根据应用场景(例如:贷款流向异常)和需要导入的数据类型来设计图谱视图,关联实体和节点并且定义实体和节点内部包含的属性。实际应用场景中,数据种类和数据关系往往比较繁杂,需要业务专家的辅助进行设计。

图谱构建是从数据中分离出实体、关系、属性和事件等信息,并且填充进入图谱的过程。这一环节的重点难点在于需要考虑数据来源的多样性。数据的种类是多种多样的,主要可以分为结构化、半结构化、非结构化三种。结构化数据一般指表格、数据库数据。半结构化数据指具有自描述性的数据,一般包括XML网页、JSON数据等。非结构化数据一般是指文本,非结构化数据包含的信息更丰富也更易于理解,但提取技术比较复杂。实现非结构化的数据提取并且导入图谱能够让图谱更加全面,同时也可以将知识图谱的应用能力提升到新的层次。

图谱融合是把意义相近的实体进行合并,把来源不同的知识融合为一个知识库。图谱融合的主要任务是实现实体消岐、实体合并。这一环节能够让图谱更加精准简洁。

经过以上三个步骤基本就完成了知识图谱的构建,之后就可以使用知识推理以及分析算法进行更深入的数据挖掘工作了。

2. 知识图谱构建与应用的痛点

在了解了知识图谱的能力和应用之后,知识图谱的应用价值已经无需赘述。市场上应用于各领域上的知识图谱产品也已经证明了这项技术具有巨大的潜力。但实现知识图谱平台并不是简单的任务,在实现和应用知识图谱时,往往都会遇到以下难点:

■ 数据类型多

源数据往往会包含结构化、半结构化、非结构化的多种类型数据。需要通过数据融合技术将多种不同类型数据汇总成一个统一的行业知识图谱。

■ 图谱设计难

图谱设计需要依赖业务专家来设计实用且正确的图谱模型。设计人员不仅需要对业务和导入数据类型都有深入的了解,更需要熟悉构建完成后业务分析的实现方式。此外,也需要设计辅助工具来提升效率。

■ 图谱构建及更新成本高

构建图谱需要将大量业务数据导入到设计好的图谱之中,其中包括非结构化文本数据的导入。依靠人工对文本数据进行标注过于昂贵且繁琐,也违背了知识图谱便捷高效的设计原则。因此需要高准确度的抽取模型来标注文本数据,简化用户的数据导入流程。

■ 图谱应用难

完成了数据的导入和图谱视图设计之后,还需要针对不同业务对网络关系进行深度挖掘,这需要嵌入若干种专业算法对数据进行分析和计算,如链路分析,重要性分析等。

3. 鲸图——便捷可靠的知识图谱产品

3.1 鲸图的产品架构

鲸图是一站式知识图谱构建与服务平台,支持用户简单、快速地构建并应用各类业务知识图谱,平台提供了从文本数据标注、知识建模、知识抽取、知识融合、知识服务到知识分析的全流程能力,可作为企业的知识能力中台,生产各类业务图谱。

鲸图知识图谱方案能够处理亿级数据和关系,利用专家设计的图谱和内嵌图分析算法,让用户只需点击即可完成关系分析。平台在客户环境中部署整体服务框架,遵循高可用原则,涵盖了完备日志系统、异常监控告警、策略回复、集群式灾备等功能。

3.2 鲸图的图谱构建

鲸图产品从业务需求和用户使用角度出发,在完成基本功能的基础上,简化用户构建的操作门槛,并且提升了知识图谱的业务能力。知识构建的流程如上图所示,通过源数据管理、知识抽取、知识融合、图数据库入库形成可用的知识图谱,最终可对已构建的图谱进行可视化展示和编辑使用。

构建流程包括三个部分,图谱设计、图谱构建和图谱融合。根据专家设计的Schema,从海量结构化和非结构化数据中进行实体、关系、属性和事件的信息提取,通过本体和实体对齐、指代消解解决多种类型的数据冲突问题,完成知识融合,并存储到图数据库中,实现源数据到图谱数据格式的转换。

图谱设计

银行图谱应用场景下,往往需要处理种类繁多的数据。缺乏经验的使用者会在图谱设计上感到无所适从,业务专家通过进行定制化图谱设计能够极大地提高业务效率并且降低产品的使用门槛。鲸图产品中内置了根据专家设计的场景蓝图模版,用户可以直接作为图谱使用,也可以根据需要添加或修改实体及关系,蓝图也会指导用户该如何从真实数据中提取内容进入图谱。

快速构建是鲸图产品的特色之一,除了使用内置专家模版、自定义图谱、外部导入图谱外,用户还可以使用快速构建功能来进行图谱设计。金融企业的数据库中存在着大量核心的业务数据对象,快速导入功能可以从这部分结构化数据中快速构建图谱。数据配置好后,会自动生成和数据库业务对象结构定义一致的图谱节点和边。通过从数据库中选取数据进行图谱构建,将图谱设计和构建合二为一,可以提高用户的使用效率。

图谱构建

为了能够充分利用数据资源,针对两种类型的数据抽取问题,鲸图产品提供两种构建方式:映射式构建和抽取式构建。用户可以任选一种构建方式实现信息提取并且对图谱进行映射。

■ 映射式构面向结构化表格数据,通过表头字段与图谱中节点或边的映射关联直接抽取。在金融行业中,结构化数据是非常重要的知识来源。结构化数据一般包括员工信息表、资金流水表、客户分析表等等表格数据。

平台通过可视化引导式的设计,使得业务人员也可以为节点和关系加载数据、映射知识。在此过程中,相关的数据和映射策略,也以图谱为维度,得到了有效的管理和维护、定时增量等多种图谱构建策略。

为单个节点&关系配置数据分三步:配置节点&关系数据、数据预览、数据映射。所有节点&关系配置数据完成,即可进入下一步:构建任务配置。

■ 抽取式构建面向文本数据,不同之处在于需要通过平台内置的抽取算法完成对文本的实体、关系、属性、事件抽取,提取诸如企业、法人等各类概念数据。

使用鲸图产品进行抽取式构建时,首先用户需要根据已经设计好的图谱蓝图结构进行数据加载,加载的数据可以是pdf、txt、word等多种文本格式。其次,用户需要选择相对应的模型。鲸图产品汇总内置了四大类抽取模型,包括:实体抽取模型、关系抽取模型、属性抽取、事件抽取模型。

实体抽取是指从文本中提取实体并且对实体打上标签;

关系抽取是指将实体间的关系抽取出来;

属性抽取是指抽取出特定实体的属性信息,包括属性名称和属性值;

事件抽取则是指抽取出事件触发词和对应的事件元素,包括时间、地点、元素等,主要应用于事例图谱。

根据选定的模型对当前数据集进行相应的信息抽取,执行完成后,可以预览当前的抽取结果。抽取结果支持标注式查看,用户可以查看抽取的标签并用不同的颜色进行区分和修改。

确定抽取结果无误后,将抽取的结果与图谱蓝图的实体关系进行数据映射。即将模型抽取出的结果标签,与蓝图中的实体、关系、属性建立映射关系。

图谱融合

■ 基于实体链接的实体消歧任务

在目标实体列表已给定的场景中(例如,指定以一个高质量图谱为基准),通过将其他图谱中的实体与目标图谱实体列表中的对应实体进行链接实现消歧。由于目标实体列表中的实体是无歧义的,链接后的指称项也能自动消除歧义。

■ 基于聚类的实体消歧任务

在目标实体列表未给定,或者无法给定的场景中,基于聚类的方法对一个或者多个图谱中的实体进行消歧。所有指向同一个目标实体的指称项被系统聚在同一个类别下,聚类结果中每一个类别对应一个目标实体。

3.3 鲸图的图分析

鲸图图分析模块嵌入了多种图分析算法。例如运用资金穿透算法、社区发现算法、模式匹配算法等。图谱平台提供5大类(社区发现、图结构、路径查询、重要性分析、关联性分析),共计20余种算法,可帮助业务用户进行更深层次的全图分析。如下图所示的社区发现算法,运用在客户关系图谱中,再结合其产业链相关数据,可以有效发现利益相关团体,进一步提升潜在关联、违规行为的挖掘和产业链风险传导分析。

通过社区发现算法能够找到图谱中所有联系密切的客户群体。这些深层次的联系可能是依靠权属关系、资金交易、担保关联等多种隐藏关系结合计算得来的,往往很难通过表格数据直接识别出来,极富经验的金融从业人员也需要时间仔细甄别才能发现。而依靠知识图谱技术,用户只需点击就能够快速找到潜在的社会关系,为从业人员节省了大量的时间成本,也为公司提供了大量有用信息,公司或组织可以利用这些信息来加快客户审核,促进客户甄别的效率,会大大减少运营成本和潜在投资风险。(未完待续)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/560920.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringCloud入门概述;微服务入门概述

微服务入门概述 入门概述微服务分布式微服务架构Spring Cloud技术栈spring cloud各个组件的使用服务注册服务调用服务降级服务网关服务配置服务总线 参考 入门概述 auther JaneOnly date 2022/11/6 前置课程需要: java8mavengitNginxmqspringboot2.0 微服务 微服务架构就是一…

【阅读笔记】概率预测之DeepAR(含Pytorch代码实现)

本文作为自己阅读论文后的总结和思考,不涉及论文翻译和模型解读,适合大家阅读完论文后交流想法,关于论文翻译可以查看参考文献。论文地址:https://arxiv.org/abs/1704.04110 DeepAR 一. 全文总结二. 研究方法三. 结论四. 创新点五…

软件设计师--考前查漏补缺

软件设计师 上午题一、计算机系统二、操作系统三、数据库技术四、计算机网络五、软件工程概论六、程序设计语言与编译原理七、数据结构与算法八、算法分析与设计九、其他:标准化与知识产权、英语 下午题一、结构化分析设计二、数据库分析技术三、面向对象分析技术四…

代码随想录算法训练营第十四天|二叉树的遍历

这里主要掌握两种遍历方法:递归法和迭代法 递归法: 1、确定递归函数的参数和返回值,这里参数就是节点和用于存放节点数值的vector。 2、确认终止条件,这里的终止条件是节点为空。 3、确定单层递归逻辑,根据前序、中序…

随身WIFI折腾日记(三)---Docker+ssh远程访问+青龙面板

四、安装Docker 安装完Docker以后,我们便可以一键部署一些服务上去了。 sudo curl -fsSL get.docker.com -o get-docker.sh # 下载安装脚本 \&& sudo sh get-docker.sh --mirror Aliyun # 执行安装脚本 \&& sudo systemctl enable docker # 加入开…

一篇文章弄懂卷积神经网络基础概念

文章目录 一篇文章弄懂卷积神经网络基础概念下采样和上采样卷积普通卷积空洞卷积转置卷积膨胀卷积和转置卷积的区别 池化最大池化平均池化 全连接 一篇文章弄懂卷积神经网络基础概念 卷积神经网络可以说是图像处理的天花板,也是当下图像处理在深度学习方面最热门的…

2023/5/23总结

super关键字 super关键字的用法和this 关键字的用法相似 this:代表本类对象的引用(this关键字指向调用该方法的对象一般我们是在当前类中使用this关键字,所以我们常说this代表本类对象的引用)super:代表父类存储空间的标识(可以理解为父类对象…

AGV/AMR控制器--仙工

AGV/AMR控制器--仙工 1 行业介绍1.1 控制器概念1.2 行业发展1.3 竞争格局 2 仙工控制器 SRC2.1 介绍2.2 优势标准化软硬件,适配多种运动模型超强适配性,适配各大品牌支持车型多样,应对场景复杂灵活应对非标需求 2.3 产品矩阵2.4 实施工具Robo…

CLIP使用教程

文章目录 前言注意使用其他示例 原理篇 前言 本文主要介绍如何调用Hugging Face中openai提供的CLIP API. 注意 如果碰到模型无法自动下载,可手动下载到本地,注意本地调用路径后缀加/。 下载config.json、preprocessor_config.json、pytorch_model.bi…

热乎的过万字GameFramework讲解笔记文档

往期文章分享 点击跳转>《导航贴》- Unity手册,系统实战学习点击跳转>《导航贴》- Android手册,重温移动开发 本文约15千字,新手阅读需要27分钟,复习需要12分钟 【收藏随时查阅不再迷路】 👉关于作者 众所周知&a…

YOLOv5改进系列(5)——替换主干网络之 MobileNetV3

【YOLOv5改进系列】前期回顾: YOLOv5改进系列(0)——重要性能指标与训练结果评价及分析 YOLOv5改进系列(1)——添加SE注意力机制 YOLOv5改进系列(2&#

【数据结构与算法篇】栈与队列(详解)附加Leetcode经典笔试题

​👻内容专栏:《数据结构与算法专栏》 🐨本文概括: 讲述数据结构栈与队列基本知识。 🐼本文作者:花 碟 🐸发布时间:2023.5.23 文章目录 一、栈1.栈的概念及结构2.栈的实现 二、有效的…

C++中的函数模板

目录 1. 什么是函数模板? 2. 如何定义函数模板? 3. 如何使用函数模板? 4. 函数模板与函数重载的区别是什么? 5. 函数模板与类模板有何异同点? 1. 什么是函数模板? - 函数模板是一种通用的函数描述&…

STM32的SPI外设

文章目录 1. STM32 的 SPI 外设简介2. STM32 的 SPI 架构剖析2.1 通讯引脚2.2 时钟控制逻辑2.3 数据控制逻辑2.4 整体控制逻辑 3. 通讯过程4. SPI 初始化结构体详解 1. STM32 的 SPI 外设简介 STM32 的 SPI 外设可用作通讯的主机及从机,支持最高的 SCK 时钟频率为 …

语义分割实战项目(从原理到代码环境配置)

MMsegmentation是一个基于PyTorch的图像分割工具库,它提供了多种分割算法的实现,包括语义分割、实例分割、轮廓分割等。MMsegmentation的目标是提供一个易于使用、高效、灵活且可扩展的平台,以便开发者可以轻松地使用最先进的分割算法进行研究和开发。 看下结果 MMsegmenta…

安卓基础巩固(三)多线程、IO操作、数据存储

文章目录 多线程Handler相关概念UI线程/主线程MessageMessage QueueLooperHandler 使用步骤Handler.sendMessage()Handler.post() Handler 机制工作原理Handler内存泄露前置知识案例分析解决方案一:静态内部类弱引用解…

day09 MyBatis基础操作

为什么使用框架 框架的作用:可以直接调用写好的API,提高开发效率,框架是一种经过校验,有一定功能的半成品软件 为什么选择mybatis框架 它几乎避免了所有的JDBC的代码和手动设置参数及获取结果集.作用于持久层,支持定制化sql,存储过程及高级映射 项目所需要的jar包: lombok…

PowerShell系列(四):PowerShell进入交互环境的三种方式

目录 1、Win键X 方式 2、使用微软自带的搜索功能 3、命令行运行方式 4、命令行窗口方式 5、使用第三方命令行软件(Terminal)开启PowerShell环境 6、PowerShell交互环境执行脚本的一些优势 7、小技巧 今天继续给大家讲解PowerShell相关的知识&…

IMX6ULL裸机篇之DDR3实验-更新 imxdownload.h

一. DDR实验 之前关于 IMX6ULL开发板,有关DDR实验。做了DDR内存芯片的初始化,校验与超频测试。 博文链接如下: IMX6ULL裸机篇之DDR3初始化_凌雪舞的博客-CSDN博客 IMX6ULL裸机篇之DDR3校验与超频测试_凌雪舞的博客-CSDN博客 经过了初始化…

C Primer Plus第二章编程练习答案

学完C语言之后,我就去阅读《C Primer Plus》这本经典的C语言书籍,对每一章的编程练习题都做了相关的解答,仅仅代表着我个人的解答思路,如有错误,请各位大佬帮忙点出! 1.编写一个程序,调用一次 …