导语
大数据时代的背景下,数据早就成为数字经济重要的生产资料。对数据的挖掘能力成为企业数字化转型的驱动力。就金融行业来说,如果经营和管理方式跟不上大数据时代的发展脚步就会使得数据价值无法得到充分发挥。知识图谱作为一个结合了知识存储、知识表示和知识推理的综合数据平台,应用到金融业务上可以很好地与传统流程相配合为企业提供大数据时代下的发力点。
作者|中电金信研究院 人工智能实验室
目录
●1. 知识图谱简介
● 2. 知识图谱构建与应用的痛点
● 3. 鲸图——便捷可靠的知识图谱平台
● 4. 鲸图的价值和特色
● 5. 鲸图平台金融应用场景
● 6. 结语
如何建立数据体系并且发挥出数据的价值,是当前金融企业提升业务能力实现降本增效的关键之处。以银行的风险审计业务为例,因银行信息系统相对独立与割裂,数据往往不能形成统一的标准,很难进行有效整合,银行积累了大量客户信息却没有真正意义上用起来,这就形成了数据“孤岛”。
同时,国内外经济形势不断发展变化,各类新兴风险层出不穷,监管机构和行业对内部审计工作的要求日益提高,银行各项业务和产品的迅猛发展,数据量不断增加,违规人员的违规操作愈发复杂化、隐蔽化、团伙化、多样化,传统的审计检查方法和审计规则模型的准确性、覆盖面存在不足,容易被模拟、被突破,这就导致发现重要性问题的难度也越来越大。因此,需要引入知识图谱技术协助进行审计,串联起多样数据并且定制智能算法来对复杂模式进行甄别研判。实现以AI能力补充专家经验,以大数据规律替代人工判断。
通过引入知识图谱,串联多源头、多类型的数据,打破关系型数据库的存储限制和业务壁垒,让数据信息不止是表格和文字,可以生动地反映数据和数据之间的关系。此外,引入知识图谱,调用智能算法帮助专业人士对潜在风险数据进行检测预警,还可以协助企业进行复杂业务场景的任务实现。
中电金信鲸图知识图谱平台是一站式知识图谱构建与服务平台,专为金融领域广大业务需求打造。鲸图提供了从文本数据标注、知识抽取、知识融合、图谱存储和图谱分析的全流程能力。目前,鲸图知识图谱解决方案已经在若干个场景中应用,如对公风控、风险传导分析、隐形资金交易关系发现等。为金融企业提供了稳定可靠的服务,成功助力客户实现业务提升。
1. 知识图谱简介
1.1 什么是知识图谱?
知识图谱(Knowledge Graph)是一种用于描述复杂知识的数据模型,其本质是一种语义网络。它通过图形的方式表示知识,并使用节点和边来表示实体和实体之间的关系。节点代表知识图谱中的实体,如公司、产品、人物等;边则表示实体之间的关系,如公司和产品之间的所属关系、人物和公司之间的任职关系等。知识图谱背靠大数据和自然语言处理技术的支持,主要目的是用来描述真实世界中存在的各种实体以及实体之间的关系。
1.2 知识图谱能做什么?
知识图谱是大数据时代的产物,最先应用于搜索领域,其最早可以追溯到2012年前后,主要是为了解决搜索引擎用户体验问题。2012年,微软开始构建Microsoft Satori知识图谱来增强Bing搜索能力。随后,Google、百度等搜索引擎也都开始应用知识图谱技术。
搜索领域中,知识图谱能够将用户所提交的查询词理解成实体或者概念,然后为用户返回其可能关心的全部网页内容。例如,在搜索引擎中搜索某名人的生日,传统搜索模式下会返回涉及关键词的若干网页链接。有了知识图谱的技术加持之后,用户会在搜索界面首先看到该名人的生日年月,这个返回的语句是通过知识图谱解析搜索结果得到的。
除了搜索领域,现如今知识图谱也应用在智能推荐、智能问答以及决策平台当中。近些年,知识图谱开始应用于金融领域,逐渐成为金融领域风控反欺诈的主要手段,并不断拓展到其他业务中去。
1.3 知识图谱怎么构建?
构建流程包括三个部分,图谱设计、图谱构建和图谱融合。首先,设计实体关系网络,然后将数据导入实体关系网络,最后针对不同来源的数据需要对数据进行知识融合。
图谱设计是知识图谱构建的第一步,使用者可以根据应用场景(例如:贷款流向异常)和需要导入的数据类型来设计图谱视图,关联实体和节点并且定义实体和节点内部包含的属性。实际应用场景中,数据种类和数据关系往往比较繁杂,需要业务专家的辅助进行设计。
图谱构建是从数据中分离出实体、关系、属性和事件等信息,并且填充进入图谱的过程。这一环节的重点难点在于需要考虑数据来源的多样性。数据的种类是多种多样的,主要可以分为结构化、半结构化、非结构化三种。结构化数据一般指表格、数据库数据。半结构化数据指具有自描述性的数据,一般包括XML网页、JSON数据等。非结构化数据一般是指文本,非结构化数据包含的信息更丰富也更易于理解,但提取技术比较复杂。实现非结构化的数据提取并且导入图谱能够让图谱更加全面,同时也可以将知识图谱的应用能力提升到新的层次。
图谱融合是把意义相近的实体进行合并,把来源不同的知识融合为一个知识库。图谱融合的主要任务是实现实体消岐、实体合并。这一环节能够让图谱更加精准简洁。
经过以上三个步骤基本就完成了知识图谱的构建,之后就可以使用知识推理以及分析算法进行更深入的数据挖掘工作了。
2. 知识图谱构建与应用的痛点
在了解了知识图谱的能力和应用之后,知识图谱的应用价值已经无需赘述。市场上应用于各领域上的知识图谱产品也已经证明了这项技术具有巨大的潜力。但实现知识图谱平台并不是简单的任务,在实现和应用知识图谱时,往往都会遇到以下难点:
■ 数据类型多
源数据往往会包含结构化、半结构化、非结构化的多种类型数据。需要通过数据融合技术将多种不同类型数据汇总成一个统一的行业知识图谱。
■ 图谱设计难
图谱设计需要依赖业务专家来设计实用且正确的图谱模型。设计人员不仅需要对业务和导入数据类型都有深入的了解,更需要熟悉构建完成后业务分析的实现方式。此外,也需要设计辅助工具来提升效率。
■ 图谱构建及更新成本高
构建图谱需要将大量业务数据导入到设计好的图谱之中,其中包括非结构化文本数据的导入。依靠人工对文本数据进行标注过于昂贵且繁琐,也违背了知识图谱便捷高效的设计原则。因此需要高准确度的抽取模型来标注文本数据,简化用户的数据导入流程。
■ 图谱应用难
完成了数据的导入和图谱视图设计之后,还需要针对不同业务对网络关系进行深度挖掘,这需要嵌入若干种专业算法对数据进行分析和计算,如链路分析,重要性分析等。
3. 鲸图——便捷可靠的知识图谱产品
3.1 鲸图的产品架构
鲸图是一站式知识图谱构建与服务平台,支持用户简单、快速地构建并应用各类业务知识图谱,平台提供了从文本数据标注、知识建模、知识抽取、知识融合、知识服务到知识分析的全流程能力,可作为企业的知识能力中台,生产各类业务图谱。
鲸图知识图谱方案能够处理亿级数据和关系,利用专家设计的图谱和内嵌图分析算法,让用户只需点击即可完成关系分析。平台在客户环境中部署整体服务框架,遵循高可用原则,涵盖了完备日志系统、异常监控告警、策略回复、集群式灾备等功能。
3.2 鲸图的图谱构建
鲸图产品从业务需求和用户使用角度出发,在完成基本功能的基础上,简化用户构建的操作门槛,并且提升了知识图谱的业务能力。知识构建的流程如上图所示,通过源数据管理、知识抽取、知识融合、图数据库入库形成可用的知识图谱,最终可对已构建的图谱进行可视化展示和编辑使用。
构建流程包括三个部分,图谱设计、图谱构建和图谱融合。根据专家设计的Schema,从海量结构化和非结构化数据中进行实体、关系、属性和事件的信息提取,通过本体和实体对齐、指代消解解决多种类型的数据冲突问题,完成知识融合,并存储到图数据库中,实现源数据到图谱数据格式的转换。
图谱设计
银行图谱应用场景下,往往需要处理种类繁多的数据。缺乏经验的使用者会在图谱设计上感到无所适从,业务专家通过进行定制化图谱设计能够极大地提高业务效率并且降低产品的使用门槛。鲸图产品中内置了根据专家设计的场景蓝图模版,用户可以直接作为图谱使用,也可以根据需要添加或修改实体及关系,蓝图也会指导用户该如何从真实数据中提取内容进入图谱。
快速构建是鲸图产品的特色之一,除了使用内置专家模版、自定义图谱、外部导入图谱外,用户还可以使用快速构建功能来进行图谱设计。金融企业的数据库中存在着大量核心的业务数据对象,快速导入功能可以从这部分结构化数据中快速构建图谱。数据配置好后,会自动生成和数据库业务对象结构定义一致的图谱节点和边。通过从数据库中选取数据进行图谱构建,将图谱设计和构建合二为一,可以提高用户的使用效率。
图谱构建
为了能够充分利用数据资源,针对两种类型的数据抽取问题,鲸图产品提供两种构建方式:映射式构建和抽取式构建。用户可以任选一种构建方式实现信息提取并且对图谱进行映射。
■ 映射式构建面向结构化表格数据,通过表头字段与图谱中节点或边的映射关联直接抽取。在金融行业中,结构化数据是非常重要的知识来源。结构化数据一般包括员工信息表、资金流水表、客户分析表等等表格数据。
平台通过可视化引导式的设计,使得业务人员也可以为节点和关系加载数据、映射知识。在此过程中,相关的数据和映射策略,也以图谱为维度,得到了有效的管理和维护、定时增量等多种图谱构建策略。
为单个节点&关系配置数据分三步:配置节点&关系数据、数据预览、数据映射。所有节点&关系配置数据完成,即可进入下一步:构建任务配置。
■ 抽取式构建面向文本数据,不同之处在于需要通过平台内置的抽取算法完成对文本的实体、关系、属性、事件抽取,提取诸如企业、法人等各类概念数据。
使用鲸图产品进行抽取式构建时,首先用户需要根据已经设计好的图谱蓝图结构进行数据加载,加载的数据可以是pdf、txt、word等多种文本格式。其次,用户需要选择相对应的模型。鲸图产品汇总内置了四大类抽取模型,包括:实体抽取模型、关系抽取模型、属性抽取、事件抽取模型。
实体抽取是指从文本中提取实体并且对实体打上标签;
关系抽取是指将实体间的关系抽取出来;
属性抽取是指抽取出特定实体的属性信息,包括属性名称和属性值;
事件抽取则是指抽取出事件触发词和对应的事件元素,包括时间、地点、元素等,主要应用于事例图谱。
根据选定的模型对当前数据集进行相应的信息抽取,执行完成后,可以预览当前的抽取结果。抽取结果支持标注式查看,用户可以查看抽取的标签并用不同的颜色进行区分和修改。
确定抽取结果无误后,将抽取的结果与图谱蓝图的实体关系进行数据映射。即将模型抽取出的结果标签,与蓝图中的实体、关系、属性建立映射关系。
图谱融合
■ 基于实体链接的实体消歧任务
在目标实体列表已给定的场景中(例如,指定以一个高质量图谱为基准),通过将其他图谱中的实体与目标图谱实体列表中的对应实体进行链接实现消歧。由于目标实体列表中的实体是无歧义的,链接后的指称项也能自动消除歧义。
■ 基于聚类的实体消歧任务
在目标实体列表未给定,或者无法给定的场景中,基于聚类的方法对一个或者多个图谱中的实体进行消歧。所有指向同一个目标实体的指称项被系统聚在同一个类别下,聚类结果中每一个类别对应一个目标实体。
3.3 鲸图的图分析
鲸图图分析模块嵌入了多种图分析算法。例如运用资金穿透算法、社区发现算法、模式匹配算法等。图谱平台提供5大类(社区发现、图结构、路径查询、重要性分析、关联性分析),共计20余种算法,可帮助业务用户进行更深层次的全图分析。如下图所示的社区发现算法,运用在客户关系图谱中,再结合其产业链相关数据,可以有效发现利益相关团体,进一步提升潜在关联、违规行为的挖掘和产业链风险传导分析。
通过社区发现算法能够找到图谱中所有联系密切的客户群体。这些深层次的联系可能是依靠权属关系、资金交易、担保关联等多种隐藏关系结合计算得来的,往往很难通过表格数据直接识别出来,极富经验的金融从业人员也需要时间仔细甄别才能发现。而依靠知识图谱技术,用户只需点击就能够快速找到潜在的社会关系,为从业人员节省了大量的时间成本,也为公司提供了大量有用信息,公司或组织可以利用这些信息来加快客户审核,促进客户甄别的效率,会大大减少运营成本和潜在投资风险。(未完待续)