知识就是力量，图谱路在何方 | ChatGPT冲击下，招商银行如何“抢救”知识图谱？

“知识就是力量”我们耳熟能详，但培根的这句话其实还有后半句“更重要的是运用知识的技能”。对于人工智能来说，知识图谱就是其如何对知识进行运用的技能体现。在金融领域，如何运用这一技能更好地理解客户需求，提高业务效率和客户满意度，同时进行风险管理？招商银行给出了他们的答案。

作者 | 李金龙、贺瑶函、郑桂东

出品 |《新程序员》编辑部

知识图谱是一种用于描述实体、属性和它们之间关系的结构化语义网络，通常以图形模型的形式呈现。知识图谱可以帮助机器理解信息，并支持自然语言处理、搜索引擎优化等领域的发展。应用在招商银行的业务场景中，我们自底向上将知识图谱主要分成三个概念：底层为基于图数据库的复杂网络分析算法；中间层是数据语义网络算法；上层形成专家知识表示，并通过认知计算在行内各个场景中综合应用。

招商银行知识图谱的三种内涵

我们通过搭建领域内知识图谱（见图1），将行内业务场景通过语义表示形式，形成新的知识赋能于各个场景。

图1 知识图谱平台

复杂图分析

知识图谱在基于符号表示的基础上，也可以通过图分析算法学习图的特征，为图谱中的每一个实体和关系得到一个对应的向量表示。同时，利用向量、矩阵或张量间的计算，实现高效的知识推理计算。图数据库的高速发展为大规模的图查询和图计算提供技术保障，从而开展复杂网络分析任务，广泛应用于金融领域的营销、风控等场景。

语义网络

语义网络（Semantic Web）由蒂姆·伯纳斯-李于2001年在科学杂志率先提出，知识图谱也可以看成是一种数据语义网络。语义网络中的节点可以代表一个概念(concept)、一个属性(attribute)、一个事件(event)或者一个实体(entity)，而弧则用来表示节点之间的关系，弧的标签则指明了关系的类型。知识图谱用图的形式表示知识，基于联邦式知识图谱，实现各个图谱知识之间的互联互通，从而实现图谱全局的推理和预测。

专家知识表示

知识图谱（Knowledge Graph）是图关联结构化的知识库，用于以符号形式描述物理世界中的概念及其相互关系，其基本组成单位是“实体—属性—实体”的三元组形式，实体间通过关系相互联结，构成网状的知识结构。知识图谱通过图谱结构存储专家知识，可以服务于认知计算领域，在涉及文本信息获取与处理的场景提供了可解释性的判断准则，实现了信息获取的系统化和智能化（见图2）。

图2 图谱关系的分布式表示

金融领域实践

目前知识图谱在金融行业中使用广泛，其结构化的知识能够帮助银行更好地对复杂信息进行处理和理解。知识图谱在招商银行的构建是按照“3+1层”划分的：第一层是知识层，该层的工具和知识主要应用于认知计算领域，如知识中心、智能审核、AI质检等场景；第二层是数据语义网络，如联邦知识图谱的构建；第三层是图数据库，用于营销、风控和反洗钱等决策模型的效率提升；第四层是综合类应用，比如投研领域，可应用于面向客户的智能化在线投资顾问场景。

统一知识中心的建设和相关应用支持——智能审核、质检

银行业作为知识密集型领域，其各个业务场景每日能够产生大量的非结构化数据，将这些知识形成一套统一的规范、标注，从而方便全行各个机构进行生产工作、知识分享等任务，最终达到知识产生价值，一直是需要持续改善的痛点。为形成一套符合AI发展的知识规范，招行花了多年时间将行内多年积累的各种知识进行整理、分析和组织，形成一套统一知识管理中心，其应用AI技术进行融合知识管理、语言表示、语义算法、知识活用，最终有效地支持知识的智能化运用。

在底层数据的应用上，将各类业务文档、规章制度、专业知识、问答知识、资讯、内部论坛等数据统一在招行知识中心通过数据库、图谱等形式进行存储，在上层能力上，业务可以通过知识拆解、知识编辑、知识授权、知识搜索、场景部门个性化知识推荐等形式，通过招行各个渠道进行场景知识共享和智能化服务，并结合预训练语言模型等进行规则推理和发现，从而达到辅助业务进行智能化推理和应用。

招行依托于行内产品数据，整理设计知识图谱中的实体，通过产品和服务标准逻辑设计实体关系，构建了庞大数据量的知识图谱。我们构建的知识图谱被广泛地运用到行内各项业务中，不仅在网点服务的各场景用使用知识图谱来提高服务质量和效率，同时，知识图谱也作为招行服务质检的重要依据在客户咨询等场景中发挥着越来越重要的作用。

联邦知识图谱的建设和应用

联邦式知识图谱是知识图谱与开放生态的组合。在一般场景下，联邦知识图谱为银行内部各个部门业务方数据互联，并且引入了部分外部行业工商数据等，对开放协作提供了支撑，同时也是金融大脑的重要组成部分。在这种理念下，招行构建了一种联邦知识图谱，其能够支持社区发现、标签传播、PageRank等常见图分析算法。对外引进了全量工商数据，搭建了海量级实体关系图谱，对内融合行内零售数据、对公精品资产数据，赋能对公、零售等多个业务场景，进行优质服务输出（见图3）。

图3 联邦知识图谱数据来源

复杂图分析和相关应用

传统的图分析主要基于特征工程的技术方案，通过统计图结构特征，结合下游机器学习模型，从而完成整体建模。随着GCN、GAT系列的图神经网络算法日趋成熟，工业界可以实现将实际业务领域知识图谱完成向量化表示，预测挖掘出原本未显示存在的关联关系，从而应用于后续的营销和风控场景。

在营销活动方面，利用知识图谱的节点向量化表示寻求由点及面的传播扩散效果。粉丝放大器基于LookLike的思路，将已转化客群作为种子客户，通过一定的评估算法挑选与种子客户极为相似的目标受众作为营销对象，从而达到转化放大效果，显著提升营销活动的平均成功率。

在风控领域的应用中，依托复杂关联关系，全面丰富零售和对公画像，将原来以个体视角看待问题改变为从客群角度解决问题，通过分析零售客户和对公企业之间存在的股权、交易、事件等关系，建立风控模型，挖掘潜在风险关联团，探索风险传导路径，从而有效辅助银行规避风险。

金融领域内的综合类应用

财富管理和对话客服是知识图谱能力在金融行业上层两个场景中的重要应用。招行面对不同客户的业务能力进行整合，以差异化、有针对性的技术服务有效覆盖处于不同阶段、不同行业、不同特征的客户。

财富管理是客户服务中的重要内容，需要了解客户实际诉求，寻找适合的资管供应产品，通过资产配置、持仓调优来实现价值最大化。其中，AI投研能力是财富管理的重要基础，招行的AI投研能力底层依据于大量图谱数据，集成舆情分析、研报分析、观点生成等各种AI技术能力，通过联邦知识图谱计算出个性化合理财富搭配，形成用户个性化画像标签，最终提供合理的用户资产配比。

对于对话客服引擎，招行于2021年推出的智能投顾助手——AI小招助理。技术上，通过领域分类和槽位识别进入智能理财顾问的预设服务，从而合理引导用户进行理财投顾任务回答。基于知识中心问答库知识训练金融客服语义理解引擎，形成语义分类和语义匹配类知识问答能力解决用户咨询类问题。并结合理财场景特点搭建了大量基金、理财、保险、黄金等产品知识图谱，搭建了实体识别、实体消气歧、语义分类等能力。最终形成了一个知识图谱+知识库问答+任务型问答的投顾机器人，辅助客户经理助力客户进行理财。

大模型对知识图谱工作范式的冲击

传统的知识图谱从构建到上层的应用都需要将文本任务切分成各个子任务场景来解决，例如知识发现、知识挖掘、知识表示、知识推理、知识应用等任务，涉及到非结构化数据清洗和抽取、分词、语义角色标注、实体抽取、关系分类、实体消歧、语义匹配、图谱查询和图谱推理等任务，其与人类完全端到端的知识网络构建流程有所出入。这种传统的方式注定需要耗费大量人力和时间去微调各类子任务，且每个任务流程都需要标注大量高质量的微调数据集，形成场景类的预训练小模型的微调任务，但子任务间的错误最终还是会传递影响最终应用的准确率。

而像ChatGPT类的大语言模型依靠大规模参数量，及高质量人类反馈机制学习能够很好地模拟人类，让模型初显AI的能力。让我们看到原本自然语言处理领域的传统范式和以Bert为代表的场景化微调方法已经不再适用。取而代之的，是大模型可以凭借其突现能力以及强大的常识、推理和交互能力，基于统一范式处理大部分的NLP下游应用，且生成效果逐步接近真实世界，非领域专业人士甚至很难辨明内容真伪。

大型语言模型有可能彻底改变我们处理知识图谱的方式。知识图谱是表示复杂知识结构和关系的强大工具，但需要大量的工作来构建和维护。大型语言模型可以自动化处理许多构建和维护知识图谱所需的任务，例如实体识别、关系提取和分类匹配等此类语义理解任务。在大模型的冲击下，我们不得不思考，知识图谱是否可能实现新的统一工作范式，将知识图谱中存储的知识关联有机融入到大模型中，教会大模型掌握图谱的知识和推理能力，从而实现下游应用统一端到端的工作范式？

为了应对这些挑战，我们需要开发新的技术和工具，将大型语言模型与知识图谱集成。一种方法是使用自然语言处理技术，从大型语言模型生成的无结构文本中提取结构化数据，这可以确保大型语言模型生成的信息在知识图谱中得到准确表达。另一种方法是通过开发技术，结合知识图谱来检测和纠正大型语言模型生成中的错误，将事实性结果融合进大语言模型，让大语言模型生成效果更具有可信度。

总之，应对大型语言模型对知识图谱的影响需要结合技术专业知识、领域知识和创造力。通过开发新的算法和工具，结合大型语言模型的力量创建更强大和准确的知识图谱，也可以利用知识图谱来提升大型语言模型在知识运用、推理方面的准确性。