▏摘要
中信证券基于分布式图数据库StellarDB,替代国外开源图数据库产品,打造全新的企业级知识图谱平台,应用于同一客户集团画像、科创板关联发现、风险事件报告、全球企业关联图谱、产业链图谱、投研图谱、反洗钱与稽核图谱、元数据图谱等应用场景。
▏问题
过去,中信证券基于Neo4j社区版构建各类图数据库应用,但社区版存在不支持多实例需求、计算资源限制及不满足高可用、缺乏统一管理需求等问题。
▏行动
• 2021年为了满足企业级应用,中信证券基于星环科技分布式图数据库StellarDB和知识图谱平台SophonKG,打造了全新的企业级知识图谱平台,知识图谱平台的图存储技术为自研KV存储,存储设计按照属性图模型设计,满足TB级存储需求;2023年5月,中信证券完成知识图谱平台的扩容,并基于StellarDB 5.0进行架构升级;
• 基于知识图谱平台,中信证券构建了同一客户集团画像、科创板关联发现、风险事件报告、全球企业关联图谱、产业链图谱、投研图谱、反洗钱与稽核图谱、元数据图谱等十余个应用。
▏结果
• 中信证券知识图谱平台实现了一站式运维管理、调度管理和权限管理等,满足高可用要求要求,性能提升数倍,在金控报送方面节省时间成本约30% 。
分享专家:陈辉华,中信证券高级副总裁作者:沙丘社区分析师团队
案例企业
中信证券股份有限公司成立于1995年10月,2003年在上海证券交易所挂牌上市交易,2011年在香港联合交易所挂牌上市交易,是中国第一家A+H股上市的证券公司,率属于中国中信集团有限公司。中信证券目前拥有7家主要一级控股子公司,分支机构遍布全球13个国家,中国境内分支机构和网点400余家。中信证券规模优势显著,是国内首家资产规模突破万亿元的证券公司。主要财务指标连续十余年保持行业第一,各项业务保持市场领先地位,多年来获得亚洲货币、英国金融时报、福布斯、沪深证券交易所等境内外机构颁发的各类奖项。项目背景
2018年,中信证券基于Neo4j社区版构建各类图数据库应用,但社区版存在不支持多实例需求、计算资源限制及不满足高可用、缺乏统一管理需求等问题。
2021年,随着应用激增,为了满足企业级的建设需要,中信证券基于星环科技分布式图数据库StellarDB和知识图谱平台SophonKG,打造了全新的企业级知识图谱平台,知识图谱平台的图存储技术为自研KV存储,存储设计按照属性图模型设计,满足TB级存储需求。在图数据库服务的顶层,还提供了丰富的接口,如Java、Python、RESTful API等,方便自定义开发,重构了企业图谱及集团客户画像、风险事件报告、科创版关联发现以及联机分析等十余个应用。2023年6月,中信证券完成了知识图谱平台的扩容,并基于StellarDB 5.0进行了架构升级。解决方案为搭建图谱独特的HTAP架构,实现统一图存储服务和多套计算引擎资源物理隔离,满足图计算和图查询任务的不同资源需要;在集群中部署1套图存储服务和3套Quark计算引擎服务,多个Quark之间可以共享元信息。构建一种基于图结构数据的端到端全流程图机器学习框架,其底层与图数据库紧密对接,以实现高效的数据读写和查询过滤等预处理工作的下推。解决方案
基于星环科技分布式图数据库StellarDB和知识图谱平台SophonKG,中信证券知识图谱平台实现方案如下:星环科技分布式图数据库StellarDB提供大数据处理能力和通用组件能力,支持平台内一站式运维管理;知识图谱平台为星环科技知识图谱平台SophonKG,提供图谱构建、图谱融合、图谱查询、可视化以及图谱计算、图谱分享等能力。
知识图谱平台业务功能特点如下:第一,多模查询和存储。使用统一的Quark计算引擎,SQL结合图语言Cypher的多模查询语言,可以实现多模查询;支持hive、文本文件、图模型等多模态存储。第二,多场景应用。知识图谱平台支撑10余个下游应用;SophonKG提供自助分析平台,支持业务自助探索图谱;提供图机器学习能力,应用于ETF推荐和场外配资等场景。第三,高性能。星环科技在计算引擎侧引入local+cluster混合计算模式策略,自如应对实时和离线分析;原生分布式图数据库,拥有处理百亿级图数据的能力;搭建HTAP架构,AP算法任务和TP查询任务分离。第四,高可用。采用多节点HA方式,提供高可用服务;使用Raft协议,提供秒级副本切换服务;通过Kubenetes实现故障自动恢复;根据DAG执行计划,重试丢失/出错任务。
知识图谱平台的应用场景如下:(1)同一客户集团画像中信证券采用Louvain社区发现算法,挖掘集团簇,最后在各自集团簇内企业,沿关系向上获取归属集团,结合风控提出的个性化需求,例如银行不再上穿、个人集团认定等,数据库提供丰富的Cypher复杂逻辑的处理能力。
(2)科创板关联发现战略投资者持有科创版股票不允许做融券卖出,中信证券通过最短路径分析(不限定方向不定长查询,去掉任职关系),查看两者的利益关联关系。
(3)风险事件报告基于统计维度(持仓、衍生品标的、客户)和业务条线(自有资金业务、资管业务、经纪业务、投行业务、托管业务),中信证券框定11种角色。通过舆情平台监控风险事件,当发生风险事件时,通过客户谱系找到成员企业及其持仓,自动通过邮件输出报告发送给业务方及领导进行实时监控。
(4)全球企业关联图谱将境外企业输出与境内企业融合,核心节点是企业、员工、关系人、产品、营收、行业、金融产品,共包括19种关系、3亿实体、4亿关系。
(5)产业链图谱将第三方产业链数据加载到图谱中,为公司客户经理提供产业链服务,直观展示已开发、已服务、待开发的客户,帮助客户经理挖掘商机。
(6)投研图谱从部委的政策源出发,通过NLP技术提取每条政策的核心观点和行业板块等,同时结合新闻舆情源的信息,对二者进行匹配和召回,计算政策影响因子值,通过产业链传播算法得到传播系数,结合图传播算法找到个股因子,回测效果相对收益达到25%。
(7)反洗钱与稽核图谱通过对连通子图的挖掘,合规人员可以从高风险人员出发,找出潜在可疑团伙。
(8)元数据图谱多跳(8+)的数据血缘neo4j社区版查询不出结果,基于StellarDB强大的多跳计算能力和改进的expand算法,实现15跳内的数据血缘(溯源和影响性分析)。
价值与效果
中信证券知识图谱平台实现了一站式运维管理、调度管理和权限管理等,满足高可用要求要求,性能也提升了数倍,在金控报送方面节省时间成本约30%,目前成果在公司内广泛应用。