一、知识图谱的趋势
随着互联网、云计算、大数据、人工智能等信息数据技术的快速发展,计算机的智能化程度也越来越高,知识图谱作为人工智能的核心技术,其在数据集成、语义表示和逻辑推理等方面存在着得天独厚的优势。
2021年,知识图谱核心市场规模预计达到107亿元,而到2026年,相应规模将超过296亿元(《2022年中国知识图谱行业研究报告》。感知到认知的跨越式发展,须引入发展认知技术,知识图谱在此形势下成为了破局的关键技术。
经过多年的发展,知识图谱的技术已经深入到互联网、医疗、金融等多个行业,其应用场景也包含了智能推荐、业务推理、运营分析、服务测评、决策支持、RPA机器人与大数据挖掘。
二、什么是知识图谱
知识图谱是人工智能的一大底层技术,是描绘实体之间关系的语义网络,自带语义、逻辑含义和规则,通过三元组即“实体×关系×属性”集合的形式来描述事物之间的关系。
知识图谱将非线性世界中的知识信息结构化、可视化,辅助人类进行推理、预判、归类。
知识图谱中的图并非图像概念,而是类似化学分子式的结构,一个知识图谱往往存在多种类型的实体与关系。
知识结构网络化、网络结构复杂、网络由三元组构成、数据主要由知识库承载是知识图谱的四大基本特征。一般而言,知识图谱的数据以文本化数据为主,数据化数据为辅。
三、烟草零售行业的痛点
烟草商业企业作为烟草产业链上重要一环,外部连接烟草工业企业、零售客户、消费者,内部包含营销、专卖、烟叶、物流等诸多业务,信息系统众多,企业数据量庞大。
特别是当前卷烟营销工作出现了新的特点,卷烟营销模式、方法和手段也在不断发生变化,面对“客户需求多元化、客户体验个性化、行业特征高度适配化”的数字化运营阶段,如何借助知识图谱技术,整合烟草商业企业诸多业务系统数据资源,探索建立一个适用于卷烟零售户的服务策略体系。
为零售户提供全面高效的服务,能真正解决零售户的实际问题,同步提升烟草公司服务能力、密切客我关系、强化品牌培育、拉升卷烟结构、强化终端软实力,提高客户满意度和忠诚度,是实现卷烟营销以及整个行业高质量发展的重要环节。
四、知识图谱 在烟草零售行业的具体应用
# 1 烟草零售行业知识图谱构建设计
- 设计思路
在烟草零售行业,主要解决如何基于知识图谱技术,利用烟草商业企业营销、物流、专卖、内管、市管等内部业务系统以及零售终端等外部系统数据,在此基础上建立零售客户标签体系,能全范围,多视角的描述零售客户。
利用大数据与数据可视化等相关技术,实现标签计算、展示等全生命周期管理。在零售户标签体系之上,建立零售客户的知识图谱模型。
围绕零售客户终端属性、规范经营、以及不同类型计算标签(预警度、诚信度、配合度、成长度、规范度等)数据模型的生成。
实现基于以零售户和卷烟为中心实体的信息检索与推荐系统,最终形成烟草零售户客户服务策略的知识图谱,充分展示零售客户在基本属性、业务关联关系、用户需求、自身价值、用户营销、用户行为等各个业务层面的信息,支持精准营销、客户洞察、渠道优化、品牌提升、运营内控、监督管理等卷烟零售客户服务的应用场景。
- 图谱构建方式
烟草零售行业图谱的构建方式主要是选用自上而下的模式来建设零售客户服务策略知识图谱的方式。
通过将数据粒度从文档级别降到数据级别,聚合大量知识,实现知识的快速响应和推理。
其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性的键值对,实体通过之间的关系相互联结。
从原始数据到知识图谱的生成,大致要经历知识抽取、知识融合、数据模型构建等过程。具体包括四个步骤:知识抽取、知识融合、知识加工、图谱应用,如下图所示:
/ 图:应用数据架构知识图谱模型
知识图谱的构建与计算,需要考虑以下内容:
1) 不仅需要考虑如何结合文本、多媒体、半结构化、结构化知识、服务或API,以及时态知识等的统一知识表示,还需要进一步考虑如何结合结构化(如关系型数据库)、半结构化(HTML 或 XML)和非结构化(文本、图像等)多源异质数据源来分别构建通用事实类(各种领域相关实体知识)、常识类、零售客户记忆类和服务任务类知识库等;
2) 针对不同类型的数据和知识,有不同的构建技术,如针对结构化数据的知识映射、针对半结构化知识的包装器(Wrapper),以及针对非结构化知识的文本挖掘和自然语言处理。
3) 为了得到融合的图谱,除了需要考虑离线的多源异构的知识融合,还需要额外考虑服务任务类动态知识的对象绑定。这项工作往往是在线完成的,相当于根据不同的交互,在线动态扩充知识图谱并实例化的过程。
4) 最后还需要考虑知识图谱的存储。既然有了知识,就必须用一定的手段去存储。但这里谈到的存储,不仅仅是建立一个知识库,还包括存储之后的应用效率等。
- 标签体系建立
标签体系内容可以从零售户基础信息、营销、专卖、物流、规范经营、内管等多个领域中定义。
零售客户标签体系建立模式主要包括标签定义、标签规则、标签计算和标签查询这4步。
标签定义包括确认标签在标签管理体系中的分类、标签名称、标签代号、标签在同规则下的对应值、标签状态等。
标签定义之后,需进一步明确标签所对应的业务逻辑,标签规则的设定即为标签的业务逻辑配置过程。
标签计算包含标签计算任务的建立,以及标签计算调度接口的实现。主要是对配置好的标签规则按指定循环周期进行自动的程序调度管理,以确保标签数据的正常使用。
标签查询是广义的查询,即只要通过技术手段获悉了标签的直接或间接分析结果,均为标签查询。
- 知识图谱模型
利用自动化相关技术,将已有的业务系统数据(结构化)、离线文本、图片等(非结构化)、以及运行日志等(半结构化)自动整合成对应的结构化数据,以便于后续的实体、关系、属性的建模与维护。
譬如,以业务系统结构化数据为例,结合业务数据的关联关系,将概念类类比成模式层,将数据之间的关联关系映射到知识的关系。
·模型定义。模型定义包括模型的名称,所属类别等 信息。模型定义功能包含模型的在线维护,具体包含模型的增删改查等。
·模型规则。模型定义之后,需进一步明确模型所对应的业务逻辑,即为模型的业务逻辑配置过程,确定标签具体筛选出客户的组合方式。
·模型规则主要支持以下几种运算逻辑:四则运算、比较运算、逻辑运算、聚合运算、函数运算以及常量的引用。并支持在线配置模型规则,以应对不同模型计算场景。
·模型计算。模型计算主要是对配置好的模型规则按指定循环周期进行自动的程序调度管理,以确保模型数据的正常使用。包含模型计算任务的建立,以及模型计算调度接口的实现。
·模型查询。模型数据的查询主要是按照业务需求将零售客户的模型输出,提供实时接口查询和批量卸载两种方式。
# 2 知识图谱系统架构
综上所述面向烟草零售户客户服务策略的知识图谱建设的理论基础,在系统架构设计上,可分为6个部分,数据获取层、数据存储层、数据组织层、数据计算层、数据管理层以及数据应用层。其设计如下图所示:
/ 图:知识图谱系统架构示意图
- 数据接入层
数据接入层,其主要目的是对接当前烟草商业系统中已有的业务数据,主要包含营销、物流、专卖和内管数据。本部分数据以结构化数据为主,并且围绕零售户、卷烟两大实体类型进行展开。
- 数据存储层
数据存储层,其主要功能是实现各业务系统原始数据的汇总存储、加工后结果数据的存储,包含知识图谱数据的存储。
其中基础源数据直接以文件方式存储到HDFS中,并结合 Hive 实现传统数据仓库的功能;而对于图数据,则结合图数据库 Graph 与列数据库 Hbase 实现数据存储。
对于图数据的索引,则使用基于 Lucene 的搜素引擎 Elasticsearch。该搜索引擎是一种基于全文搜索的分布式搜索引擎,从而保证数据的高效检索。
- 数据组织层
数据组织层,其主要功能是实现数据的预处理、装载与实体对齐等操作。数据预处理主要包含命名实体识别、实体特征向量的提取以及实体向量化表示等操作。
当然针对烟草知识图谱中节点相似度的计算,亦属于数据预处理的范畴。
- 数据计算层
数据计算层是数据组织层的扩展与延续。其主要目的是实现数据的深度分析与计算。
包含批量离线数据的计算以及即时数据的计算,而计算的工具,则使用基于内存的分布式计算引擎——Spark。
- 数据管理层
数据管理层则侧重数据的权限管理与调度管理等。重点权限的设置与数据API 的管理等。
通过数据权限配置,可规范数据输出的内容。
通过调度配置可配置自动生成数据、处理数据的调度任务,从而实现程序的自动化运行。
- 数据管应用层
数据应用层主要用于零售户与卷烟信息的检索,实体关系展示,图谱展示等功能,是本系统中人机交互的重要部分。而对于专业人士来说,本部分可提供本体管理、知识维护等模块。
# 3 知识图谱应用
面向烟草零售客户服务策略的知识图谱建立之后,可以广泛的应用于烟草商业企业中,为零售户提供全面高效的服务,能真正解决零售户的实际问题,同步提升烟草公司服务能力、密切客我关系、强化品牌培育、拉升卷烟结构、强化终端软实力,配套终端硬件建设,助力卷烟市场大户管理、货源精准投放等工作。
/ 图:零售客户与卷烟知识图谱示意图
- 卷烟商品推荐
基于零售客户服务策略知识图谱的建立,构建基于零售户和卷烟的检索与推荐系统,可以获取3类卷烟商品数据与零售客户的关系。
·强关联卷烟商品:按照零售客户和卷烟品牌知识图谱的相似度关系,相似度值最高的卷烟商品定义为强关联卷烟商品。
·弱关联卷烟商品:按照零售客户和卷烟品牌知识图谱的聚类结果,与推荐目标用户相似度较高用户聚类的卷烟商品,且这些卷烟商品与目标用户关联度较低的商品定义为弱关联卷烟商品。
·无关联卷烟商品:按照零售客户和卷烟品牌知识图谱的聚类结果,被聚类次数较高的卷烟商品但与目标用户没有关联关系的商品为无关联卷烟商品。
- 零售客户经营指导
通过对知识图谱技术的应用,以实现“简化、协调、高效”为指导原则,通过梳理一线营销人员日常工作,减少重复、非必要工作内容及流程,从工作协同、效率提升、价值增值等方面创新客服经理工作方法,改善客户经理工作服务流程,线上服务和线下服务相结合,依托面向烟草零售客户服务策略的知识图谱,提升客户服务的满意度,做好现代终端建设的服务和保障工作。
五、结束语
本文探讨了基于知识图谱技术,利用烟草商业企业营销、物流、专卖、内管、市管等内部业务系统以及零售终端等外部系统数据,建立零售客户与卷烟的数据标签体系,设计了面向烟草零售客户服务策略的知识图谱系统。
通过机器学习算法进行回归、分类、聚类,再结合卷烟营销工作中客户服务的真实场景以及实际需求,为后续的智能化应用,如智能搜索、自动问答、推荐和决策支持等奠定基础。