在之前做的关于FAQ知识库问答系统中,总结了相关踩坑内容,梳理如下,供大家参考。系统平台的管理与优化对于企业来说至关重要,它不仅关乎数据处理的效率,还直接影响到用户体验和业务成果。本文将从系统平台管理方式、系统架构、知识运营优化、知识召回策略、运维方式处理以及后续规划六个方面,探讨如何全面提升系统平台的性能与质量。
一、优化系统平台管理方式
前期问题回顾:在系统平台管理初期,面临缺乏专职对接人员、数据导入导出效率低下、沟通协调不畅以及需求不明确导致的重复开发等问题。为解决这些问题,我们采取了以下措施:
- 设立专职团队:组建专门的项目管理团队,负责数据反馈与沟通,确保双方信息流通顺畅,减少误解和错误。
- 明确目标与对齐需求:通过定期例会和明确的指标体系,确保业务需求与开发目标高度一致,避免资源浪费和重复劳动。
二、系统架构与语义表结构
系统架构是平台稳定运行的基石。优化语义表结构,确保新表与现有表的完美结合,提高数据处理能力。同时,关注语义表结构的合理性,从机器学习的角度优化句式和关键词的分类,使系统能够更准确地理解和处理用户请求。
语义表结构
三、知识运营优化:从常规到深度
常规优化:在知识库建设初期,我们通过增加扩展问、修改词类等方式进行常规优化,快速丰富知识库内容。
- 1、常规优化:常规优化时语义优化手段中最简单的一种,通过采取对库中的句式以及词集进行增删改的简单操作即可达到语义优化的效果,常用于项目建库初期,知识库数据缺乏的时候:增加相应扩展问
- 2、修改词类:分析测试语料中所含关键词,结合具体项目的业务范围,判断测试语料中所含关键词是否为重要词集;如果是重要词集,查看该该词否存在于当前知识库中;
- 3、强规则处理:当一个业务和其他业务完全不相关时,可使用强规则对其进行处理。网关部分
深度优化:随着知识库的积累,我们采用深度优化方法,如拒识数据处理、质检缠绕、意图缠绕处理以及模型训练等,不断提升知识库的质量和准确性。
- 1、拒识数据处理:拒识数据较多(占比超过8%),且无新知识点,可将常见意图不完整的短句加入拒识节点。
- 2、质检缠绕:使用工具,对库中的何式进行检测,并对检测结果进行调整
- 3、意图缠绕处理:可通过合并意图或者流程引导的方式
- 4、模型训练:当知识库更新较多且新增句式过多,可先进行一轮缠绕质检后进行模型训练
四、提升知识召回效果
针对知识召回效果差的问题,我们采取了多种策略:
- 优化召回算法:通过BM25打分调优、引入更优的向量模型选型、实施多路召回以及多种召回范式等措施,提高召回准确率和效率。
- 微调与Rerank:对向量模型进行微调,并引入Rerank模型,进一步提升召回结果的相关性和准确性。
五、运维方式处理:自动化与人工审核相结合
在运维方面,注重自动化与人工审核的结合。通过坐席辅助标注更新和定时语料更新模块,实现了对用户问题的自动分类和处理。同时,对置信度高的知识点进行扩展问检测,对置信度低的问题进行过滤筛选,确保数据质量。此外,还需要建立了完善的用户标注流程,确保新知识点和扩展问的准确录入与更新。
处理思路:
一、坐席辅助标注更新
客服响应的过程中,对用户问题要分流处理,导到准确知识点的扩展问、新增知识点或者准确问题上,有持续的新增数据
二、增加定时语料更新模块:定时把新的问题跑一下该模块,对数据进一步处理,降低人工标注压力
先由新增的问题语料经过模型分类处理,模型要对不确定的数据进行提炼加工。
- 置信度高的知识点,检测是否有相应的扩展问
- 置信度匹配低的,即与所有知识点都不太相关的,进行过滤筛选(排除一些用户意图信息不明确的问题),提交用户审核。
用户进行一轮语料更新要标注以下内容
1、是否属于新知识点
2、是否属于扩展问
语义优化思路
六、后续计划
展望未来,我们将继续深化系统平台的管理与优化工作。具体计划包括:
- 持续优化语义表结构:根据业务需求和技术发展,不断优化语义表结构,提高系统处理能力和效率。
- 加强知识挖掘与增强学习:利用先进的机器学习技术,挖掘更多有价值的知识点,并通过增强学习不断提升知识库的质量和准确性。
- 完善运维体系:建立更加完善的运维体系,实现自动化与人工审核的深度融合,降低运维成本,提高运维效率。
- 加强团队协作与沟通:通过定期培训和团队建设活动,加强团队成员之间的沟通与协作能力,共同推动系统平台管理与优化工作的不断进步。
总之,系统平台管理与优化是一个持续的过程。只有不断总结经验、改进方法,才能不断提升系统平台的性能与质量。