问答知识库快速构建技术解析及行业实践

news2024/9/23 17:23:24

对话式 AI 类产品,已经在各行各业中实现规模化的应用。随着科技创新支撑下的高质量行业发展,人工智能已成为数字经济时代的核心生产力。其中对话式 AI,作为人工智能技术的一个分支,随着深度学习、预训练模型等技术的突破,逐渐在各行各业中实现了从产品测试到规模化应用的落地。比如:智能客服、外呼机器人、语音助手等产品应用。

据艾瑞咨询 2022 年《中国对话式 AI 行业发展白皮书》所示,预计到 2026 年,对话式 AI 的核心产品规模将达到 108 亿元,带动相关产业规模超 385 亿元,2021~2026 年的年均复合增长率(CAGR)分别为 18.9%和 25%;对话式 AI 作为“替代与辅助人工”的核心应用,为市场最原始直观的“降本增效”价值诉求提供了先行落地的有效解决方案。众多企业将引入“对话式 AI”作为智能化转型的首要试验田。

艾瑞咨询:2019-2026 年中国对话式 AI 产品及带动相关产业规模

企业在应用对话式 AI 产品中,通常会遇到以下两个痛点:

  1. 部署阶段-问答知识库构建周期长,用户冷启动门槛高。主要表现在:1、企业数据分散在会话日志、网页等多种文档中,需要人工收集。2、企业数据积累较少,需要业务专家介入梳理。3、人工标注成本居高不下,易受个人主观意识左右,影响模型训练效果。
  2. 运营阶段-AI 服务效果不稳定,且缺乏有效的监控手段,不能及时进行模型调优。主要表现在:1、系统中人工构建知识库质量不可控,导致 AI 服务效果不稳定。2、系统对未覆盖知识无法做到及时发现,导致无法回答,用户体验差。3、系统无法对错误案例(BadCase)及时分析,模型无法及时更新。

上述两个痛点说明,对话式 AI 产品若要实际满足用户需求,仅拥有对话能力是不够的,更需要完善的问答知识库作为底层支撑。换句话说,问答知识库的规模和质量直接决定了对话式 AI 产品的整体服务效果。然而仅靠人力堆积的模式来构建和运营知识库,不仅服务质量得不到保证,而且项目运营成本也存在失控的风险,早已无法适应市场的要求和增速。

问答知识库的快速构建及闭环运营能力,是解决上述两个痛点的关键。

问答知识库快速构建及闭环运营的核心技术介绍
问答知识库的构建和运营是一项系统工程,冷启动阶段运用系统工具辅助人工快速构建知识体系,推进对话式 AI 落地;运营阶段运用大数据挖掘技术,实现价值数据自动回流,知识库持续更新。两套体系搭建完成后将形成数据闭环,并相辅相成,逐步形成“双飞轮”的自运营体系。其整体运行逻辑如下图:

知识构建及闭环运营工具流程图

如图所示:冷启动阶段运用知识挖掘、智能标注、智能荐句、质量检查等工具辅助人工快速构建知识体系;运营阶段运用新知识发现、BadCase 分析、质量检查等工具保持模型持续迭代。其中用到的核心技术主要有文本聚类、样本增广、知识质量检查等。下面就针对这些核心技术做下介绍。

1、文本聚类技术,可以为知识库持续挖掘和发现新的知识:

文本聚类技术在知识构建及闭环运营工具中,主要用于新知识的发现(无法聚到现有的任何一个意图类别中)和拒识问题的归纳(可以聚到现有意图体系中,但是现在无法应答,需要人工处理)。当前的主流算法为无监督句向量表示+聚类算法,聚类算法常采用 K-means、DBSCAN 等,目前常用的无监督句向量表示方法有:

表 1.目前常用的无监督句向量表示方法

随着深度学习的发展,预训练模型目前是向量表示的主流方法。最简单的方式是使用 BERT 的[CLS]token 对应的 embedding 作为整句话的句向量表示。但是该向量存在向量坍塌的问题,即使差异性非常大的两个句子,相似度得分也可能会比较高。因此引入了对比学习,对比学习主要思想是让相似的文本对应的向量表示尽可能接近,不相似的文本对应的向量尽可能远离,目前预训练+对比学习是获取无监督句向量的主流方法。

经过调研,研究院团队将句向量的获取方式由无监督升级为了半监督,将少量带标注的先验知识融入模型,使模型能够学习到更具区分性的向量表示,从而进一步提升了文本聚类的效果。下图为某电商场景半监督聚类和无监督聚类效果对比,可以明显看出半监督聚类结果更加内聚(半监督对于相似的文本只聚出了 3 类,而无监督聚出了 7 类)。

表 2.某电商场景半监督聚类和无监督聚类效果对比

我们也在公开数据集上对比了各种聚类算法的效果,半监督模型+对比学习的效果提升明显。

表 3.公开数据集上各聚类算法的效果对比

聚类效果评价指标:

NMI(Normalized Mutual Information, 标准化互信息)

AMI(Adjusted Mutual Information, 调整互信息)

AR(Adjusted Rand, 调整兰德指数)

文本聚类在实践中发现的新知识和重新归纳的拒识问题经人工审核,采用率可达 87%。大大降低了运营人员人力投入。为提升聚类速度,我们使用 batch K-means 替换 K-means 算法,在聚类效果不变的情况下,速度提升了近 3 倍。

2、样本增广技术,可以解决知识库语料稀少和不平衡的问题:

样本增广技术,主要应用在智能荐句工具中解决知识库语料稀少和不平衡问题。当前主流样本增广算法如下:

表 4.当前主流样本增广算法

中关村科金人工智能研究院结合一线运营人员与客户的实际应用反馈,系统分析了上述各方案的优缺点之后,创造性地提出了一种融合了文本检索和生成式样本增广的技术,作为最终的样本增广方案。

其中文本检索是利用研究院积累的大量真实行业知识语料(已脱敏)作为检索底库,基于文本语义向量匹配技术从底库中获取语义相似样本,可以同时兼顾增广样本的多样性、准确性和真实性。我们采用融合了对比学习的半监督预训练模型获取文本语义向量,用余弦相似度作为度量指标,为提升检索速度,使用了 milvus 向量索引。生成式样本增广我们采用了 Prefix_LM 结构模型,然后在生成结果基础上做了进一步的数据后处理。

大致流程为:当用户输入待增广样本,系统先从历史积累的语料库中检索相似样本,当检索数量能达到用户需求时,直接返回检索结果;如果数量不足,再通过生成式样本增广算法进行扩充。考虑到生成式样本增广的不可控问题,我们做了两个数据后处理操作,进一步提升生成样本的质量。一是通过计算生成样本与原始样本的相似度,如果相似度太低则不采纳该生成结果;二是通过语言模型对生成样本进行打分,如果分数太低也不采纳。最终增广样本的人工采用率近 70%,大大降低了运营人员人力投入成本。下面以“怎么提现呢”为例,样本增广效果对比如下:

表 5.样本增广效果对比

3、知识质量检查技术,可以检测数据标注质量并对潜在错误样本进行矫正:

知识质量检查技术主要用于评估数据标注质量并挑选出潜在的标注错误样本。我们采用了 Cleanlab 工具,对标注样本进行了 1~5 的噪音指数评分,值越高说明人工标注结果越有可能存在错误,需要对标注进行复核纠正。经过质量检查和标注矫正后,意图识别准确率平均可提升 6%~15%。以保险领域的一部分知识为例,质量检查结果如下:

表 6.某保险场景部分知识质量检查结果

问答知识库构建技术助力多行业快速落地对话式 AI

中关村科金人工智能研究院自主研发的问答知识库快速构建工具,目前已在保险、电商、银行、零售等多个行业,永安保险、步步高等多个头部企业中,实现落地应用。在上述场景中,基于文本聚类技术进行新知识发现,可发现占对话日志总量 2%~3%的无法应答的新知识,经人工审核,采用率可达 87%;智能荐句工具通过样本增广技术为每条知识平均增广 10 条相似样本,经过人工审核,采用率近 70%;知识质量检查工具可以在减少 85%人工审核工作量下提升 10%的意图识别准确率;BadCase 分析及回流工具平均每周可以自动回流一次知识库并重新训练一次模型。

实践证明,问答知识库快速构建及闭环运营工具可至少节省 2/3 的知识库运营和维护人力,使冷启动和知识库更新时间缩短近 70%。

总结与展望

现阶段对话式 AI 技术应用的业界难题,主要是新场景中对话机器人的冷启动问题。上面介绍了我们在快速构建问答知识库上的工作,在一定程度上解决了冷启动问题,使冷启动和知识库更新时间缩短近 70%,但是仍然需要一定的人力在工具的辅助下进行知识库审核和构建。目前流行的基于提示学习 prompt 的小样本学习,可充分利用预训练模型在大量无监督数据集上学习到的丰富知识,进一步减少冷启动所需要的数据量和人力投入。

未来,中关村科金将利用现有的知识库快速构建技术,结合最新的小样本学习方法,进一步缩短对话式 AI 的部署周期,为企业的智能化转型和对话式 AI 的大规模快速落地提供有力的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1248785.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构/C++】线性表_单链表的基本操作

#include <iostream> using namespace std; // 2. 单链表 // ElemType 的定义 typedef int ElemType; typedef struct LNode {ElemType data;struct LNode *next; } LNode, *LinkList; // 初始化单链表 bool InitList(LinkList &L) {L (LNode *)malloc(sizeof(LNode…

Java自动装箱(autoboxing)和自动拆箱(autounboxing)介绍

Java自动装箱(autoboxing)和自动拆箱(autounboxing)介绍 先回顾一下 Java 中的基本数据类型和包装类。 基本数据类型&#xff08;Primitive Data Types&#xff09;&#xff1a; Java 提供了一组基本数据类型&#xff0c;有8种基本数据类型&#xff1a;byte、short、int、long…

【Spring】MyBatis的操作数据库

目录 一&#xff0c;准备工作 1.1 创建工程 1.2 准备数据 1.3 数据库连接字符串 1.4 创建持久层接口UserInfoMapper 1.5 单元测试 二&#xff0c;注解的基础操作 2.1 打印日志 2.2 参数传递 2.3 增&#xff08;Insert&#xff09; 2.4 删&#xff08;Delete&#x…

华为云之在Linux系统下安装可视化界面

华为云之在Linux系统下安装可视化界面 一、华为云弹性云服务器ECS介绍二、Linux图形化界面介绍三、本次实践介绍3.1 本次实践简介3.2 本次实践环境介绍 四、环境准备工作4.1 预置环境4.2 查看预置环境资源信息 五、连接弹性云服务器ECS5.1 登录华为云5.2 复制ECS弹性公网IP地址…

1|1111

1、指定在每天凌晨4&#xff1a;00将该时间点之前的系统日志信息&#xff08;/var/log/messages &#xff09;备份到目录下/backup&#xff0c;备份后日志文件名显示格式logfileYY-MM-DD-HH-MM 2、配置ssh免密登陆&#xff1a;客户端主机通过redhat用户基于秘钥验证方式进行远…

LED驱动控制专用电路

一、基本概述 TM1628是一种带键盘扫描接口的LED&#xff08;发光二极管显示器&#xff09;驱动控制专用IC,内部集成有MCU 数 字接口、数据锁存器、LED 驱动、键盘扫描等电路。本产品质量可靠、稳定性好、抗干扰能力强。 主要适用于家电设备(智能热水器、微波炉、洗衣机、空调…

深入学习pytorch笔记

两个重要的函数 dir()&#xff1a; 一个内置函数&#xff0c;用于列出对象的所有属性和方法 help()&#xff1a;一个内置函数&#xff0c;用于获取关于Python对象、模块、函数、类等的详细信息 Dateset类 Dataset&#xff1a;pytorch中的一个类&#xff0c;开发者在训练和…

【MATLAB源码-第89期】基于matlab的灰狼优化算法(GWO)无人机三维路径规划,输出做短路径图和适应度曲线

操作环境&#xff1a; MATLAB 2022a 1、算法描述 灰狼优化算法&#xff08;Grey Wolf Optimizer, GWO&#xff09;是一种模仿灰狼捕食行为的优化算法。灰狼是群居动物&#xff0c;有着严格的社会等级结构。在灰狼群体中&#xff0c;通常有三个等级&#xff1a;首领&#xff…

中伟视界:AI分析盒子——ai算法中通过什么方法做到一个对象只报警一次,为每个对象生成一个唯一ID

在AI算法中&#xff0c;通过特定的方法实现对象只报警一次&#xff0c;为每个对象生成唯一ID是非常重要的技术问题。随着人工智能技术的快速发展&#xff0c;AI算法在各个领域得到了广泛应用&#xff0c;如安防监控、智能交通、自动驾驶等。而在这些应用场景中&#xff0c;需要…

搭建SRS视频服务器

去官方网站下载FFmpeg6.1 https://ffmpeg.org/download.html拷贝到CentOS7.9中的/opt目录下&#xff0c;解压并重命名 tar -xvf ffmpeg-6.1.tar.xz 解压后编译安装 ./configure make make install从github下载SRS4.0release 解压后 如果ffmpeg的路径不在/usr/local/bin/ffmpe…

区块链技术与应用 【全国职业院校技能大赛国赛题目解析】第四套区块链应用后端开发

第四套区块链应用后端开发 环境 : ubuntu20 fisco : 2.8.0 springboot 2.1.1 fisco-java-sdk: 2.7.2 maven 3.8.8 前言 这套后端样题,只涉及调用fisco的系统接口,不涉及此食品溯源项目的业务接口,所以我就直接生成一个springboot项目进行完成此题目。 请提前准备好一…

python中combinations函数的用法

combinations是itertools模块提供的一个函数&#xff0c;用于返回迭代对象&#xff0c;迭代对象包含所有长度为r的组合。 函数语法形式为&#xff1a;combinations(iterable, r) iterable表示要生成组合的可迭代对象&#xff0c;例如列表、元组或字符串r表示每个组合的长度, 组…

Day37力扣打卡

打卡记录 美化数组的最少删除数&#xff08;贪心&#xff09; 链接 class Solution:def minDeletion(self, nums: List[int]) -> int:n, cnt len(nums), 0for i in range(n):if (i - cnt) % 2 0 and i 1 < n and nums[i] nums[i 1]:cnt 1return cnt 1 if (n - c…

【从删库到跑路】MySQL数据库 — E-R图 | 关系模型

&#x1f38a;专栏【MySQL】 &#x1f354;喜欢的诗句&#xff1a;更喜岷山千里雪 三军过后尽开颜。 &#x1f386;音乐分享【如愿】 大一同学小吉&#xff0c;欢迎并且感谢大家指出我的问题&#x1f970; 文章目录 &#x1f339;简述什么是E-R图⭐核心概念 &#x1f339;E-R图…

代码随想录算法训练营第五十三天|1143.最长公共子序列 1035.不相交的线 53. 最大子序和

文档讲解&#xff1a;代码随想录 视频讲解&#xff1a;代码随想录B站账号 状态&#xff1a;看了视频题解和文章解析后做出来了 1143.最长公共子序列 class Solution:def longestCommonSubsequence(self, text1: str, text2: str) -> int:dp [[0] * (len(text2) 1) for _ i…

【云原生 Prometheus篇】Prometheus的动态服务发现机制

自动发现 一、Prometheus服务发现 理论部分1.1 Prometheus数据采集配置1.2 基于文件的服务发现1.3 基于consul的服务发现1.4 基于 Kubernetes API 的服务发现1.4.1 概念1.4.2 部分配置参数1.4.3 配置模板 二、实例一&#xff1a;部署基于文件的服务发现2.1 创建用于服务发现的文…

【pandas数据处理】数据结构

数据结构 Series基于列表创建数据结构自定义元素的行标签基于字典创建数据结构 DataFrame对象基于列表创建数据结构设置参数来定义行列标签基于字典 Series 一维数组对象&#xff0c;不仅包含数据元素&#xff0c;还包含一组与数据元素对应的行标签。 基于列表创建数据结构 …

2023年【制冷与空调设备安装修理】考试报名及制冷与空调设备安装修理考试资料

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 制冷与空调设备安装修理考试报名考前必练&#xff01;安全生产模拟考试一点通每个月更新制冷与空调设备安装修理考试资料题目及答案&#xff01;多做几遍&#xff0c;其实通过制冷与空调设备安装修理模拟试题很简单。…

上市公司-股权性质数据(国企、央企)2003-2022年

上市公司-股权性质数据&#xff08;国企、央企&#xff09;是一个针对上市公司的数据集&#xff0c;主要涵盖了A股公司股权性质的详细信息&#xff0c;区分了公司是否为民营企业、国企或央企。这份数据集提供了每家上市公司的股权结构背景&#xff0c;对投资者、市场分析师和经…

深度学习卷积神经网络参数计算难点重点

目录 一、卷积层图像输出尺寸 二、池化层图像输出尺寸 三、全连接层输出尺寸 四、卷积层参数数量 五、全连接层参数数量 六、代码实现与验证 以LeNet5经典模型为例子并且通道数为1 LeNet5网络有7层&#xff1a; ​ 1.第1层&#xff1a;卷积层 ​ 输入&#xff1a;原始的图片像素…