对话式人工智能的数据采集方案

基于噪声数据训练对话式人工智能

聊天机器人、虚拟助手、机器人等对话式人工智能 (Conversational AI Agents ) 在我们的日常生活中已随处可见。许多企业希望以更低的成本增强与客户之间的互动，并为此在该领域进行大量投资。大量数据表明，对话式人工智能行业预计至少在2025 年前每年将增长20%。据研究机构高德纳 (Gartner)预测，届时在客户互动平台中使用 AI 技术的组织运营效率将提高 25％。全球疫情已加速这些预期的实现，因为对于希望在虚拟世界运营的同时，仍与客户保持联系的企业而言，对话式人工智能至关重要。对话式人工智能通过为每位客户提供量身定制的人性化体验，帮助企业解决数字通信缺少人情味的问题。有了成功的概念验证，这些变化会重新定义品牌互动的方式，并必将成为新的常态，即便是在疫情之后。但是，为实际应用构建对话式 AI 仍具有挑战。模仿人类的语言交流是件极其困难的事。AI 必须考虑不同的语言、口音、俗语、发音、措辞、赘词和其他变量。这项工作需要大量的高质量数据。问题是，这些数据通常有噪声，充满了可能曲解意图的不相关实体。了解数据的作用以及通过哪些缓解步骤来管理噪声数据，对于减少错误和故障率至关重要。

对话式人工智能应用的数据采集和标注

为了解创建对话式人工智能应用的复杂性，让我们来逐步分析构建具有语音功能的智能体（例如 Siri 或 Google Home）的典型流程。

数据输入：人类主体口述的命令、评论或问题被模型捕获并生成音频文件。计算机通过语音识别机器学习 (ML) 将音频转换为文本。
自然语言理解 (NLU) ：模型使用实体提取、意图识别和域标识（所有用于理解人类语言的技术）来解释文本文件。
对话管理：由于语音识别中可能有噪声，因此要使用统计建模来绘制出人类主体可能目标的分布。这个步骤叫做对话状态跟踪。
自然语言生成 (NLG)：结构化数据被转换为自然语言。
数据输出：文本 – 语音合成将 NLG 阶段生成的自然语言文本数据转换为音频输出。如果转换准确无误，输出的将是人类主体的初始请求或评论。

让我们来进一步探讨自然语言理解 (NLU) ，因为这是管理噪声数据的关键步骤。NLU 通常需要执行以下步骤：

明确意图：人类主体的目标是什么？例如，“我的订单在哪里？”、“查看列表”或“查找商店”等等都是意图或目的。
语料采集：必须通过数据标注者来收集、映射和验证指向同一目标的不同话语。例如，“最近的商店在哪里？”和“查找我附近的商店”就是具有相同意图的不同话语。
关键词提取：这项技术用于解析话语中的关键词。在“我家 3 英里范围内有素食餐厅吗？”这样的句子中，“素食”是类型实体，“3 英里”是距离实体，而“我家”是参考实体。

考虑到这些步骤，设计对话时会面临哪些挑战？首先，没有任何一种简单的方法能够以对所有人都通用的方式收集人类的意图。其次，很难对真实世界中的对话流进行建模，因为对话流会因地理位置、年龄、人和其他个体因素而异。最后，采集的数据可能有噪音且成本高昂。许多自动语音识别 (ASR) 数据包含噪声，导致机器误解音频文件中的特定单词或短语。例如，“我们的数字不是很好”变成了毫不相干的“我们的’素质’不是很好”。人类言语是自然发生的，没有底稿；我们在说话时经常使用与我们的意图无关的语气词。“哦，是的，我觉得，是的，这个更好”这句话里有许多没有必要的语气词，会影响含义的解释。人类的措辞也有很大的差异，这取决于他们来自哪个地方、有着怎样的成长环境和经历。当我们查看噪声数据的统计信息时，我们发现，在平均 53％的情况下，AI 要么正确无误，要么犯了小错误；在 30% 的情况下，AI 犯了小错误；在 17% 的情况下，AI 犯了重大错误。这表明噪声数据仍然是企业在推出对话式人工智能时面临的一个难题。

为社交机器人设计对话

为对话式AI提供的数据采集

在许多情况下，设计对话式人工智能的目标是使他们作为同伴而不是设备与人类交互。这意味着使用语音和手势进行交流、提供有用的服务以及利用自然语言来保持自然的对话流。那么，我们如何开发可以与人们互动的社交机器人？创建具有个性的社交机器人的一种方法是通过基于流程图的可视化编程。流程图块表示后端功能，例如交谈、握手和移动到某个点。它们对交互过程进行分类。内容作者可以使用流程图轻松组合语音、手势和情感，从而建立令人愉快的交互。 Erica（ERATO 智能对话仿真机器人）就是使用这种方法构建的。她的内容作者在几个月内反复添加内容，以使她成为一个角色，而不仅仅是问答工具。她现在可以完成 2000 多种行为和 50 多个话题序列。设计社交机器人的另一种方法是远程操作。Nara Experiment（奈良实验）使用一台机器人在日本奈良的游客中心担任游客的导游。人工导游为这台机器人创建离线内容（例如当地东大寺的背景信息），工程师事先用这些信息对机器人进行编程。该团队将这种方法与远程操作进行对比。当人机交互操作员远程控制机器人时，结果要比机器人依赖离线数据时更准确。问题在于这种方法的可扩展性不强，内容输入缓慢且容易出错，控制多模式行为也具有挑战性。这些实验不但是有趣的案例研究，同时也引发人们对具有更强扩展性的对话设计替代方案的讨论。从真正的人与人之间的交互中收集现场数据是否更有效？

让社交机器人通过模仿来学习

如果我们能够将人类行为进行众包，那么我们就可以更被动、更经济地收集质量更高的数据。我们可以观察人类的交互，提取典型的行为元素，并在此基础上生成机器人交互。一个研究团队通过建立影像器材店场景探索这一想法的有效性。让我们来逐步分析他们的方法：

数据采集：该团队采集有关人类顾客的多模式行为和店主的数据，包括语音、运动和近义词三个关键类别。
语音：通过自动语音识别，模型可以记录典型语料（例如“这个相机是几百万像素的？”或“分辨率是多少？”），并使用层次聚类来映射这些语料的意图。
运动：传感器可以采集关于人类聚集的典型位置（例如服务柜台）和不同轨迹（例如从门到相机陈列柜）的跟踪数据。聚类用于确定每个位置和轨迹的频率。
空间关系队形：传感器可以记录顾客和店主的典型队形，例如面对面或店主展示产品。此外，当顾客讲话或移动时，该交互被分解为一个个为“顾客-店主”动作对。
模型训练：该团队随后使用顾客行为（包括话语、动作和空间关系）以及店主预期响应的标注数据来训练模型。例如，客户行为可能包括面向店主询问“这个多少钱？”，然后店主会回答：“这个 300 美元。”

在训练完模型之后，该团队在影像器材店测试了机器人，并准确处理了 216 种不同的交互。虽然与全仿真机器人还相差很远，但本案例研究中的机器人证明了模仿人类言语和行为所涉及的复杂性。

通过对话式人工智能推进

我们可以从这些例子中学到什么？构建对话式人工智能很困难。数据有噪声且难以采集，而模仿人类语言是一项巨大的挑战。这就是必须设计数据采集工作流程来采集高质量数据的原因。使用原位方法进行数据采集是采集自然对话的最佳方法，尽管仍然需要更多的进步措施来进一步降低错误率。噪声数据的问题会始终存在。要减少噪声，可以在一开始就使用机器学习辅助验证来过滤掉噪声数据，并采用提取和数据驱动技术。释放对话式人工智能的业务价值将意味着大量投资于数据并开发更准确的机器学习方法来解决自然语言问题。