对话式人工智能的数据采集方案

news2025/1/23 2:16:16

基于噪声数据训练对话式人工智能

聊天机器人、虚拟助手、机器人等对话式人工智能 (Conversational AI Agents ) 在我们的日常生活中已随处可见。许多企业希望以更低的成本增强与客户之间的互动,并为此在该领域进行大量投资。大量数据表明,对话式人工智能行业预计至少在2025 年前每年将增长20%。据研究机构高德纳 (Gartner)预测,届时在客户互动平台中使用 AI 技术的组织运营效率将提高 25%。 全球疫情已加速这些预期的实现,因为对于希望在虚拟世界运营的同时,仍与客户保持联系的企业而言,对话式人工智能至关重要。对话式人工智能通过为每位客户提供量身定制的人性化体验,帮助企业解决数字通信缺少人情味的问题。有了成功的概念验证,这些变化会重新定义品牌互动的方式,并必将成为新的常态,即便是在疫情之后。 但是,为实际应用构建对话式 AI 仍具有挑战。模仿人类的语言交流是件极其困难的事。AI 必须考虑不同的语言、口音、俗语、发音、措辞、赘词和其他变量。这项工作需要大量的高质量数据。问题是,这些数据通常有噪声,充满了可能曲解意图的不相关实体。了解数据的作用以及通过哪些缓解步骤来管理噪声数据,对于减少错误和故障率至关重要。  

对话式人工智能应用的数据采集和标注

为了解创建对话式人工智能应用的复杂性,让我们来逐步分析构建具有语音功能的智能体(例如 Siri 或 Google Home)的典型流程。

  1. 数据输入 :人类主体口述的命令、评论或问题被模型捕获并生成音频文件。计算机通过语音识别机器学习 (ML) 将音频转换为文本。
  2. 自然语言理解 (NLU) :模型使用实体提取、意图识别和域标识(所有用于理解人类语言的技术)来解释文本文件。
  3. 对话管理:由于语音识别中可能有噪声,因此要使用统计建模来绘制出人类主体可能目标的分布。这个步骤叫做对话状态跟踪。
  4. 自然语言生成 (NLG):结构化数据被转换为自然语言。
  5. 数据输出:文本 – 语音合成将 NLG 阶段生成的自然语言文本数据转换为音频输出。如果转换准确无误,输出的将是人类主体的初始请求或评论。

让我们来进一步探讨自然语言理解 (NLU) ,因为这是管理噪声数据的关键步骤。NLU 通常需要执行以下步骤:

  1. 明确意图:人类主体的目标是什么?例如,“我的订单在哪里?”、“查看列表”或“查找商店”等等都是意图或目的。
  2. 语料采集:必须通过数据标注者来收集、映射和验证指向同一目标的不同话语。例如,“最近的商店在哪里?”和“查找我附近的商店”就是具有相同意图的不同话语。
  3. 关键词提取:这项技术用于解析话语中的关键词。在“我家 3 英里范围内有素食餐厅吗?”这样的句子中,“素食”是类型实体,“3 英里”是距离实体,而“我家”是参考实体。

考虑到这些步骤,设计对话时会面临哪些挑战?首先,没有任何一种简单的方法能够以对所有人都通用的方式收集人类的意图。其次,很难对真实世界中的对话流进行建模,因为对话流会因地理位置、年龄、人和其他个体因素而异。最后,采集的数据可能有噪音且成本高昂。 许多自动语音识别 (ASR) 数据包含噪声,导致机器误解音频文件中的特定单词或短语。例如,“我们的数字不是很好”变成了毫不相干的“我们的’素质’不是很好”。人类言语是自然发生的,没有底稿;我们在说话时经常使用与我们的意图无关的语气词。“哦,是的,我觉得,是的,这个更好”这句话里有许多没有必要的语气词,会影响含义的解释。人类的措辞也有很大的差异,这取决于他们来自哪个地方、有着怎样的成长环境和经历。 当我们查看噪声数据的统计信息时,我们发现,在平均 53% 的情况下,AI 要么正确无误,要么犯了小错误;在 30% 的情况下,AI 犯了小错误;在 17% 的情况下,AI 犯了重大错误。这表明噪声数据仍然是企业在推出对话式人工智能时面临的一个难题。  

为社交机器人设计对话

为对话式AI提供的数据采集

 在许多情况下,设计对话式人工智能的目标是使他们作为同伴而不是设备与人类交互。这意味着使用语音和手势进行交流、提供有用的服务以及利用自然语言来保持自然的对话流。那么,我们如何开发可以与人们互动的社交机器人? 创建具有个性的社交机器人的一种方法是通过基于流程图的可视化编程。流程图块表示后端功能,例如交谈、握手和移动到某个点。它们对交互过程进行分类。内容作者可以使用流程图轻松组合语音、手势和情感,从而建立令人愉快的交互。 Erica(ERATO 智能对话仿真机器人)就是使用这种方法构建的。她的内容作者在几个月内反复添加内容,以使她成为一个角色,而不仅仅是问答工具。她现在可以完成 2000 多种行为和 50 多个话题序列。 设计社交机器人的另一种方法是远程操作。Nara Experiment(奈良实验)使用一台机器人在日本奈良的游客中心担任游客的导游。人工导游为这台机器人创建离线内容(例如当地东大寺的背景信息),工程师事先用这些信息对机器人进行编程。该团队将这种方法与远程操作进行对比。 当人机交互操作员远程控制机器人时,结果要比机器人依赖离线数据时更准确。问题在于这种方法的可扩展性不强,内容输入缓慢且容易出错,控制多模式行为也具有挑战性。 这些实验不但是有趣的案例研究,同时也引发人们对具有更强扩展性的对话设计替代方案的讨论。从真正的人与人之间的交互中收集现场数据是否更有效?  

让社交机器人通过模仿来学习

如果我们能够将人类行为进行众包,那么我们就可以更被动、更经济地收集质量更高的数据。我们可以观察人类的交互,提取典型的行为元素,并在此基础上生成机器人交互。一个研究团队通过建立影像器材店场景探索这一想法的有效性。让我们来逐步分析他们的方法:

  1. 数据采集:该团队采集有关人类顾客的多模式行为和店主的数据,包括语音、运动和近义词三个关键类别。
  2. 语音:通过自动语音识别,模型可以记录典型语料(例如“这个相机是几百万像素的?”或“分辨率是多少?”),并使用层次聚类来映射这些语料的意图。
  3. 运动:传感器可以采集关于人类聚集的典型位置(例如服务柜台)和不同轨迹(例如从门到相机陈列柜)的跟踪数据。聚类用于确定每个位置和轨迹的频率。
  4. 空间关系队形:传感器可以记录顾客和店主的典型队形,例如面对面或店主展示产品。此外,当顾客讲话或移动时,该交互被分解为一个个为“顾客-店主”动作对。
  5. 模型训练:该团队随后使用顾客行为(包括话语、动作和空间关系)以及店主预期响应的标注数据来训练模型。例如,客户行为可能包括面向店主询问“这个多少钱?”,然后店主会回答:“这个 300 美元。”

在训练完模型之后,该团队在影像器材店测试了机器人,并准确处理了 216 种不同的交互。虽然与全仿真机器人还相差很远,但本案例研究中的机器人证明了模仿人类言语和行为所涉及的复杂性。  

通过对话式人工智能推进

我们可以从这些例子中学到什么?构建对话式人工智能很困难。数据有噪声且难以采集,而模仿人类语言是一项巨大的挑战。这就是必须设计数据采集工作流程来采集高质量数据的原因。使用原位方法进行数据采集是采集自然对话的最佳方法,尽管仍然需要更多的进步措施来进一步降低错误率。 噪声数据的问题会始终存在。要减少噪声,可以在一开始就使用机器学习辅助验证来过滤掉噪声数据,并采用提取和数据驱动技术。释放对话式人工智能的业务价值将意味着大量投资于数据并开发更准确的机器学习方法来解决自然语言问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1007014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

泛型工具类型和操作符

前言 TypeScript 内置了一些常用的工具类型。 PartialRequiredOmitPick.... 操作符 typeof typeof 操作符可以用来获取一个变量声明或对象的类型 const p {x:2,y:cm} let g:typeof p {x:3,y:ff} 这里g需要满足: 有x属性且值是number类型 有y属性且值是string类型…

海鲜进口一站式数字化管理,提高工作效率

2022年,中国水产品进口国top10有:厄瓜多尔(主要品种为白虾、剑鱼、沙丁鱼、金枪鱼等)、俄罗斯(主要品种为鳕鱼、鲑鱼、鲱鱼等)、越南(主要品种为巴沙鱼、冻虾等)、印度(主…

认识HTTP请求

要分析HTTP请求和响应必然少不了抓包工具,关于抓包工具的设置和下载推荐看抓包工具Fiddler的下载与设置 通过抓包得到的一个HTTP请求 HTTP请求的格式 结构分析 一.请求行 1.post是方法,可以表示一条HTTP请求要进行的操作是什么,post通常表示…

使用终端MobaXterm连接Centos

1. 下载MobaXterm 官网: https://mobaxterm.mobatek.net/download.html 2. MobaXterm连接Linux 1 、查看刚才安装的 Linux 的 IP 地址 2、连接 3. Linux自带了JRE 由于javac指令不能运行,所以Linux只自带了JRE!!!

【C++】- set和map的具体使用(multiset和multimap的介绍)

💖作者:小树苗渴望变成参天大树🎈 🎉作者宣言:认真写好每一篇博客💤 🎊作者gitee:gitee✨ 💞作者专栏:C语言,数据结构初阶,Linux,C 动态规划算法🎄 如 果 你 …

error:Failed building wheel for XXX

解决方案适用于大多数的pip 安装时出现的Failed building wheel for XXX 出现问题 按以往快速安装包的经验,第一反应当然是使用简单又快捷的terminal命令加上镜像,如下: pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple结…

群晖Cloud Sync数据同步到百度云、另一台群晖、nextcloud教程

群晖Cloud Sync数据同步到百度云、另一台群晖、nextcloud教程 一、群晖套件中下载Cloud Sync 二、同步到百度云盘 打开Cloud Sync,点击左上角的号,云供应商选择百度云。 这里可以选择双向备份,也可以只上穿到百度云的仅上传本地更改。因为百…

D盘无法格式化?3个方法!轻松解决问题!

“我的电脑d盘好像中病毒了,我想将它格式化但是每次操作都显示d盘无法格式化。这是为什么呢?我应该怎么解决?” 有时候,我们的电脑可能会出现一些问题,导致我们不得不将某些磁盘进行格式化操作。这时候问题就出现了。有…

CSP 202005-1 重复局面

题目背景 国际象棋在对局时,同一局面连续或间断出现3次或3次以上,可由任意一方提出和棋。 问题描述 国际象棋每一个局面可以用大小为 的字符数组来表示,其中每一位对应棋盘上的一个格子。六种棋子王、后、车、象、马、兵分别用字母 k、q、…

Polarion导入需求(Word)

简介 将需求文档导入Polarion并实现自动创建工作项具有多个优势,这些优势有助于提高项目管理和协作的效率,以下是一些主要的优势点:减少手动工作: 自动创建工作项可以显著减少手动数据输入的工作量。不再需要手动逐一创建每个工作…

聚类-kmeans

聚类算法是无监督学习算法,指定将数据分成k个簇。然后通过每个点到各个簇的中心的欧氏距离来分类。 kmeans本身会陷入局部最小值的状况,二分kmeans可以解决这一点。 二分kmeans是遍历所有的簇,将其分成2个,比较哪一个分裂结果更…

2023年7月京东休闲食品行业品牌销售排行榜(京东大数据)

鲸参谋监测的京东平台7月份休闲食品市场销售数据已出炉! 根据鲸参谋平台的数据显示,7月份休闲食品市场整体呈现下滑趋势。当月休闲食品在京东平台的销量为3400万,环比下降约26%,同比下降约26%;销售额将近11亿&#xf…

Equall Apple 的革命性变压器:一个宽幅前馈,实现前所未有的效率和精度

变压器架构已显示出显著的可扩展性,从而大大提高了精度。然而,这种进步是以极高的计算要求为代价的,这已成为实际应用中的重大障碍。 尽管研究人员一直在积极寻求解决方案来减小变压器组件的尺寸并修剪注意力头等元素,但另一个关…

自动化测试01

测试脚本编写参考 selenium IDE 插件,firefox浏览器搜索安装,(无法安装) katalon recorder 负责输出脚本,输出模式,python2unitest , 无法输出python3类型脚本,仅参考 开发者工具 …

Ubuntu安装Android Studio

一、Android Studio安装 官方教程:安装 Android Studio | Android Developers 1、下载:Download Android Studio & App Tools - Android Developers,选择linux版本 2、 提取/解压 将下载的安装包提取出来 3、 64位ubuntu系统&#…

三分钟创建扫码查分系统

学生考试的成绩是家长和学生关注的重要问题。传统的成绩查询方式往往需要将整个成绩表格发到群里,不仅操作繁琐,而且可能导致信息泄露。为了解决这个问题,易查分应运而生。易查分是一个可以将Excel表格转换为在线查询的工具,可以轻…

Python——操作MySQL数据库

😊Python——操作MySQL数据库 🚀前言🔍数据库编程🍭数据库编程基本介绍🍭数据库编程接口🍭什么情况下会使用Python操作MySQL数据库?🍭Java和Python操作MySQL数据库有何不同&#xff…

基于Python开发的AI智能联系人管理程序(源码+可执行程序+程序配置说明书+程序使用说明书)

一、项目简介 本项目是一套基于Python开发的AI智能联系人管理程序,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Python学习者。 包含:项目源码、项目文档等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#…

我的个人网站——宏夏Coding上线啦

网站地址:宏夏Coding Github地址:🔥🔥宏夏coding网站,致力于为编程学习者、互联网求职者提供最需要的内容!网站内容包括求职秘籍,葵花宝典(学习笔记),资源推…

核心实验18_ospf高级_ENSP

项目场景: 核心实验18_ospf高级_ENSP 多区域虚链路 实搭拓扑图: 具体操作: R1: [R1]ospf 1 router-id 1.1.1.1 [R1-ospf-1]area 0 [R1-ospf-1-area-0.0.0.0]net 1.1.1.0 0.0.0.255 [R1-ospf-1-area-0.0.0.0]net 10.1.12.0 0.0.0.255 [R1-os…