摘要
这项调查旨在调查、分析和比较现有聊天机器人在心理治疗中的可行性和缺陷。调查指出了未来心理治疗聊天机器人所需的一系列任务。我们在公共数据库中检索了约1200篇相关文献,并选择了五种典型的和最先进的心理治疗聊天机器人。大多数最先进的心理治疗聊天机器人使用检索式方法生成对话。一些心理治疗聊天机器人结合了心理学理论,如认知行为疗法,来解决独特的心理问题。评估显示,聊天机器人可以初步识别特定类型的负面情绪,并给出相对恰当的回应。随机对照试验证明,心理治疗聊天机器人对一些有心理健康问题的人有用。与真实心理学家相比,心理治疗聊天机器人具有一些优势,比如可以随时随地使用而无时间或地点的限制。然而,一些关键的技术障碍限制了心理治疗聊天机器人的使用。这些限制需要一系列必要的任务,以实现更有效和更安全的心理治疗聊天机器人,比如收集标准、有效、真实和丰富的语料库。总之,目前的心理治疗聊天机器人在短期内很难取代人类心理学家,但它们可以作为辅助工具提高人类心理学家的效率和效果。
1 引言
1.1 聊天机器人
Chatbot是一种人机交互系统的形式,允许用户通过自然语言与电子设备进行交互。随着语音识别技术的发展,Chatbot已经在许多领域替代了人类的部分工作,例如电子商务中的客户服务和信息检索系统中的人机交互。
从用户意图的角度来看,Chatbot可以分为两种类型:非目标驱动和目标驱动。非目标驱动的Chatbot在开放领域中进行随意对话,没有特定的目标或话题,例如娱乐Chatbot亚马逊Alexa。目标驱动的Chatbot是为实现特定服务目标而进行对话的。它们通常局限于一个或多个领域,例如客户服务Chatbot、销售Chatbot、教育Chatbot和情感Chatbot。最初,大多数情感Chatbot只提供安慰或陪伴的对话服务。它们分析用户的一般心理状态,如快乐和悲伤,而不是心理问题。它们很少通过心理学理论的专业或特殊对话策略来作出回应。心理治疗Chatbot是一种特殊类型的情感Chatbot,旨在基于经过验证的心理学理论缓解或治疗焦虑、抑郁和其他负面情绪。
从实现技术的角度来看,Chatbot可以分为两种类型:基于检索和基于生成。基于检索的Chatbot直接从大量对话语料库中提取适当的回应。提取的回应通常具有更高质量的句子结构和符合人们对话习惯的语调。但是该技术严重依赖语料库的数量和质量。基于生成的Chatbot可以根据语法和预先建立的规则生成回应。最新的基于生成的Chatbot使用深度学习来发现和学习对话的潜在规则,以提高回应的质量。然而,基于生成的Chatbot有时会给出不连贯或无关的句子,使人们很容易察觉对方是Chatbot。这个缺点降低了用户体验,特别是对情感Chatbot来说。因此,一些最先进的Chatbot设法结合这两种策略。
1.2 心理治疗
焦虑、压力和抑郁是典型且普遍的心理状况。统计结果显示,有超过3亿人因焦虑、压力和抑郁引起的心理问题而受苦。心理学家已经开发出许多系统性和有效的疗法来治疗心理问题。最常用的心理疗法包括精神动力学疗法、人本主义疗法、认知行为疗法(CBT)和折衷疗法等。
精神动力学疗法主要用于治疗抑郁和由抑郁引起的其他严重心理问题,如社交焦虑、自我贬低和自我放弃。精神动力学疗法侧重于通过揭示客户心理活动的潜意识内容来减少心理紧张。精神动力学疗法帮助患者识别、认识、理解、表达和克服消极和矛盾的感受,以及被压抑的情绪。
人本主义疗法致力于营造无条件支持和鼓励的氛围,帮助患者加深自我认识,发现真实的自我。通过提高“自我意识”来改变他们的不适应行为和纠正心理问题,患者可以发展自己积极、自我肯定、无限增长和自我实现的全部潜力。人本主义疗法主要用于治疗神经症和压力障碍。人本主义疗法包括动机访谈(MI)、罗杰斯疗法等。动机访谈侧重于通过处理矛盾情感来增强和改变患者的动机。动机访谈是一种以客户为中心的指导式咨询,帮助用户探索和解决矛盾情感,从而做出积极的改变,如克服对某事物的异常瘾。而罗杰斯疗法侧重于构建一个适当的心理环境和氛围。对于患者来说,罗杰斯疗法的步骤包括:(1)提出一些问候性问题并做出温暖的回应以赢得患者的信任,(2)积极地对患者的言辞中表达的情感做出回应,(3)鼓励患者充分表达自己并自己认识到不一致性,(4)鼓励患者克服心理问题。罗杰斯疗法强调医患关系,并相信患者可以在足够的鼓励和支持下独立地发展处理焦虑和其他心理问题的心理能力。
认知行为疗法(CBT)起源于20世纪60年代,并很快成为最流行的心理治疗方法。CBT是一种结构化、短期、以认知为导向的疗法,通常用于焦虑障碍、抑郁症以及其他由不合理认知引起的心理问题。CBT主要关注患者的不合理认知问题,并通过改变患者的认知态度来治疗患者的心理问题。CBT在治疗抑郁症、焦虑症、压力障碍以及其他心理疾病方面有显著且稳定的效果。CBT的复发率也较低。
折衷疗法是一种混合、可调节的心理疗法,可以根据个体的心理问题、期望和治疗目标为其开发不同的治疗方案。折衷疗法结合了多种有效的方法,如行为修改和精神分析。折衷疗法具有广泛的应用范围,可以有效治疗物质滥用障碍、强迫症、情绪障碍以及其他相关心理问题。
尽管发展了许多心理疗法技术,但由于不愿透露心理问题、心理学家短缺以及经济、时间和地点的限制,只有不到10%的患者接受过正规心理疗法或援助。在发展中国家,这个比例甚至更低。另一方面,心理治疗ChatBot在一定程度上可以弥补心理学家的短缺,减少心理治疗的经济成本,并充当虚拟角色帮助人们克服害羞或其他心理障碍。心理治疗ChatBot对时间或地点几乎没有限制,因此它们可以在某些特殊情况下提供及时服务。例如,许多患有严重抑郁症的患者在午夜无法获得及时服务,而这对患者来说是一个敏感且危险的时间段。
1.3 心理治疗中的聊天机器人
艾丽莎 Eliza 是1966年韦泽巴姆提出的第一个心理治疗ChatBot。艾丽莎使用罗杰斯疗法鼓励与患者更积极的互动。它不时提出设计良好的个人问题以保持对话,并使用预先建立的模式、规则或脚本来回答患者的问题。艾丽莎识别输入中的关键词,并根据预先建立的基于关键词的规则重构输入的句子。如果输入不是一个无意义的评论,例如:“我觉得你讨厌我。”,它会被重构为“是什么让你觉得我讨厌你?”有时候,在某些条件下会进行早期的转换。艾丽莎有一些缺点:(1)统计结果显示,尽管使用了罗杰斯疗法,它并不擅长保持对话进行,(2)它无法学习新的语言模式或规则,(3)它不考虑上下文,(4)它不保护用户隐私,(5)它没有推理机制。
几十年来,许多知名的心理治疗ChatBot,如Woebot(https://www.Woebot.io/)、Joyable(https://joyable.com/)、Wysa(https://www.Wysa.io/)等在130多个国家使用。它们在真实心理治疗中被证明是有用的,并且每周产生数千万条对话数据。
随着人工神经网络和深度学习的发展,ChatBot在意图识别、语义分析和响应生成方面表现更佳。因此,心理治疗ChatBot可以在更广泛的场景中使用,并具有巨大的潜在益处。
2 心理治疗ChatBot的技术
2.1 心理治疗聊天机器人的基本框架
图1显示了当前心理治疗ChatBot的基本框架。一个心理治疗ChatBot通常包括五个模块:输入预处理模块、自然语言理解模块、对话管理模块、回复生成模块和输出处理模块。
- 输入预处理模块:接收用户输入并进行一些初步处理功能,将输入转换为标准化形式,如词分割、词形还原、去除停用词等。
- 自然语言理解模块:是核心模块,通常包括三个步骤。首先,通过词性标注、关键词提取、句法结构分析等分析标准化文本。其次,模块通过情感分析功能识别隐藏意图。最后,模块确定回复类型。通常,情感分析功能需要一个存储一些结构良好的情感类型的知识库。
- 对话管理模块:根据自然语言理解模块提取的上下文和意图生成候选回复。在检索型ChatBot中,对话管理模块根据预设规则将文本单元(通常是关键词或关键短语)与知识库进行匹配,然后从语料库中选择排名较高的句子。在生成型ChatBot中,回复通常是通过训练过的深度学习模型生成的。
- 回复生成模块评估候选回复,然后选择最合适的回复。
- 输出处理模块进一步将回复转换为所需形式,如文本或语音。
2.2 心理治疗聊天机器人的特殊技术
心理治疗ChatBot的特殊技术主要集中在以下几个方面。
2.2.1 情感识别和衡量
大多数ChatBot只能识别一般的情感,比如不同程度的兴趣/不感兴趣、好/坏或者喜欢/不喜欢。例如,一个典型的通用领域ChatBot小冰可以识别开心、伤心、生气和中立。小冰通过手动标记1万次对话来训练分类器。商业ChatBot提供更详细的业务意图划分,比如订阅/取消订阅、买/卖、查询/下单。心理治疗ChatBot需要对心理情绪进行更细致的分类,比如焦虑、压力、抑郁和歇斯底里等。因此,心理治疗ChatBot需要定义心理情绪的边界并开发一种识别它们的方法。例如,Woebot定义并识别不同的压力状态。
一些心理治疗ChatBot使用简单的情感分类,例如Evebot。Evebot采用典型方法来区分正面和负面情感。Evebot的开发者手动标记了对990个收集到的心理问题的精选回答为"正面"或"负面",然后基于标记数据用双向长短期记忆(Bi-LSTM)的循环神经网络(RNN)模型训练,以检测负面情绪。实验表明,这种方法能够有效地区分文本中的"正面"或"负面"情感。但是,"正面"和"负面"这些标签很难满足心理治疗中对情感更详细、有不同特征的要求。
图1:当前心理治疗聊天机器人的基本框架
TeenChat对心理情绪进行了更复杂的分类,如表1所示。TeenChat创建了一个语言依存树,建立了压力情感词与压力类别/子类别词之间的联系。如果匹配多个类别/子类别,TeenChat会选择负面情感词和压力类别/子类别之间的最短路径作为关键问题。然后,反馈模块记录并更新压力状态,并调整对话策略。图2展示了一个语言依存树的示例。
表1:压力情绪词典
图2:依赖树示例
另一方面,识别心理情绪的因素与识别一般情感或业务意图的因素不同,如表2所示。
表2:情绪/意图识别关键因素的比较
到目前为止,当前心理治疗ChatBot对心理情绪的分类与心理治疗理论的分类相比仍然比较粗糙。表3给出了心理治疗中被广泛接受的心理情绪分类。这种粗糙分类的一个关键原因是研究人员尚未找到足够可计算的因素来区分心理情绪。
表3:不同领域情绪分类
2.2.2 检索式对话生成
大多数最先进的心理治疗聊天机器人使用检索式方法,例如人工语言心理学家(PAL)。PAL提供了一个典型的检索式方法,包括以下两个步骤。 (1)PAL根据识别的情绪给输入中的每个单词附上权重,并选择具有较高权重的单词作为关键词。单词的权重反映了单词决定输入的语义意义和隐含情感的程度。 (2)PAL从对话语料库中基于关键词与存储的句子之间的匹配程度检索候选响应。匹配程度反映了语义相似性,考虑了情绪词、年龄、性别、婚姻状况等。一旦匹配成功,PAL按照存储的句子返回存储的响应。这种技术也应用于基于收集良好的问答对的问答系统,例如百度知道。
另一方面,用于开放领域或商业的检索式聊天机器人会在搜索引擎或知识库上匹配文本,然后通过信息检索技术从语料库中检索候选响应。心理治疗聊天机器人和其他类型的检索式聊天机器人主要有以下不同之处。
- 语料库的不同领域和形式。开放领域聊天机器人的语料库涵盖无限领域。并且多种文本形式,例如新闻、研究论文和对话,可以丰富开放领域聊天机器人的语料库。另一方面,商业或心理治疗聊天机器人的语料库由特定领域的对话组成。
- 选择语料库内容的不同规则。心理治疗聊天机器人必须建立更严格的规则,从语料库中删除具有负面、极端或危险情绪的响应。此外,心理治疗聊天机器人的语料库应避免空白、重复和令人不快的响应,因为这些响应可能会激怒患者。因此,心理治疗聊天机器人的语料库质量要求比其他类型的聊天机器人更高。
- 数据组织的不同。心理治疗聊天机器人的语料库通常根据心理主题存储对话,例如婚姻、青少年、疾病焦虑,以便提高检索效率和提高检索准确性。
2.2.3 基于生成的对话生成
一些心理治疗聊天机器人采用基于生成的方法来提高响应的灵活性和相关性,例如 Evebot。29 一个有效的对话生成模型应该能够生成流畅、语法正确、有意义的句子。相比之下,大多数基于生成的聊天机器人往往会产生重复的、毫无意义的响应,例如“你是一个好人。”或者“我不知道。”。这是因为这类句子在语料库中的频率较高。为了解决这个问题,Evebot 使用基于最大互信息(MMI)准则的 Seq2Seq 模型来生成句子。35 由于心理治疗聊天机器人响应中的句子相对较长,Evebot 使用长短期记忆(LSTM)作为 RNN 的单元。LSTM 在训练过程中可以处理长距离关系。36
基于生成方法的训练需要大量的对话。由于心理治疗聊天机器人对质量和隐私政策的特殊要求,收集心理对话要比开放领域或商业聊天机器人困难得多。例如,Google 开发了一个名为 Meena 的开放领域聊天机器人,它使用了 Evolved Transformer(ET)Seq2Seq 模型,包含 26 亿个参数,1 个 ET 编码器块和 13 个 ET 解码器块。37 Google 收集了约 341G 的文本(400亿字)进行训练,而 Evebot 只收集了约 300 万对对话。因此,基于生成的心理治疗聊天机器人的性能比开放领域或商业聊天机器人要低。而且基于生成的方法几乎无法保证响应是无风险的。因此,大多数心理治疗聊天机器人使用基于检索的模型。
到目前为止,基于检索和基于生成的心理治疗聊天机器人的治疗效果并不理想。计算机科学家普遍采用一种常见的人工智能模型来检索或生成响应,而没有融入专业的心理学理论。
2.2.4 聊天机器人引导策略
与其他类型的聊天机器人不同,与心理治疗聊天机器人的对话通常需要由聊天机器人引导,例如引导用户表达情感或自我平静,而无需任何启动。例如,基于认知行为疗法(CBT)的心理治疗聊天机器人,如 Woebot,是由聊天机器人引导的。专家设计了包含一些问题和选项的对话模板,基于CBT。Woebot可以主动使用这些模板开始对话,并根据用户的选择动态选择下一个问题。
2.2.5 用户心理状态评估
心理治疗聊天机器人应该能够在对话之前、之中和之后测量用户的心理情绪水平,以选择有针对性的对话策略或评估效果。许多其他类型的聊天机器人不时地测量用户的一般情绪。一些心理治疗聊天机器人通常在对话之前使用心理问卷,如Woebot。但是目前的心理治疗聊天机器人在对话期间并没有使用任何可计算且令人信服的方法来自动测量用户的心理情绪。这限制了心理治疗聊天机器人的适应性和可调性。
3 典型的心理治疗聊天机器人
3.1 人工语言心理学家
PAL是一个用于回答非干扰性心理咨询问题的原型聊天机器人。非干扰性问题指的是家庭、人际关系、婚姻、生活压力、学习、工作等方面的问题。PAL是一个基于检索的聊天机器人,通过分析输入和历史对话来提供辅导、解决方案、支持、建议,甚至关怀。PAL使用Eliza来获取用户的历史信息。PAL基于百度知道社区问答构建了一个基于P-XML的知识库。PAL将响应和输入存储在堆栈中,以分析个人和历史信息,用于未来的对话。图3展示了PAL的基本框架。
图3:PAL的基本框架。
PAL采用匹配算法从知识库中选择最合适的响应。步骤如下:
- 当用户提出问题Q时,PAL从原始问题的索引(之前由Clucene索引)中搜索,并获得一个记录集RS1,
- 计算Q与R1(RS1中排名最高的记录)之间的相似度sim1,以及Q与R1的扩展之间的相似度sim2。
- 如果sim1或sim2大于阈值,则认为R1是一个响应;如果sim1和sim2都小于阈值,则给出一个“未找到”响应。PAL设置了一个“未找到”响应列表,用于处理没有确定适当响应的情况。
PAL的解决方案管理模块优先选择包含个人信息的响应,这些信息必须与当前用户信息一致。其他不包含个人信息的响应通常被选为候选响应。以下对话是PAL的一个例子。
PAL:你好,欢迎与我交流!你可以从左侧输入并按回车键获取答案!
用户:我应该如何处理那些经常抱怨的孩子?
PAL:很简单。不要让他经常抱怨的好处得以体验。
用户:为什么父母给孩子那么多压力?
PAL:孩子确实有压力;但父母也有很多压力。
PAL的一个缺点是它没有太关注用户的感受。患有心理问题的人通常需要感受到被倾听、理解和安慰。因此,一些额外的功能可能会改善PAL,如语调管理功能,使PAL能更积极地提问,添加语音输入和文本转语音(TTS)功能。
3.2 TeenChat
TeenChat是一个基于检索的聊天机器人,帮助压力大的青少年摆脱负面情绪,如学习压力、困惑的自我认知和人际沟通。
TeenChat包括一个聊天管理器、一个压力检测器和一个响应生成器。TeenChat首先根据与压力相关的情绪词典测试用户的压力状态。然后根据用户输入的句子类型选择响应策略。当面对陈述或修辞而不是问题时,TeenChat可以从本地知识库中找到合适的回复。大量积极的回复被存储在本地知识库中,并可以不断从在线论坛或有影响力的微博/推特中获取。如果用户提问,TeenChat将在百度知道中匹配问题并返回“最佳答案”。否则,TeenChat会从本地数据库返回一般的回复或笑话来鼓励用户。以下对话是TeenChat和用户之间的典型对话。
TeenChat:你好吗?想聊聊吗?
用户:糟透了!
TeenChat:告诉我详情,这样我可以帮你!
用户:高考马上就要来了,我害怕考砸了。
TeenChat:要有信心,之前的努力会有好成果的!
用户:面对代沟时如何与父母沟通?
TeenChat:首先冷静下来,然后以平和的方式与你的父母讨论。通过讨论,找到分歧并选择共识解决方案。
由于TeenChat是基于检索的,当用户提出问题超出知识库时,响应可能不够有效或有针对性。
3.3 Evebot
Evebot是一个基于生成的聊天机器人,旨在通过模拟对话中的虚拟朋友来诊断学生的抑郁和焦虑。Evebot可以提供一些建议或解决方案,帮助学生平复负面情绪并注入积极情绪。
Evebot使用MI(一种关注行为改变的心理辅导形式,尤其是用于矫正成瘾行为的),在自动编码MI会话时使用离散句子特征(DSF)和RNN。Evebot有两个核心模型:情绪检测模型和响应模型。Evebot首先使用情绪检测模型确定输入是积极的还是消极的,如果情绪检测模型没有发现输入中的任何消极情绪,则进入闲聊模式;如果检测到任何消极情绪,则进入心理辅导模式。Evebot可以诊断并分析用户在对话中的实时情绪,以增强用户体验。Evebot的性能可以根据持续生成的文本和用户的文本不断改进。
以下对话是Evebot聊天的一个例子。
用户:我的学习并不是特别好,但我在努力。
Evebot:与此同时,我也看到了你身上的力量。你还在为自己努力,试图坚持现状,试图照顾自己,试图为未来考虑,并整理自己的选择。就像一名受伤的士兵,向前迈进。
用户:上周我做报告时被老师批评了。
Evebot:被导师批评,被同学误解,责备和责骂了很多年。听到这些话,我忍不住感到心紧。
然而,关于Evebot的统计结果显示,约有10%的回复无效。有时Evebot会因为没有存储前面的对话而对同一个问题给出相反的答案,从而导致用户困惑。
3.4 Wysa
Wysa是由Touchkin开发的一款移动聊天机器人应用程序,提供互联网医疗健康平台。Wysa通过文字与用户进行沟通,建立心理韧性,促进心理健康。Wysa拥有超过170万用户,主要分布在印度、美国和英国,已产生数百万条对话数据。Wysa主要使用认知行为疗法(CBT)、动机性访谈(MI)和辩证行为疗法。在接收到用户的输入后,Wysa首先分析语法和语法结构,然后根据预设规则提供引导性回复。回复可以引导用户逐渐放松情绪,消除抑郁。Wysa提供生动的回复,包括文字、表情符号、gif和视频。Wysa在每轮对话后评估并记录心理状态,然后调整响应策略以提供适当的指导。以下对话是Wysa与用户之间的一次交流。
Wysa:上次你感到焦虑并将思想转为更积极的。
Wysa:你现在感觉还是这样吗?
用户:不是的
Wysa:你想看看另一个情况吗?
用户:是的...
Wysa:告诉我一个经常引起压力的情况...
世界领先的健康应用程序评估和顾问组织ORCHA(Organization for the Review of Care and Health Apps)给予Wysa总体评分为93%,其中在临床安全方面为100%(https://appfinder.orcha.co.uk/Review/209172/)。ORCHA还推荐Wysa作为新冠病毒病2019年(COVID-19)压力和焦虑最佳应用程序。使用Wysa是完全匿名的。然而,在讨论开放话题时,Wysa经常会产生重复和无意义的回复。
3.5 Woebot
Woebot是一个可以缓解抑郁的聊天机器人。它由斯坦福大学的临床心理学家Alison Darcy设计。Woebot可以治疗抑郁,非常受欢迎,每周接收超过两百万条消息。
通常,Woebot基于认知行为疗法(CBT)在短暂的日常对话和情绪跟踪中提供聊天服务。CBT是一种高度结构化和实用的心理治疗方法,对于处理心理健康问题是严谨和有效的。
具体来说,Woebot在对话中使用CBT的自定义模板。每次对话都从对环境和情绪的一般询问开始,例如:“你感觉怎么样?”或“嗨,你准备好签到了吗?”并为用户提供几个选项进行选择。Woebot根据用户的反馈分析用户的情绪状态和活动信息,然后从知识库中检索响应。Woebot可以根据用户的实时情绪状态重新训练自然语言理解模型。
为了提高用户体验,Woebot每天/隔天都会发送问候或开始一次随意的对话,并使用表情符号或动画gif增强用户的动力和合作性。有时Woebot根据用户的情绪状态给予同情的回复。例如,以下是Woebot和用户之间的对话:
Woebot:你今天感觉怎么样?
用户:我感到恐慌。
Woebot:哦,不。我很抱歉。和我一起深呼吸一分钟,然后我们再谈谈,好吗?
Woebot还提供每周报告,描述用户心情状态的变化,并在定期聊天后进行问卷调查,以测试抑郁程度。如果用户长时间抑郁或有自残或自杀倾向,Woebot可以自动拨打热线电话并求助警方。
为了保护隐私,Woebot完全匿名,并允许使用昵称。Woebot可以在桌面或移动设备上使用。因此,患者可以随时与Woebot进行对话。然而,有时Woebot可能会被用户输入所困扰并生成无关的回复。如果用户暂时中断了对话(例如切换应用程序),下一次对话可能会以重复的问题开始,使用户感到困惑。值得一提的是,由于焦虑情绪增加,Woebot还推出了针对COVID-19的心理辅导服务。
4 比较
对五种心理治疗聊天机器人进行比较,如表4、5和6所示。
5 挑战
5.1 回应生成
当前大多数心理治疗聊天机器人要么是基于检索的,要么是基于生成的。未来的心理治疗聊天机器人需要结合这两种策略,因为这两种策略分别存在明显的缺陷。阿里巴巴开发的AliMe已经成功地将基于检索和基于生成的方法结合起来。当AliMe接收到输入时,它会从知识库中检索相关的回应,用Seq2Seq模型对候选回应进行排序,并选择排名最高的作为输出。如果没有合适的回应,AliMe会使用生成模型生成回应。与图灵机器人相比,实验表明AliMe在878个筛选的测试问题中有37.64%表现更好,18.84%的问题表现更差。AliMe为心理治疗聊天机器人提供了一种启发式的方法,将这两种策略结合起来。
因为心理治疗聊天机器人需要比开放域或商业聊天机器人更高质量的回应,结合这两种策略需要考虑以下几点:
-
基于生成的方法必须改进句子结构和语调,因为许多心理学方法依赖于对话技巧。
-
基于检索的方法必须提高回应的相关性,因为有心理问题的人通常对不相关的回应敏感,这可能会让他们感到被忽视或不受欢迎。
5.2 数据
扩大语料库的规模可以提高聊天机器人的性能。然而,由于隐私保护的原因,心理治疗领域的公共语料库很少。而且,先前工作中的大多数语料库都不符合基本标准。
一个高质量的心理治疗聊天机器人语料库首先应该是丰富而有效的,以确保基础性能。其次,语料库应该来源于真实的患者和心理学家。会话的持续时间和轮数也需要达到一定的规模,以反映心理状态的变化。
Evebot提出了一个可行的解决方案,包括以下步骤:(1)手动收集和标记一小部分与心理学相关的对话,(2)使用这些对话训练一个分类器,可以确定一条数据是否与心理学相关,(3)将训练好的分类器应用于大型语料库,选择与心理学相关的对话创建一个有用的语料库。然而,这种收集方法过于粗糙简单,无法保证收集到的语料库的质量。而且收集到的语料库并没有反映不同的心理问题。因此,收集一个标准、有效、真实、可用且丰富的语料库仍然是一项重要任务。
这样一个数据集的建立是一个分类任务,目前常见的语料库收集方法是从大型语料库中分离出与心理治疗相关的对话。分类方法需要进行特征工程,从原始数据中尽可能多地提取特征,以供算法或模型使用。然而,目前的特征只是标记对话。对于不同的心理问题,不同的治疗方法有着不同的对话策略和目标。例如,认知疗法的目标是通过纠正患者对人和事物的扭曲认知来实现治疗目标。支持性心理治疗是通过透视接受来理解患者的情况,并通过尽可能支持患者来减轻患者的心理困扰。由于心理治疗的特殊性,缺乏从心理学知识中提取的特征。如果有一种合适的方式将心理治疗方法转化为可以应用于分类的特征,那么现有的分类技术应该能够完成数据分类的任务。但是,使用正式规则来描述心理学知识,并将心理内容转化为特征仍然很困难。许多心理治疗中的逻辑可能难以被普通的机器学习分类技术理解。未来,我们可以尝试通过深度学习来构建这样一个语料库。
5.3 情绪识别
情绪识别和分析已被广泛应用于自然语言处理领域。先前的研究主要关注表达明确和清晰情绪的文本。然而,许多文本表达了潜在的情绪。后来,一些研究人员通过将常识推理与新的情感分类方法结合来解决这个问题。但是该方法仍无法从文本中识别深层次或隐含的情绪,例如“明天我要去朋友的生日派对,但是期末考试即将来临,而我还没有开始复习。”另一项麻省理工学院的研究使用了结合了现实世界知识的文本情感感知技术,但它也无法识别文本中的心理情感。
心理情感,特别是负面、极端和危险的情绪,比一般情绪和商业意图更加深刻、微妙和隐晦。因此,心理治疗聊天机器人必须具有比开放域和商业聊天机器人更准确的情绪识别能力。研究表明,心理治疗聊天机器人中的情绪处理有助于提高用户满意度。然而,大多数心理治疗聊天机器人并没有详细分析心理情感。TeenChat给出了心理治疗聊天机器人最详细的分类,如表1所示。然而,该分类仍然侧重于日常情感而非心理情感。只有更准确地识别经过良好分类的心理情感,心理治疗聊天机器人才能及时调整适当的响应策略。
卷积神经网络(CNN)和长短期记忆(LSTM)等深度学习模型已被证明对情感分类有效。只要有对不同心理情感进行具体和可计算定义,这些模型就可以用于心理情感识别。
5.4 心理知识
心理治疗聊天机器人必须融入专业的心理知识以保证有效性。例如,Eliza采用罗杰斯疗法,其中心理学家充当了带有专业知识的朋友而非专家。Evebot使用自然语言处理模型自动编码了激励性面谈对话。最流行的聊天机器人,如Woebot和Wysa,主要基于认知行为疗法(CBT)。Woebot利用基于CBT的引导对话逐渐改变用户的病态思想,治疗他们的抑郁症,并帮助他们重建认知结构。
每个心理治疗聊天机器人只采用一种或几种疗法。然而,严重的心理异常包括精神分裂症、情感性躁郁症、偏执症、反应性精神病、病态人格和性异常。一般可以通过心理咨询治疗的神经症包括神经衰弱、躁郁症、焦虑症、强迫症、恐惧症、疑病症和抑郁症。因此,心理治疗聊天机器人需要针对不同的心理问题采取更有针对性的对话策略。计算机科学家已经利用机器学习来检测身体疾病,如癌症检测,这种技术有望应用到心理治疗聊天机器人上。
5.5 有效性评估
有一些竞赛或奖项可以评估聊天机器人的质量,例如Alexa Prize,Loebner Prize。然而,这些竞赛和奖项很难反映心理治疗聊天机器人的质量。心理治疗聊天机器人最重要的评判标准是评估其治疗用户心理问题的有效性。常用的评估工具和心理治疗技术包括自我评估、第三方评估和实验室评估。
自我评估使用相关的心理问卷来评估患者的心理状态。自我评估关注患者的主观感受和经验,包括对心理治疗的满意度、症状量表和人格测试。
第三方评估使用除了心理治疗师和患者之外的其他观察者的心理问卷,以避免主观性。
实验室评估使用心理治疗仪器或工具来记录患者的各种生理指标,以评估患者的心理状态。生理指标可以反映心理治疗前后患者的生理变化,例如心电图、脑电图、血液生化指标、免疫指标和脑神经递质。生理指标的数据也是治疗有效性的有价值指标之一。
至于最先进的心理治疗聊天机器人,Eliza和PAL尚未经过标准化的评估。其他心理治疗聊天机器人的评估标准如下所示。
5.5.1 TeenChat
我们邀请了十名大学志愿者在感到压力时与TeenChat交谈。他们需要每周填写一次中文版的14项感知压力量表(CPSS-14),以记录压力变化。此外,在对话过程中,系统会进行评估,记录每轮对话的压力检测结果,以分析压力的类型和程度。经过一个月的评估,结果显示压力检测的平均准确率为78.34%,压力类型的平均准确率为69.39%。根据CPSS-14的结果,压力下降的人数为7人,保持不变的人数为1人,恶化的人数为2人,表明TeenChat有效地缓解了心理压力30。
5.5.2 Evebot
评估测试了50名学生志愿者,采用积极和消极情绪量表简版(PANAS-SF)问卷,并选择了30名情绪最为负面的志愿者。然后将这30名志愿者随机分配到Evebot组和对照组。每组包含15名志愿者。志愿者需要每隔一天与Evebot或常规聊天机器人交谈一个月,但不知道他们正在与哪个聊天机器人交谈。然后,再次通过PANAS-SF问卷对这30名志愿者进行评估。结果显示,Evebot组的学生情绪得到了显著改善,PANAS-SF的平均分提高了14.3分。对照组的平均分仅提高了8.6分,这可能归因于长时间与任何实体对话会或多或少地缓解负面情绪。研究人员持续跟踪志愿者的情绪变化,发现Evebot组的积极情绪得分改善明显优于对照组。结果表明,Evebot能有效缓解用户的压力29。
5.5.3 Wysa
使用了两个问卷:患者健康问卷-2(PHQ-2)和患者健康问卷-9(PHQ-9)。PHQ-2用于初步筛查,PHQ-9用于监测抑郁症状。Wysa除了时区外不收集任何可识别个人信息,以确保匿名性。然而,匿名性增加了筛选患有抑郁症的用户的难度,因为缺乏临床历史和面对面诊断。因此,根据文献建议,Wysa选择PHQ-2得分为6的用户进行进一步评估。Wysa记录每个用户在评估的第一天的PHQ-9分数。在2周试验结束时,用户被分为高使用者和低使用者两组。高使用者组中的每个用户在2周试验期间至少使用Wysa一次,而低使用者组的用户则不使用。用户需要在2周后再次填写PHQ-9问卷。统计结果显示,高使用者组中83.3%(90/108)的用户积极使用Wysa超过四天。在高使用者组(108/129)中,平均PHQ-9分数显著下降(从18.92降至13.07),而在低使用者组(21/129)中,平均PHQ-9分数略有下降(从19.86降至16.33)。此外,用户体验测试显示,67.7%的用户认为Wysa不错,97.4%的用户认为Wysa很有帮助52。
5.5.4 Woebot
该评估从大学社区网站招募了70名感到焦虑或抑郁的志愿者,并通过PHQ-9、广泛性焦虑障碍7项(GAD-7)、以及积极和消极情绪调查表(PANAS)问卷来测量他们的抑郁水平。然后,志愿者们被随机分成两组。一组与Woebot在即时通讯设备上聊天,另一组则阅读与抑郁相关的国家心理卫生研究所(NIMH)的电子书籍。他们的情绪状态每周记录并进行分析。两周后,他们被要求再次完成三份问卷调查。结果显示,Woebot组的PHQ-9平均值从14.3降至11.14。GAD-7的平均值从18.05降至17.35,PANAS的积极和消极情绪的平均值分别从25.54增至26.88,以及从24.87增至25.98。Woebot组的平均分得到改善,而对照组则没有显著变化。26 第5.5.4节的聊天机器人效果评估比较显示在表7中。其中,“√”表示该行中的聊天机器人实验考虑了列中的实验要素。“×”表示相反。
表7:聊天机器人效果评估的比较
表7显示了五个聊天机器人的评估存在以下问题:
- 志愿者数量相对较少,降低了可靠性,无法覆盖不同心理问题的人群。
- 测试时长相对较短,与真实心理治疗相比。
- 没有后续的效果评估。
- 对临床历史关注较少。
- 没有评估交互方式,如界面、视频和语音。
TeenChat、Evebot和Wysa只是大致关注抑郁,并未考虑到详细的心理情绪分类。Woebot使用更详细的评估,包括抑郁程度、压力状况、积极和消极情感状况的测量。然而,志愿者数量少和短时间限制了评估的可靠性。
5.6 网络物理社会心理空间中的心理治疗
随着互联网的兴起,人们生活在一个网络物理社会心理空间中,通过这个空间进行交流,其中事物不仅在物理空间、社会空间和心理空间相关联,还通过网络空间进行连接、影响,有时甚至决定彼此。因此,当前沟通的有效性取决于网络物理社会心理空间的结果影响。网络物理社会智能被提出作为下一代人工智能,其中人机自然共生在根据这些空间的规则和原则连接网络空间、物理空间和社会空间中的事物方面发挥关键作用。这种共生可以通过发现网络物理社会空间中的物质流动、数据流动、信息流动和知识流动来建立。集成物质流动、数据流动图和知识流动网络的物质-数据-信息-知识流网络是传统物质流动分析、数据流图和知识流网络的整合,提供了比传统简单类型网络更丰富的上下文来研究智能。
以往的心理治疗聊天机器人并未充分关注网络物理社会心理空间的特征。同时,人们越来越多地从网络物理社会心理空间中感受到压力或抑郁,因为在这个空间中,人们通常会面对许多匿名和不友好的人。网络物理社会心理空间中的心理问题,如电子游戏成瘾、现实中社交互动受损或对现实的恐惧,与传统的心理问题有着不同的特征。另一方面,心理治疗聊天机器人本身使用的是属于网络空间的人机交互工具。因此,要处理网络物理社会心理空间中的心理问题,一个关键挑战在于未来的心理治疗聊天机器人应该分析网络物理社会心理空间的特征,并模拟人-机-自然共生的智能。
心理学中关于类比推理的早期研究为模拟网络物理社会心理空间提供了一些证据。诸葛提出了一个关于多维语义空间的理论,将多维分类空间进行整合,并设计了语义链接网络(SLN)来推广和管理来自多个维度的信息。语义链接网络(SLN)可以作为模拟网络物理社会心理空间的基本工具。语义链接网络(SLN)由节点(实体、特征、概念、模式或社区)和节点之间的语义链接组成。SLN在处理网络物理社会心理空间应用方面被证明是有用的,例如多维概括和生命周期医疗保健。语义链接网络是未来心理治疗聊天机器人在网络物理社会心理空间中的一个有希望的工具,因为具有以下特征。
-
语义链接网络可以描述人们心中的语义图像,因此支持某些心理疗法,例如认知行为疗法(CBT),因为网络物理社会心理空间中的错误链接、等级和互动可能导致抑郁。相应地,诸葛提出了一系列语义链接网络操作以支持CBT,如适应互动、适应排名、删除链接、增加链接、与适当资源互动、增加正向节点、改变负面概念的属性以及邀请第三方。已经开发了一套社交链接规则,为智能应用提供智能化背景。
-
语义链接网络提供了一种推理机制,可以发现内在的、隐含的或新出现的关系。因此,语义链接网络可以捕捉人们心理状态的变化。推理机制也可以在一定程度上预测某些种类的负面情绪或活动。它已成功应用于模拟管理流行病的语义社交网络。
-
语义链接网络可以描述网络物理社会心理空间中社区的集体心理学,因此可以帮助分析社区对个体心理的影响。以往的心理治疗只考虑了真实社区对个体的影响。网络物理社会心理空间中的社区可能包含虚拟角色、智能代理和真实人群。因此,网络物理社会心理空间中的社区可能导致一些新的心理问题,如虚拟自我的认同危机、在线社交恐惧。研究人员开发了自主机制来构建语义链接网络,并从SLN自动发现社区。
6 未来任务
我们提出未来的心理治疗聊天机器人需要克服以下限制。
6.1 交互方式单一和低依从性
多模态交互是人机交互的主要发展方向。多模态交互包括手写、语音、触摸、视觉、虚拟现实等。然而,大多数现有的心理治疗聊天机器人只通过纯文本与用户进行交互。多模态交互可以使人机交互更加智能化,使心理治疗聊天机器人更准确地理解用户意图,并为用户提供更舒适、便捷和高效的交互体验。在一对一的心理咨询中,心理治疗师的语速、语调、语气以及治疗环境和氛围对治疗效果有很大影响。未来的心理治疗聊天机器人应该引入更多的交互方式,如语音交互、动作识别交互和触摸交互,以取得更好的效果。
除了对话内容质量之外,单一的交互模式是心理治疗聊天机器人低依从性的重要原因之一。一项关于治疗抑郁症的测试显示,19,607名注册用户中,仅有3055人(15.6%)在没有任何人为干预的情况下完成了至少两个模块,超过66%的参与者在有人为干预的情况下完成了两个或更多模块。较低的对话轮次限制了心理治疗聊天机器人的有效性。未来的研究应致力于增加对话轮次以保证有效性。
6.2 缺乏危险检测机制
与真实的心理学家相比,人们更倾向于向聊天机器人表达更多负面和极端的情绪。一项关于语言和情绪的研究分析了11,600条人对人和人对机器的聊天数据。与人对人的对话相比,结果显示,在人对机器的对话中,用户可能表达的负面和暴力情绪超过两倍。97%的用户在与聊天机器人对话时至少使用了一次脏话。统计数据显示,在人对机器的对话中生成色情信息的概率远高于人对人的对话。因此,心理治疗聊天机器人可能比心理学家更容易及时检测到患者的危险倾向。
因此,心理治疗聊天机器人需要更及时地检测自残和自杀意图。在某些情况下,误判的负面影响有时是可以接受的。然而,当前心理治疗聊天机器人对此问题并没有给予足够的关注。此外,研究人员需要设置一个检测模块,避免聊天机器人回复中出现负面内容,因为心理患者对负面词语非常敏感。
6.3 理解错误
大多数心理治疗聊天机器人,甚至商业级别的聊天机器人如 Evebot,通常会误解用户的输入并生成无关的回复。误解的一个原因是用户在打字时经常会出现异常情况,比如拼写错误或使用错误的语法。此外,用户有时会使用聊天机器人难以理解的新词或表情符号。另一个误解的原因是缺乏上下文存储。心理治疗是一个相对长期的过程,会生成大量的对话数据。许多有用的情感信息,如用户的心理状态、康复水平,都隐藏在上下文中。然而,当前的心理治疗聊天机器人并没有存储足够数量和多维度的上下文数据。因此,心理治疗聊天机器人很难及时注意到心理状态的变化,准确评估康复水平,并及时调整治疗策略。
一定程度的误解对于开放域聊天机器人可能是可以接受的。然而,心理治疗聊天机器人的有效性严重依赖于情感分析的准确性。因此,未来的心理治疗聊天机器人应该更加重视这个问题。
6.4 不够“体贴”
心理治疗聊天机器人的语气常常缺乏人类的情感。用户通常希望得到“贴心”和“温暖”的服务,特别是在寻求心理帮助时。人对人心理治疗的一个关键方法是通过流畅和温和的语气获得患者的信任。然而,当前的心理治疗聊天机器人并没有足够重视这一要求。因此,未来的心理治疗聊天机器人应该在对话过程中模拟心理学家的语气,让患者感到更加舒适。
6.5 提供更多隐私保护
人们对隐私保护越来越关注,特别是在心理治疗领域。近年来,像Facebook、Amazon这样的私人信息泄露增加了人们对在线隐私保护的担忧。这使得用户在使用心理治疗聊天机器人时不愿意吐露或诚实。另一方面,并非对话中的每句话都需要隐私保护。因此,未来的心理治疗聊天机器人应该区分需要隐私保护的内容,并建立隐私保护标准。
6.6 分阶段提供自我评估量表
在五种典型的心理治疗聊天机器人中,只有Woebot定期提供相关的自我评估量表。但这种评估并不针对特定用户的心理问题。未来的心理治疗聊天机器人应该定期为用户提供有针对性和标准相关的量表,及时记录最新的心理状态,并相应调整响应策略。
这六个限制可以分为三类。
- 第一类属于技术层面,包括:“缺乏危险检测机制”和“单一交互模式和低服从性”。随着机器学习和多媒体技术的快速发展,未来的心理治疗聊天机器人可能能够在短时间内克服这类限制。
- 第二类属于知识层面,包括:“误解”、“不够‘体贴’”和“分阶段提供自我评估量表”。要克服这些限制不仅需要高质量的数据集和机器学习技术,还需要适用的知识库。因此,一个关键挑战是将非定量和非自动可操作的心理治疗理论转化为定量或可操作的知识。同时,知识库的使用可以产生大量的计算机模拟数据,反过来可以帮助心理学家调整心理治疗理论并解决有争议的话题。
- 第三类属于社会层面,包括:“提供更多隐私保护”。要克服这种局限,还需要政策、法律、道德等社会因素。在技术上,区块链为隐私保护提供了安全且低成本的方式,并且已应用于医疗信息安全中。
7 结论
本文介绍、分析和比较了典型和最新的心理治疗聊天机器人。心理治疗聊天机器人考虑了几种心理学理论。它们可以检测用户的部分情绪,根据预设的心理策略进行相对恰当的引导性对话,并评估变化的心理状态。初步的跟进调查证明了心理治疗聊天机器人在一定程度上的有效性。用户的反馈显示效果和互动形式是可以接受的。但是,心理治疗聊天机器人仍然面临许多挑战,并需要完成以下一系列任务以提升安全性和有效性。
- 任务1:在隐私保护政策的前提下收集标准、有效、真实、可用且丰富的语料库。
- 任务2:提高理解患者真实意图的能力,特别是自我伤害或自杀意图。
- 任务3:融入最新的心理学理论,设计针对不同心理问题的有针对性对话策略。
- 任务4:建立一个公认的、更全面的标准,评估心理治疗聊天机器人的效果。
- 任务5:增强服从性,鼓励患者和聊天机器人之间进行更多的对话轮次,并存储更广泛的上下文信息。
- 任务6:回应应更加委婉,让用户感受到更多体贴。
- 任务7:建立更严格的隐私保护措施,消除使用心理治疗聊天机器人的顾虑。任务8:添加多模式交互,提升用户体验。
参考文献:Survey on psychotherapy chatbots