theme: orange
本文正在参加「金石计划」
上文 OpenAI Embedding:基于人工智能的搜索新篇章 有讲到Embedding的基础概念以及OpenAI Embedding 的能力和应用场景,这篇文章讲讲如何手把手构建聊天机器人。
聊天机器人介绍
聊天机器人作为一项重要的企业级服务,可以帮助企业构建关乎自己特定业务的聊天机器人。聊天机器人或客服助手是一种利用人工智能技术,通过互联网上的文本或语音渠道,与用户进行交互并实现业务价值的工具。近年来,聊天机器人的发展取得了显著的进步,从最初的基于简单逻辑和规则的机器人,到现在基于自然语言理解(NLU)和对话管理(DM)的智能机器人。
较早之前,一些比较知名且应用广泛的聊天机器人包括:
- 微软的小冰:一个基于社交网络的聊天机器人,能够与数亿用户进行自然、情感和多轮的对话,提供娱乐、新闻、天气等内容。
- 谷歌的Duplex:一个基于语音的聊天机器人,能够通过电话为用户预订餐厅、理发店等服务,使用自然语言生成技术来模仿人类的语音特征。
- 亚马逊的Alexa:一个基于智能音箱的聊天机器人,能够通过语音识别和合成技术来与用户进行对话,提供音乐、新闻、购物、控制智能家居等功能。
- Facebook的Messenger:一个基于即时通讯平台的聊天机器人,能够与用户进行文本或语音的交互,提供游戏、支付、客服等功能。
OpenAI fine-tuning 实现聊天机器人
近一年来,技术突飞猛进,为人熟知的是,2020年,OpenAI发布了第一个基于大规模预训练语言模型(PLM)的聊天机器人ChatGPT-3.5,它使用了GPT-3.5模型作为编码器和解码器,并在大量对话数据上进行微调。
我们可以借助于这种大型语言模型(LLM)GPT-3,通过使用对话或会话数据来fine-tuning模型,生成类似于自然对话的文本。这种能力使其成为构建自定义聊天机器人的最佳选择。
但fine-tuning的方式,首先要准备大量可行的数据集(Prompt和Completion),第二训练一次的成本也不低,最后有可能训练出来的新模型会不尽如人意,要再次调整数据进行训练。
这块咱们放在后面的章节去fine-tuning,先快速实现一个聊天机器人最重要。
OpenAI embedding & davinci 实现聊天机器人
上个章节其实也讲到了,OpenAI embedding的最主要的应用场景便是基于特征向量搜索最为相似的文本,我们可以收集相似度前N的文本,调用OpenAI davinci/GPT模型提炼优化文本,最终得到最为贴近的答案,可以见下面比较粗糙的流程图。