背景
随着时代的发展,计算机算力的提升和近些年来AI模型的井喷以及发展。人工智能应用已经深入我们的日常生活。如人脸识别,无人驾驶等等,同时为了更好地与用户进行交互,完成特定功能,智能对话助手应运而生。如今大量智能移动设备已经搭配具备对话,实现特定功能的AI助手用于提高用户使用体验。但目前大量的AI助手只是具备简单的对话和应用操作等基本功能,并不能对使用者的操作习惯,会话习惯等进行自适应调节,使得助手更加适配与当前使用者。因此作者期望能够设计一款,能够在移动设备或其他终端设备中运行,并且能够根据用户习惯行为做出自适应调整的AI助手。实现在“一千个用户中,有一千个不同的AI助手”。
问题描述及分析
问题描述
本文标题为“私人AI助手系统的分析与实现”,其目的是实现一个能够在基础AI助手,对话,特定功能操作的基础上。能够自适应用户操作习惯的助手,即达成用户与AI助手相互反馈最终实现助手自适应调节,同时能够支持算力较低的终端设备,在终端设备中完成一系列自主适应。
AI助手
分析:通过对本文目标进行简单概括,可以提取出如下关键词:AI助手,自适应,低算力。AI助手是基本的功能,也是为用户提供服务的门户。自适应是对AI助手的进一步优化,如何让AI助手实现自调整,之后能够在算力资源更低的情况下完成所有操作是本文中的重点。因此需要解决的问题为两个方向的和一个低算力约束的大问题。因此在实现时,需要选择算力消耗更小的架构实现以及算法模型。所以针对第一个问题,即实现基本AI助手上,将通过多个小模型来完成基本功能的实现,同时由于大部分终端都提供语音识别功能,因此在助手设计上,可先通过设备提供的语音识别功能将用户输入语音转化为文本,之后对文本进行操作分析,最终实现操作。大致流程如图(1)所示:
图1 AI助手大致执行流程图
因此在这部分中的主要技术是于文本的处理。由于一开始就确定使用小模型来完成目标,因此对AI助手本身组成的模块又可以分为图(2)所示,拆分为三个小模块。
图2 AI助手模块图
所涉及到的技术就主要为文本对话生成,文本内容识别分类。完成用户的聊天和具体操作,从而完成基本AI助手实现。
自适应
第二个需要解决的问题是如何能够完成自适应。结合对应AI助手的基本设计,可以发现如果需要完成自适应,那么重点是如何调整意图分类识别和Chat网络之间的权重。从而完成自适应调节。而能够对权重进行调节的方式除了直接进行训练外,还有通过强化学习[1]方法或者GAN[2]方法进行权重修改训练。第一种方式需要将用户与AI助手交互的数据进行收集,例如对Chat模块进行自适应,那么就需要将用户与助手聊天产生的数据自动制作为数据集,送入模型重新训练。第二种则依托于强化学习方法,需要用户与助手在交互过程中,由用户主动基于反馈,也就是基于当前模块网络评分,之后通过强化学习方法对模型进行调整。第三种方案是在第二种方案的基础上,在采用第二种方法时用户需要给予反馈可能会导致用户体验下降,但是在第二种的权重修改过程中又需要优化给予及时反馈来指定reward完成调节。因此使用Gan中的评判网络模型可以模拟当前用户给予reward辅助第二种方式进行训练调节,最终完成助手的自适应调节。为了更好地完成自适应,当前更好的方案显然是将上述方案进行整合,相互结合使用。大体流程如图(3)所示
图3 自适应流程
算法设计
算法设计部分,共分为两大部分,即分为:AI助手设计和自适应模块设计。由于自适应模块修改自由度更高,其本质是对模型的优化优化,因此在算法设计当中主要阐述如何进行优化,其执行流程是如何进行的。在AI助手部分,将阐述网络的设计与优化和基本架构。
AI助手的算法设计,在上一小节已经给出了其大致的设计结构,主要设计为两个网络的使用。对于图(1)中的意图识别和对话聊天。意图识别主要作为一个文本分类任务进行。而在这方便将采用实现好的FastText[3]来完成这部分工作。FastText一个非常高效的,基于词向量化的,用于文本分类的模型,通过它可以快速实现文本分类,同时简单的网络架构便于运算和权重调整。此外在此模型还中涉及到了不少的用于提速和准确率的小技巧。例如在fasttext加入了n-grams的思想,在最后输出概率时做了层次化softmax操作,通过哈夫曼树将每一个类别标签放置在对应子节点中,将softmax操作转换为层次化二分类任务,通过求解条件概率计算出完整概率。此外还值得一提的是,FastText作者在先提出了word2vec[4],后推出此模型。
图4 FastText模型示意图
图5 层次化Softmat
聊天模块设计,这部分设计将暂时采用Seq2Seq[5]架构进行网络模型搭建。分别为Encoder与Decoder结构,示意如图(6)
图6 总体示意图
同时对应Encoder与Decoder均采用GRU[6]网络结构,与LSTM[7]相比在效果上类似,单元结构如图(7),(8)所示。但是GRU在运算过程中不需要输入C0,相对而言降低了参数消耗,简明了网络结构,同时也方便在后序对Attention机制进行修改。当前在此模块中的Decoder模块中引入了Luong[8]机制。
图7 LSTM单元结构图
图8 GRU单元结构图
基本运行流程如下,首先将用户语音转化为一个句子通过转化为词向量后送入Encoder,之后由Decoder生成句子。Decoder得到由Encoder最后一层网络输出,通过逆向生成句子的形式,循环生成每一个对应时间步上的词。词的生成由Decoder最后一次输出得到的概率生成。例如:在一个句子中有10个词,数据集上有1万个词。那么最后由Decoder将得到10*1W的概率矩阵,之后在对应时间步上组合成句。值得一提的是,目前作者也考虑到在得到概率是需要通过Softmax函数进行计算,其计算量以及最后产生的参数量较大。因此作者正在参考Yolo[9]算法,将概率问题转化为全回归问题,减少计算量,通过进位取舍的方式将连续预测数值转化为离散预测。
自适应模块设计,在自适应模块中,采用了在第二小结提到的方案,采集与用户交互后以及在云端传入的新数据进行异步训练。在一开始,将先通过基本语料,基本意图数据先对上述两个模块进行训练。此训练作为预训练,一方面可以在开始阶段为用户提供服务,之后随着用户使用,关于用户本身的数据增加,以及其他类似用户数据进行进一步训练。这一修改训练依赖于用户数据,在理论上将在与用户间的交互上更加适用用户,但需要足够的数据后进行批量处理。因此在此基础上增加了在第二小结中提到的第三种权重自适应方案。该方案主要有两大部分构成,基于强化学。习思想的动态改变,还有基于GAN思想的动态改变。两者的目的与设计目的不同。大致关系如图(9)中所示。
图9 二者关系
整个过程中,在开始初步阶段中,需要用户进行大量互动,给予反馈。这个过程类似于人与人之间的认识过程,在认识初期需要双方不断给予反馈,不断提示对方。在后期双方足够了解后,不在需要明显的暗示与说明。在整个结构的GAN结构的作用在于理解用户的行为操作,在后期随着用户满意度上升,GAN对当前状态输出的Reward权重将不断上调,同时降低用户额外的用于自适应的反馈。GAN用于理解用户的个性,行为。基于强化学习的结构对AI助手进行自适应训练,根据行为调整,在本文中用于调整权重。用人作为比喻,GAN结构相当于,大脑复杂分析基于部分决策,强化学习部分相当于小脑和神经结构。完成响应与调节,并且在这一这部分中,AI助手相当于Actor,等价于人的身体完成行为操作。至此完成整个自适应策略,同理在这两个部分的初始化权重,依然可以考虑先进行预训练,具备一定能力后进行开放。
至此,整个系统的基本算法分析阐述完毕,在未来,不仅仅可以对Actor进行优化,还可以对整个自适应架构进行优化。此外对应自适应架构而言,Actor并不唯一,这意味在未来引入多模态完全成为可能,对于AI助手的扩展能力也将进一步扩充。至于在这一结构是否能够在小样本,小模型下达到期望效果就将交于时间进行考量了。
体会
目前通过初步探索以及部分模块的实现,作者对于整个系统的设计与实现有了大致理解。目前在本文提到的模块中存在大量优化空间。例如在AI助手的聊天模块中,采用单纯的Seq2Seq结构,对于注意力机制的实现较为简陋,在未来可以考虑参考transform[10]架并对其架构进行轻量化削减引入这一模块。同时在最终生成文本阶段,除了可以考虑参考YOLO全回归预测外,还可以考虑引入CNN[11]在词向量空间中做进一步信息提取,还可以降低网络参数提高运行效率。而在自适应架构中,对应强化学习部分,可以考虑比DDPG[12]算法更加优良稳定的算法。在GAN部分,可以试着引入新的优化,参考Diffusion Model[13]将生成器直接生成Reward。跨过本文提到的AI私人智能助手,当下在NLP领域中各路模型百花齐放,今日火爆的ChatGPT更是达到了惊人的效果。在大模型[14],大数据的加持下,AI充满了希望和挑战,属于智能的时代才刚刚开始,尽管好的效果依然随着大模型,大算力发展。
引用文献
[1] Sutton R S, Barto A G. Reinforcement learning: Anintroduction[M]. Cambridge: MIT Press,1998.
[2] Hao D , Neekhara P , Chao W , et al. Unsupervised Image-to-Image Translation with Generative Adversarial Networks[J]. 2017.
[3] Joulin A , Grave E , Bojanowski P , et al. Bag of Tricks for Efficient Text Classification[J]. 2017.
[4] Mikolov T , Chen K , Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.
[5] Sutskever I , Vinyals O , Le Q V . Sequence to Sequence Learning with Neural Networks[J]. Advances in neural information processing systems, 2014.
[6] Dey R , Salemt F M . Gate-variants of Gated Recurrent Unit (GRU) neural networks[C]// IEEE International Midwest Symposium on Circuits & Systems. IEEE, 2017:1597-1600.
[7] Greff K , Srivastava R K , Koutnik J , et al. LSTM: A Search Space Odyssey[J]. IEEE, 2017(10).
[8] Luong M T , Pham H , Manning C D . Effective Approaches to Attention-based Neural Machine Translation[J]. Computer ence, 2015.
[9] Redmon J , Divvala S , Girshick R , et al. You Only Look Once: Unified, Real-Time Object Detection[C]// Computer Vision & Pattern Recognition. IEEE, 2016.
[10] Vaswani A , Shazeer N , Parmar N , et al. Attention Is All You Need[J]. arXiv, 2017.
[11] Haykin S , Kosko B . GradientBased Learning Applied to Document Recognition[M].
[12] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, D. Wierstra, Continuous control with deep reinforcement learning, 4th International Conference on Learning Representations, ICLR 2016 - Conference Track Proceedings (2016). arXiv:1509.02971.
[13] Ho J , Jain A , Abbeel P . Denoising Diffusion Probabilistic Models[J]. 2020.
[14] Taylor R , Kardas M , Cucurull G , et al. Galactica: A Large Language Model for Science[J]. 2022.