一直以来,我都十分赞同采用通用的标准来评估机器学习领域的技术。向量数据库领域也是如此。Zilliz 发布的性能测试对我有着很大的帮助。
——Sam Butler
Dopple.AI 机器学习总监
01.Dopple AI简介
Dopple Labs Inc. 是 Dopple.AI 的原厂,通过提供创新平台,彻底改变人类与 AI 的交互方式。Dopple.AI 可通过 iOS 和 Android 下载。使用 Dopple.AI 后,用户能够创建逼真的 AI 克隆体(亦称为 “Dopples”),无缝集成视频、音频和消息传递,获得沉浸式体验。
本质上,Dopple.AI 利用了 Llama2 —— 先进的 LLM 技术。用户可以与 Dopples 聊天互动。无论是 Dopple Labs 还是用户自己创建的 Dopples,都可以根据用户的输入和提示模拟现实中的对话。
最近,Dopple Labs 推出了突破性的图像回应功能,通过图像中附带的丰富情感,增强了用户与 Dopples 之间的互动。此外,声音字幕和实时音频流媒体功能进一步提升了音视觉体验,促进了用户与 Dopples 之间更深层次的连接,提升了用户对话参与感。
随着 Dopple.AI 不断发展创新,它重新定义了人与个性化 AI 克隆体之间互动的方式。
02.用户痛点:将历史聊天记录增加到Chatbot中
Dopple AI 的用户对平台 AI 角色有着深入了解,采用高级技术塑造 Dopples 以及与 Dopples 之间的互动。他们利用消息编辑和 reroll 功能来引导对话,打造个性化的交流体验。本质上,用户充当“Prompt工程师”,巧妙地与 AI 角色进行对话。用户通过策略性的 Prompt 和编辑引导对话,根据自己的偏好和目标矫正 Dopples,并与其实时互动。
在机器学习总监 Sam Butler 的带领下,Dopple.AI 团队通过使用检索增强生成(RAG)技术来实现内存存储系统,存储对话摘要,从而构建这类功能。在此过程中,需要获取几条消息作为上下文,主消息作为他们想要存储记忆的内容。然后他们使用另一个 LLM 创建这些消息的摘要。生成的摘要被转化为 Embedding 向量并存储在向量数据库中。
当用户提交查询时,查询被转换成一个新的 Embedding 向量,然后在向量数据库中搜索与之相似的 Embedding 向量。这样一来,用户就能够在对话中带入上下文,帮助 LLM 获得长期记忆的能力。例如,如果用户向 Dopples 提问:“我的宠物鱼叫什么名字?”而此前已经发生过关于宠物鱼的对话,那么他们的查询会被转换为 Embedding 向量,根据上下文从向量数据库检索出宠物鱼的名字。
03.控制Chatbot对话内容
用户可以编辑他们的最后一条消息,从而精炼与 LLM 的对话。如果他们收到的回复不满意,可以选择“reroll”而不改变最后一条消息,促使 LLM 提供新的回答。此外,用户可以修改他们的最后一条消息来改变 LLM 的回应,逐步塑造对话,让对话内容以他们期望方向的进行。这种十分受用户欢迎,尤其是那些有明确对话目标的高级用户。相反,新手或不常用的用户可能会更被动,让对话自然展开。然而,Dopple AI 的核心用户群通常参与度更高,把对话当成是一项任务或角色扮演,因此更需要把控对话内容。
每个对话摘要会被存储为数据库中,具有唯一性,允许根据用户名有效过滤。摘要是通过将每三或四条消息合并为一个大的摘要生成的,然后无缝插入到向量数据库中。这一过程不断积累,成为对话记忆和上下文。除非用户明确删除对话记录,否则所有记忆将被保留,相关的记忆也会被删除。
这种 RAG 应用更注重娱乐价值而非回答准确性。
04.解决方案:使用安全、高性能的Zilliz Cloud向量数据库
Sam Butler 主要负责协调 ML 团队。他还负责与前端团队合作,搭建应用和网络平台。他们面临的最大挑战之一,就是紧跟最新的模型进展。随着新模型不断涌现和最先进技术的演变,跟上步伐需要付出巨大努力。这就是与像 Zilliz 这样的全托管服务提供商合作的价值所在,Zilliz 能够让其用户专注于核心产品。
由于 Sam 团队需要大规模检索服务,并且要求索引具有可扩展性,他们放弃了 Pinecone,转而使用 Zilliz Cloud。尽管 Pinecone 提供了全托管服务,但缺乏他们所需的细粒度权限控制和真正有效的扩展能力。随着 Dopple.AI 数据量不断增加(预计达到数亿到数十亿),他们需要寻求一种能够有效扩展的解决方案。最终,他们选择 Zilliz Cloud。
在使用 Pinecone 遇到挑战后,Sam 探索了不同向量数据库,查阅了向量数据库性能测试,最终发现了 Zilliz Cloud。Dopple AI 的团队特别对性能测试结果十分感兴趣,并十分期待进一步对其进行探索。
05.Dopple LAbs:展望未来
Sam 和他的团队最近通过引入视听体验来增强服务。他们首先集成了图像回应功能,为每个角色提供了大约 800 到 900 张图像,描绘了 30 种情绪——每种情绪都有几个不同的版本。在推理过程中,另一个语言模型确定响应的情绪,并从相应的情绪类别中随机选择一张图片以确保多样性。此外,他们还引入了声音字幕功能,并从推理提供商流式传输角色到 ElevenLabs 以实现实时音频流。这种同步的视听体验会在应用中显示表情回应的图像和文本。除此之外,他们还计划添加 Glide 语音通话、动态图像和视频。最终,用户可以通过 FaceTime 与他们的 Dopples 进行实时对话。