对话大模型中的情感支持及商业化落地

news2024/9/22 1:25:18

在1982年经典科幻电影《银翼杀手》中,仿生人瑞秋因为被植入记忆而以为自己是真人,当被告知自己是仿生人时,她拒绝相信,流下了眼泪。如今,随着AI领域对话大模型技术的发展,“比人更像真人”的人工智能正从梦想化为现实。

在当下的AI产业下游,语音助手、聊天机器人、虚拟数字人……人工智能产品终端雨后春笋般出现,而在上游,大模型技术驱动的拟人型对话AI底座,决定着人与机器之间能否产生深入的互动与共情。

在国内,这一方向的技术领军者是聆心智能,他们“超拟人大模型”成为国内最早的推出的多模态对话大模型之一。2022年获得连星资本、图灵创投、智谱AI参与的天使轮融资,2022年,他们发布对标海外领军企业“Character AI”的人机对话产品“AI乌托邦”,还与洪恩智能合作,率先将拟人大模型大规模应用教育行业。

聆心智能有何独特优势?在他们看来,拟人型AI为何关键?对话大模型能否成为如今风头正劲的数字人大脑,如何服务于企业?亿邦动力邀请到聆心智能联合创始人郑叔亮,为我们解析拟人AI和对话大模型的独特价值。

将大模型与情感对话AI技术带出象牙塔

聆心智能的创始人为清华大学计算机科学与技术系长聘教授黄民烈博士,早在2015年左右,他就开始研究情感对话技术,该技术能使AI理解情绪、表达共情,提供积极的情绪支持。2019年,他与研究团队首次提出情感对话生成模型,使得对话机器人具有表达喜怒哀乐的能力,论文受到了海内外知名媒体的报道,一年多被引用150多次,在对话研究领域开辟了新方向。

近年来AI情感对话技术的突破无法绕开大模型技术,2019年,在OpenAI发布GPT-2后,国内人工智能学界也开始聚焦大模型领域,当时国内最前沿大模型团队智源团队聚集了一批行业顶尖专家开发了大模型悟道1.0和悟道2.0,黄民烈在团队中负责带领“对话大模型”板块的研发。之后他还独立主导开发了国内最大的对话大模型——Eva对话大模型。

在2021年11月,黄民烈创立聆心智能,创立之初聆心智能就致力于自研“情感对话大模型”。研发团队包含数十位清华大学的研究人员,总研发人数为30人左右。郑叔亮介绍,他们如今已经打造出了100亿参数量,可控、可配、安全的超拟人大模型,可实现风格化和场景化的多轮对话系统。

而这与ChatGPT又有何区别?郑叔亮表示,聆心智能情感大模型的核心优势是在对话中让AI“更加拟人”。因此它不仅能完成任务,还能理解人的自然语言并且传达复杂感情。相比GPT3.5,聆心大模型在知识性方面表现力较低,但在闲聊和情感对话场景更优,另外在参数量上也进行了精简优化。

郑叔亮打了个比方,“当你向ChatGPT诉苦的时候,它会说‘作为一名人工智能,我明白你现在的状态,我可以给你XXX选择和XXX建议。’而情感支持的大模型会说,‘你的心情不好,到底发生什么事情了?有没有什么我能够帮你的?’它从一开始就存在内在角色或人设,天生就要帮助你去舒缓负面的心态。”

从技术的实现方式来说,聆心智能在预训练阶段就会为模型引入独特的数据和训练集,例如支持类似心理学三阶段助人理论的情绪支持策略,可以让模型进行具有感情的多轮上下文相关对话,持续有记忆对话的长度远超通用大模型。

除此之外,黄民烈从2019年就致力于将大模型从象牙塔中带向国内商业场景,其团队2019年与阿里小蜜合作时,在国内首次将情感对话技术解决外卖订餐场景的复杂查询的语义理解问题,以及用户情感检测和情感安抚问题。

聆心智能成立后也秉承了技术商业化的思路,在2022年,他们选择了心理健康作为第一个商业落地赛道,将自研大模型用于对话机器人并接入了国内知名心理医疗平台“好心情”,落地了国内首款人工智能心理陪伴数字人“心心”,使它可以实现和病人的开放域对话。

不过郑叔亮也表示,虽然聆心智能初期选择心理健康赛道主攻商业落地,但在深入应用之后发现医疗行业的门槛比想象得要高。他提到,产品除了设计开发,之后还要经历半年左右的临床测试时间,付出上千万级别的额外支出,交付周期变得难以接受。因此,2022年中期开始,聆心智能开始拓展业务领域,在教育、游戏、数字人等多个行业开展新的商业化落地尝试,并将“AI乌托邦”和“AI乌托邦Pro”两款产品分别向ToC和ToB市场投放测试。

从情感伴侣到数字人大脑,对话大模型为何成为多种商业场景AI底座?

在亿邦动力的一次试用中,“AI乌托邦”提供的AI角色在短短的二十分钟内根据用户的简单指示分别扮演了心理咨询师、文字游戏GM、以及虚拟女友。

在“哈利波特与密室”游戏GM角色对话中,我们在十几轮对话中就体验了一次不同于原作的魔法冒险,在和“心理咨询师”的对话中,我们感受到了不同于许多当下的大模型AI,十分亲和体贴用户心理的模拟心理咨询体验。在对话时限内,不仅在每个人的十余论对话中都始终保持了上下文的记忆,也全无出戏感。

“AI乌托邦”代表了最经典的AI人机对话功能,这种AI对话机器人的历史可以追溯到上个世纪,但在2023年,大模型AI加持下的对话机器人正在迅速具备商业化能力。在海外,此类产品中最成熟的是发布在2022年9月的Character.AI,它由谷歌LaMDA的前开发者开发,付费模式提供每月9.9元的高级版。在国内,小冰克隆了网红“半藏森林”并在6月公开并以订阅制付费,其首次在国内依靠AI“情感价值”贩卖增值服务,引起一时轰动。

“感情是人机对话中难度要求很高的一项能力”,郑叔亮说,虽然被外界看作Character.AI的对标产品,但聆心智能在AI乌托邦之中加载了独有情感对话系统,让AI在对话过程中理解人的情绪和情感,还可生成共情的回复。“目前我们并没做什么推广,但活跃用户的粘性很高,Top 20的角色每日人均对话轮数超过110轮,处于行业中最高的水准。”

郑叔亮告诉亿邦,一个较为简单的衡量对话AI情感能力的方法就是测试其有效对话轮数。从训练之初,通用大模型所被投喂的语料就将其塑造为一名AI,而之后扮演任何角色是一种“假装”(Pretend),这样做的问题是,AI虽然可以在对话中用提示词迅速理解自己的人设,但会在多轮对话之后就会“OOC”(跳出角色、出戏)。这既是由于上下文记忆力的限制,也是因为从预训练之初,大模型AI就是按照AI角色而非拟人去培养的。

聆心智能在训练其大模型时,从一开始就使用带有海量性格、人设标签的语料进行训练,这使得AI乌托邦等产品天然地能更好理解用户后期提供的人设要求,并具有更强的维持人设能力和多轮次对话的稳定性。

不过,郑叔亮表示,聆心智能并不在AI乌托邦这款产品中寻求商业化,而是更希望依靠它进一步收集数据、优化自身大模型,并在商业化路径上投石问路。他们在AI乌托邦中拓宽了赋予AI的人格类型,除了心理医生,还有明星,小说人物,律师等等,而未来,还将应用到更多场景,比如游戏、电影、动漫、数字人、社交、教育、家居、出行、生活等等领域。

实际上,郑叔亮透露,在年初至今的一些商业测试中,聆心智能已经和游戏公司合作测试游戏NPC,并且在小范围内与线下剧本杀、狼人杀展开合作,将AI导入情境NPC扮演之中,“获得许多硬核玩家的好评”。而在数字人领域,聆心智能还与数字栩生、慧夜科技等行业知名数字人公司建立了业务合作,为其提供具有更高情商的“数字人大脑”。

郑叔亮认为对话大模型拥有巨大的商业潜力,这基于简单的常识推论——不论技术任何进化,对话永远都是最基础、最直观、最自然的人机交互方式。无论是咨询、客服、导购等简单的交流场景,还是复杂的办公任务、最终都可以拆分为一条条对话命令,“一切应用场景最终都是对话”,而带有复杂感情的对话,还将进一步提升交流的维度。

“人在交流过程中,他不光可以说话,还可以传递语音、语调,还有小动作,小表情。”郑叔亮具体解释道,“比如我说‘我现在正在用手托着下巴做思考状’,这就是为对话附加了一个场景,而AI的回复可能是,‘我摸摸你的头’。”可以想像,这些复杂信息可以进一步用NLP方式驱动,并转化为终端智能硬件甚至未来的机器人的表情、动作等等。让科幻电影中真正带有感情的“智慧仿生人”才能实现的交互化为可能。

企业定制大模型 下一阶段服务商必争之地

“今年我们希望能找到一个可以赚钱的领域,但不一定是由我们自己去赚钱,让合作伙伴能够赚到钱也OK。在这个领域,我们把我们的核心能力做扎实,夯实我们的技术壁垒。”谈到今年的商业化思路时,郑叔亮表示,聆心智能希望对话大模型能够赋能具体行业,他们希望从一个掌握大模型技术的公司变成可以提供行业解决方案或平台级解决方案的技术公司。

正如前文所说,由于对话场景在人机交互中无孔不入,通过对话大模型赋能企业数字化,为企业提供数字人员工是一个可行的商业化思路,但具体落实到如何运用AI和大模型上,无论是服务商还是企业,在现阶段都经验不足。通用大模型现阶段直接运用在企业中也面临着诸多水土不不服的问题,最常被提到的就是内容安全性与稳定性。

例如对于想要接入GPT的企业来说,假如你对于它生成的内容不满意,想要进行调整,目前OpenAI的GPT3.5和GPT4接口可以调整的项目不多,例如文本的‘温度’、长度等等。“而更关键的是,假如你对输出内容希望进行加工,只能通过‘后处理’的方式,这只能算是‘后期打补丁’的方法。”郑叔亮说。

郑叔亮指出,使用OpenAI的GPT接口的问题在于,无法使用自己的数据训练,无法控制训练过程,必须按照给定的格式匹配自己的数据,增加成本不说,也留下非常多的隐患。虽然目前OpenAI也额外提供进行精细化定制的服务,可以为企业提供预训练服务和独立的储存空间,但训练和推理服务的报价会高出通常常规接口的数倍,成本对于许多B端企业来说难以接受,更不要提还有数据出海的风险问题。

此外,通用大模型也无法满足企业的诸多专业需求,郑叔亮告诉亿邦,他们是在与洪恩教育展开合作之后才发现,企业会提出之前从技术角度预想不到的独特需求。“比如他们会在我们提供的对话能力基础上再提出一些安全性的考虑。比方和小孩子的交流内容中你不能鼓励早恋,不能鼓励逃课。当小孩说他不会过马路的时候,你不可以去教他如何去过马路,而必须第一时间帮助他联系他的家人。”许许多多类似于这样的交流场景,并不能简单通过“接一个ChatGPT的API,再用后处理过滤一下关键词”实现。

正因上述诸多原因,未来很可能“每个企业都需要一个私有大模型”,而在郑叔亮是如此描述这样一个过程的:先以一个规模相对较小的通用大模型作为底座,再在其上构建聆心智能的超拟人对话大模型,其语料和训练的数据会相较友商丰富很多,也可以植入企业专有数据进行训练。而具体到功能性的场景中,可以通过类似于ChatGPT提供的插件功能来丰富其能力。

“例如一位老板的私人数字人助理,他可以与老板完全以微信对话的形式完成工作交接,老板说他要出差时,数字人助理会用大模型能力自主完成安排行程、安排酒店的工作,需要订票时,他只需要调用携程商旅的API接口。而以前这些工作要由几位秘书来做。”郑叔亮描述。

“一些目前做系统集成或者解决方案的公司,他们并不太懂大模型,而我们希望自身的优势是:我们真正懂大模型,同时又对行业了解得更深。这也是我们现在不断寻找和增加行业合作伙伴的原因,通过行业数据、行业Knowhow的持续积累,聆心智能的超拟人大模型将天然地具有服务于各行业的能力。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1013655.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue实现左右伸缩(el-drawer自定义位置展开收缩)

内容左右收缩展开 实现需求实现效果自定义抽屉(el-drawer)展开位置实现原理 js方法,点击的时候抽屉伸缩展开,并且给左侧右侧内容对应的宽度第二种方法 实现需求 页面内容是左右布局,需求想让左侧内容可收缩,然后展示完全右侧内容。…

模拟经营类游戏是怎么开发的?

模拟经营类游戏开发是一个充满挑战但也充满乐趣的领域。下面是一些步骤和关键考虑因素,可以帮助您开始开发自己的模拟经营游戏: 明确游戏概念: 确定游戏开发的主题和类型,例如城市建设、农场经营、餐厅经营等。 制定一个引人入胜…

《论文阅读》通过动态融入常识知识来提高同理心对话的生成

《论文阅读》通过动态融入常识知识来提高同理心对话的生成 前言简介模型架构Contextual ProbingContextual Unification Workspace代码实现Knowledge-Aware Decoder实验结果前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后感到…

文件路径中的/,\的区别和文件路径的常见用法

/是Unix和类Unix系统上的路径分隔符.现代Windows通常可以同时使用\和/交换文件路径,但微软\几十年来一直主张使用路径分隔符. 关于文件路径的常用方法再学习一下: "./":代表目前所在的目录 "../":代表上一层目录 以&q…

如何在Blender中压缩/减小GLTF模型的大小

GLTF 如何在Blender中压缩/减小GLTF模型的大小 Blender是一款功能强大的开源软件,旨在创建3D图形,动画和视觉效果。它支持多种文件格式的导入和导出,包括GLB,GLTF,DAE,OBJ,ABC,USD…

CAD批量转换低版本怎么转?教你一看就会的转换方法

CAD文件需要转换版本是因为不同版本的CAD软件可能不兼容。这意味着,如果在一个版本的CAD软件中创建了一个文件,可能无法在另一个版本的CAD软件中打开它。这可能会导致数据丢失或格式错误。 为了避免这种情况,需要将CAD文件转换为适当的版本以…

短视频seo矩阵系统源码开发与部署全解析

在这个数字化快速发展的时代,短视频已经成为人们获取娱乐,学习,商业信息的主要途径之一。对于企业来说,利用短视频矩阵进行高效且精准的营销推广,无疑是一个重要的战略方向。本文将详细介绍如何进行短视频矩阵源码的开…

【开源】无忧企业文档文库管理界面介绍

无忧企业文档是软开企服研发的一款集知识库、网盘、在线协同为一体的企业级办公软件,有完全免费的开源版,也有功能丰富的商业版。开源版在社区开放了全量源码,商业版支持提供源码,支持二次开发,适合中小企业使用。 文…

企业如何简化线上营销服务流程,让服务更通畅?

在线客服是现代企业服务的重要组成部分,在线客服的质量在很大程度上决定客户的满意度和忠诚度。企业如何简化线上营销服务流程,让服务更通畅?本文将就此探讨。 一、建立流程管理体系 在线上营销服务中,建立流程管理体系可以帮助企…

期权期货品种的交易时间规定与限制

期权和期货品种是在交易所进行交易的,期货交易所有固定的工作时间,并不是24小时都可以交易的,一般国内的期货交易所有日盘和夜盘,不同交易所对交易时间的规定有所不同,交易的期货品种不同,交易时间也是有所…

真实的产品开发中,后端的设计规约可以写哪些

真实的产品开发中,后端的设计规约可以写哪些 产品开发的后端设计规约通常包括以下内容: 数据模型设计:详细描述数据库的结构,包括数据表的设计、字段的定义和关系的设置等。 业务逻辑设计:详细描述后端的业务逻辑&a…

官宣!不藏了~AnyCase 4.0 真“箱”

添加图片注释,不超过 140 字(可选) 重磅好消息!!! 2023年9月15日,我们正式官宣啦~ 经过持续地升级迭代和精心打磨 箱讯科技AnyCase4.0成功上线! 梦想为引,创新为帆&…

STM32F103VET6基于ENC28J60移植LWIP1.4.1(标准库,FreeRTOS)

目录 准备模板LWIP文件夹新建组魔术棒修改lwipopts.h修改sys_arch.h修改sys_arch.c修改LWIP初始化函数中断文件主文件测试源码 在进行移植之前,大家需要学会FreeRTOS的基本使用与无OS移植LWIP的经验,因为基于FreeRTOS移植LWIP需要准备一个FreeRTOS模板项…

从投机走到娱乐——Web3 游戏八月月报

作者:lesleyfootprint.network 8月份,加密市场波动加剧,比特币价格在 23,664 美元到 30,057 美元之间波动。与之相比,游戏领域仍然相对平稳,但从宏观的角度来看,人们对 Web3 游戏的看法正在发生转变。 许…

免费,开源,可批量的离线图片文字提取软件OCR

Umi-OCR 文字识别工具 免费,开源,可批量的离线OCR软件 适用于 Windows7 x64 及以上 免费:本项目所有代码开源,完全免费。方便:解压即用,离线运行,无需网络。批量:可批量导入处理图片…

spring boot项目一次性能测试的总结

满足标准:并发大于等于100 ,平均响应时间小于等于3秒 项目在压测过程中并发数只有50,在并发数100的情况下有很多请求链接是失败的 我们该如何入手去处理这些问题并提高并发数呢? 1、首先从压测结果入手,对不满足标准…

淘天集团联合爱橙科技开源大模型训练框架Megatron-LLaMA

9月12日,淘天集团联合爱橙科技正式对外开源大模型训练框架——Megatron-LLaMA,旨在让技术开发者们能够更方便地提升大语言模型训练性能,降低训练成本,并保持和LLaMA社区的兼容性。测试显示,在32卡训练上,相…

分布式事务解决方案之2PC

分布式事务解决方案之2PC 前面已经学习了分布式事务的基础理论,以理论为基础,针对不同的分布式场景业界常见的解决方案有2PC、 TCC、可靠消息最终一致性、最大努力通知这几种。 什么是2PC 2PC即两阶段提交协议,是将整个事务流程分为两个阶段…

力扣题——3.二分查找

下面看几道力扣上面二分查找的题目 先看一下简单的 第704题: 很简单,不多说,直接给出解答: 二分查找的具体讲解可以看我的另一篇博客 第35题: 这题也是比较简单的,直接给出答案: 只需要注意一…