下一代 推荐系统:多智能体 + 深度强化学习,充分利用文本信息,更深刻的理解用户真实需求和兴趣点

news2024/11/13 18:15:27

下一代 AI 医疗:知识图谱RAG + 多智能体

    • 大模型 + 推荐,是否有必要?
    • 方案一:基于内容的 Agent + 推荐
    • 方案二:多智能体深度强化学习 + 推荐
      • 强化学习:看、干、想的过程
      • 多智能体框架
    • 方案三:在家慢病自管理推荐系统
      • 如何将医学知识和个人数据转为个性化健康管理建议
    • 嘘,别人我不告诉 TA !!!

本文金手指:

  • 现代推荐的局限,Agent + 推荐怎么实现?
  • 顶会的无敌设定:多智能体深度强化学习,怎么应用到推荐?
  • 医疗推荐的不同是什么:多智能体深度强化学习 + 基于医学知识推荐?

大模型 + 推荐,是否有必要?

很有必要,感知更加全面,推荐就会更加贴近。

现代推荐系统的问题:

  • 缺乏推荐的可解释性
  • 缺乏改进推荐效果,所需的开放世界知识
  • 依赖于用户显式的反馈,如评分或点击行为,无法分析语言
  • 缺乏长期上下文信息,导致没有具体到点的喜好推荐、个性化
  • 倾向于推荐用户已知或熟悉的内容,有时会导致推荐结果的同质化
  • 在实时推荐方面存在一定的延迟,没办法快速处理和分析用户输入,提供更实时的推荐

这些都可以用 【多智能体 + 深度强化学习 + 基于内容的推荐】解决。

方案一:基于内容的 Agent + 推荐

基于内容的推荐系统:依据用户过去喜欢的内容特征来推荐新的、相似的内容。

比如你喜欢快节奏的摇滚乐时,系统就会找出其他具有相似特征(快节奏、摇滚风格)的歌曲推荐给你。

数据需要元数据说明,数据是歌曲,元数据就是这首歌各种的关键信息(作者、风格、流派、标题、节奏、摘要、关键字等等,摘要让大模型生成)。

开发一个电影推荐系统,通过分析用户的历史对话记录(没有动力了、吓自己、底层小人物生活不堪),智能推荐最适合用户需求的电影。

  • 大模型数据处理问题:如何找到一种最适合的文本读取方式,更好的区分各个模块、内容,以保证收集到的数据都是相对完整和独立的?(HTML、Markdown都可)

请添加图片描述

Agent 在这里就是

  1. 个性化描述:根据用户的历史偏好和交互数据,LLMs可以生成个性化的推荐描述,使推荐更加贴合用户的个性。
  2. 查询理解:LLMs可以用于理解用户的搜索查询或推荐请求,包括自然语言中的复杂表达和细微差别。

方案二:多智能体深度强化学习 + 推荐

论文:《RPP:多智能体强化学习 + 长期个性化推荐》(含代码)

大模型在推荐系统中虽然具有强大的语义理解、意图推理和知识利用能力,但现有研究大多采用统一的提示模板,忽视了用户个体差异,这可能导致推荐系统无法准确捕捉到每个用户的个性化偏好。

为了解决上述问题,提出了实例导向的提示策略,即通过为每位用户定制个性化的提示来提升推荐的相关性和准确性:

  • 使用 强化提示个性化(RPP)技术,这是一种基于多代理强化学习的方法,用于优化个性化提示。
  • RPP 通过选择最优的句子而不是逐字优化,来提升效率并保证提示的质量。
  • RPP+ 在RPP的基础上增加了动态优化动作的机制,以进一步提升个性化提示的灵活性和推荐系统的性能。

请添加图片描述

强化学习:看、干、想的过程

强化学习,其实跟训狗差不多!

教狗子握手的时候,如果狗子正确握手,就能得到骨头奖励,不握手就没有。

如果咬了主人一口,还会受到惩罚。

狗子为了得到更多骨头,几天就能学会握手这个技能。

分 3 步:看(观察)、干(行动)、想(学习有更高奖励的动作)。

这个过程的数学描述就是 马尔可夫决策过程。

  • 大部分强化学习算法都是基于 马尔可夫决策过程。

推荐系统中(本文的RPP)中的"看"、“干”、“想”:

  1. “看”:(状态有哪些:进行决策时所需的所有环境信息)
  • RPP 中是观察用户的历史交互、当前兴趣状态、LLM的推荐结果等。
  1. “干”:(动作有哪些:RPP 中是 角色扮演、历史长度、推理指导、输出格式)
  • 选择和组合不同的提示元素。
  1. “想”:
  • 估计不同提示策略的长期价值。
  • 基于用户反馈(如NDCG分数)学习哪些提示策略更有效。
  • 在探索新策略和利用已知好策略之间权衡。

Actor 演员 - Critic 评论家算法

  • 演员主要负责"干"(行动),但也参与"想"(策略更新,寻找更高奖励的动作)
  • 评论家主要负责"想"(评估和学习)
  • 演员干得好,评论家就奖励;干得不好,评论家就批评。

演员:基于概率分布,有一个神经网络,可以根据行为的概率,选出行为。

评论家:基于行为价值,有一个神经网络,可以根据行为的价值进行打分。

RPP中:

  • Actor网络:负责生成动作,即选择最佳的提示句子。
  • 每个智能体都有自己的Actor网络,根据当前状态生成动作和相应的概率。
  • Critic网络:评估当前状态的价值,即预测采取某个动作后的预期回报。
  • Critic网络帮助智能体评估当前策略的好坏。

多智能体框架

多智能体深度强化学习,是研究创新、产品优化的金手指,很多论文都是在这个上迁移改进到场景上,发就是高级别期刊、高逼格论文。

多智能体深度强化学习 有 3 种模式,RPP 是最后一种:

这图是一个完全去中心化(Fully Decentralized Execution)的执行环境,其中包含了 N 个代理,以及它们与环境的交互。

去中心化模式,每个 agent 之间没有通信和协调机制,每个代理必须独立地评估环境状态并作出响应。

  • 一般数量得小于 10 个,不然会导致过度分析一个简单环境。

集中式执行(Centralized Execution)的系统结构,其中包含一个中央控制器(Central Controller)和多个代理(Agent 1, Agent 2, …, Agent n)以及它们与环境(Environment)的交互。

  1. 中央控制器(Central Controller):这是系统中的中心节点,负责接收信息、做出决策,并控制整个系统的运行。

  2. 代理(Agent 1, Agent 2, …, Agent n):这些是系统中的执行单元,根据中央控制器的指令与环境进行交互。每个代理都可能有不同的角色和功能。

每个代理把他们各自的观测,都交给中央,中央就可以全面的分析这个局面做出反应,环境适应性整体效果大于几个局部之和。

但也有问题:

  1. 扩展性问题:随着系统规模的增长,中央控制器可能会成为性能瓶颈,难以处理大量的数据和请求。
  2. 响应时间:在某些情况下,集中式系统可能需要更长的时间来响应,因为所有决策都通过中央控制器。
  3. 灵活性降低:代理的自主性较低,因为它们依赖中央控制器的指令,这可能限制了系统的适应性和创新能力。
  4. 通信瓶颈:所有代理都通过中央控制器通信,可能导致通信瓶颈,特别是在代理数量众多的情况下。

综合两者:

集中式训练(Centralized Training)介于完全去中心化智能体系统和传统的中心化智能体系统之间,解决俩者的部分问题,旨在提升效率、确保数据一致性、实现模型同步、统一训练策略、简化性能监控和资源优化、促进知识共享、提高可扩展性,并简化开发过程。

  • 每个智能体(演员)自己观测 + 动作,中心控制器(评论家)不在决策而是评估

3 者区别:

  • 集中式训练: 中心化训练,去中心化执行
  • 中心化智能体: 中心化训练, 中心化执行
  • 去中心智能体: 去中心化训练,去中心化执行

RPP、RPP+ 框架采用的是:

  • 多智能体框架是 - 集中式训练(中心化训练,去中心化执行)
  • 深度强化学习是 - 演员-评论家

请添加图片描述

推理指导 有 6 个子动作:

推理指导在RPP(强化提示个性化)中确实有6个子类动作,这样设计是有特定原因的。让我们详细解析这6个子类及其目的:

  1. 直接推荐:
    例如:“请直接推荐候选电影。”
    目的:提供一个基准方法,无需复杂推理。适用于简单明确的用户偏好。

  2. 基于历史推荐:
    例如:“根据用户的观影历史推荐电影。”
    目的:利用用户的过往行为来预测未来偏好。适合有丰富历史数据的情况。

  3. 推断偏好后推荐:
    例如:“分析用户的观影模式,推断其偏好,然后推荐电影。”
    目的:深入理解用户潜在兴趣,适合处理复杂或隐含的用户偏好。

  4. 逐步思考:
    例如:“请逐步分析用户喜好,考虑多个因素,然后给出推荐。”
    目的:引导LLM进行更详细、系统的分析,适合处理多维度的用户兴趣。

  5. 推荐并精炼:
    例如:“先给出初步推荐,然后根据用户特征进一步精炼结果。”
    目的:通过两步法提高推荐的准确性,允许系统自我纠正。

  6. 相似度计算后推荐:
    例如:“计算候选电影与用户偏好的相似度,然后推荐最相似的电影。”
    目的:引入明确的相似度概念,适合需要精确匹配的场景。

在RPP中,系统会学习在不同情况下选择最合适的推理指导方法。例如:

  • 对于新用户,可能倾向于使用"直接推荐"或"推断偏好后推荐"。
  • 对于有丰富历史的用户,可能更多使用"基于历史推荐"或"相似度计算后推荐"。
  • 在处理复杂兴趣的用户时,可能选择"逐步思考"或"推荐并精炼"。

通过这种多样化的推理指导选项,RPP 可以更好地适应不同用户、不同场景,提供更个性化和精准的推荐。

方案一 只是 推荐系统与大模型 的简单结合,而 RPP 是一个更先进、更动态的系统,它将强化学习、提示工程和大语言模型深度整合,提供了更灵活、更个性化的推荐方案。

RPP 的方法在处理复杂用户偏好和动态环境时表现更好。

方案三:在家慢病自管理推荐系统

怎么把 RPP 这种超个性化方法 迁移到 医疗领域呢!

论文:CVD-Risk-Prevent 个性化心血管健康推荐系统:基于医学指南的规则框架与 LLM 的结合

现在通用的疾病管理和教育的方式,有点像传统的门户网站,会帮你挑选重要新闻放在头条,告诉你应该看什么、应该想什么。

但未来的疾病管理和教育,更像今日头条,能够根据你的个人情况,有针对性地提供指导。

举个例子,美国Glooko公司在2013年推出了一款能够记录患者血糖水平、饮食和运动情况的软件。

这款软件能够根据患者的信息给出智能化的提醒,比如什么时候该吃药了、什么时候该运动了、最近血糖控制水平如何等等。

临床试验的结果显示,使用这款软件的患者,血糖水平能下降差不多10个百分点。

这是个很了不起的结果。

要知道,软件本身既不能强迫你吃药,也没法强迫你运动,这10%的降血糖效果,仅仅是依靠更精细的信息提醒来实现的。

请添加图片描述

CVD-Risk-Prevent是一个智能的心血管疾病风险管理推荐系统,它的目标是帮助成年人在家里更好地管理自己的心血管健康。

这个系统基于最新的医学指南,结合了医学知识、用户信息分析、逻辑推理和智能对话技术。

它的工作流程大致如下:

  1. 收集用户的心血管健康数据,如年龄、血压等。

  2. 根据这些数据,给用户的健康状况打分,评估他们的心血管疾病风险。

  3. 利用医学知识和逻辑推理,为用户生成个性化的健康管理建议,包括风险提示、生活方式建议、就医建议等。

  4. 使用人工智能对话技术(类似于ChatGPT),生成易于理解的解释和说明,帮助用户更好地理解这些建议。

与传统的健康管理系统相比,CVD-Risk-Prevent的特点是:

  1. 基于权威医学指南,建议更加可靠。

  2. 全面考虑用户的各项健康指标,评估更加准确。

  3. 提供多方面的个性化建议,涵盖了目标、信息、解释、行动计划等。

  4. 使用人工智能生成通俗易懂的解释,沟通更加友好。

  5. 专为家庭用户设计,使用更加便捷。

CVD-Risk-Prevent利用智能技术,将专业的医学知识转化为普通人可以理解和执行的健康管理建议,帮助大家在家中更好地呵护自己的心血管健康,预防心血管疾病的发生。

如何将医学知识和个人数据转为个性化健康管理建议

算法的核心是建立了一个从个人健康数据到健康管理建议的映射关系。

这个映射关系由三个主要部分构成:医学知识库、个人健康状况评估模型和推荐生成规则。

  1. 医学知识库:
  • 包含了心血管疾病相关的医学知识,如疾病定义、危险因素、预防措施等。
  • 这些知识主要来源于权威的医学指南,如2021年欧洲心脏病学会的指南。
  • 知识库中的内容被组织成可供计算机处理的形式,如规则、决策树等。
  1. 个人健康状况评估模型:
  • 这是一组数学模型,用于根据个人的健康数据评估其心血管健康状况。
  • 主要包括两部分:
    a. 心血管风险因素模型(在算法中称为Z):根据个人的健康指标(如血压、cholesterol等),判断其有哪些心血管风险因素。
    b. 心血管疾病风险评估模型(如SCORE2):根据个人的风险因素,评估其未来发生心血管疾病的概率。
  • 评估的结果会被记录在用户的健康档案(UP)中,作为后续生成建议的依据。
  1. 推荐生成规则:
  • 这是一组将健康状况映射到健康管理建议的规则。
  • 规则的形式一般为"如果某个人有某些风险因素,且其心血管疾病风险达到某个水平,则给出某些建议"。
  • 建议的内容来源于医学知识库,但会根据个人的具体情况进行选择和定制。
  • 生成的建议包括多个方面,如总体健康目标、具体生活方式调整、就医安排等。
  1. 自然语言解释:
  • 为了让用户更容易理解和接受这些建议,算法还会使用自然语言处理技术(如ChatGPT)。
  • 它会将专业的医学建议转化为通俗易懂的语言,并提供一些额外的解释和说明。
  • 这一步不直接影响建议的内容,但能显著提高建议的可读性和说服力。

假设一位50岁的男性用户使用了CVD-Risk-Prevent系统,他的健康数据显示血压较高,同时他还是一名吸烟者。

系统首先通过心血管风险因素模型识别出"高血压"和"吸烟"这两个风险因素,然后使用SCORE2模型评估他的10年心血管疾病风险(假设为90%,属于高风险)。

根据推荐生成规则,系统给出以下建议:

  • 目标:将10年心血管疾病风险降低到30%以下。
  • 生活方式调整:戒烟,将盐摄入量减少到每日5克以下,每周至少进行150分钟中等强度的有氧运动。
  • 就医安排:在未来一个月内安排一次心脏科医生的体检,并遵照医嘱服药控制血压。

最后,系统使用ChatGPT将这些建议转化为一段富有同理心的话术,鼓励用户采取行动。

这就是CVD-Risk-Prevent算法的基本工作原理。

它通过将普适的医学知识与个体的健康数据相结合,再通过一系列的模型和规则进行推理和转化,最终为每一个用户生成量身定制的心血管健康管理方案。

这种个性化、精准化的健康干预方式,有望显著提高心血管疾病的预防和管理效果。

嘘,别人我不告诉 TA !!!

被绿的时候我忍气吞声!!!

被甩的时候我一言不发!!!

被渣的时候我不为所动!!!

但看见关注我泪如泉涌!!!

请添加图片描述
文字看累了,看美男放松一下,顺便点个关注!!!

因为这里是连续剧,后面还有更多美男和干货!!!

我要让高难度知识落地!!!

我要让高精尖科学流传!!!

我要在高逼格的干货上!!!

我要给出最有用的心得!!!

和全球顶级科学家同步!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2139548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【VSCode】VSCode Background 背景插件辅助窗口程序

前排贴上Github项目链接 GitHub窗口项目链接 这是一个基于VSCode上由shalldie上传的background扩展制作的windows窗口程序。 该程序旨在通过窗口程序尽可能的完善该扩展原有的功能。 background - shalldie 的最大优势是我目前仅在其扩展上发现了UseFront的选项,这…

基于AgentUniverse在金融场景中的多智能体应用探索

基于AgentUniverse在金融场景中的多智能体应用探索 1.基于大模型智能体超级状态机 智能体、多智能体都是当下的技术热点,但作为一个技术人应该理解,所有的技术都有自己所针对的问题、及其能力边界,并不存在普适的、放诸业务场景皆 work 的技术方案。在这里尝试区分,从大模…

Cubieboard2(四) 系统构建 —— 基于 mainline

文章目录 1 环境准备1.1 编译环境准备1.2 主线源码准备1.2.1 linux 源码1.2.2 U-Boot 源码1.2.3 启动文件 boot.scr1.2.4 根文件系统 rootfs 2 内核编译2.1 添加 tenda aic8800 驱动(可选)2.2 编译 linux 内核 3 U-Boot 编译4 分区与烧录4.1 sdcard 分区…

Pocketpair澄清表示《幻兽帕鲁》无意转型免费游戏

有报道称,Pocketpair的首席执行官沟部拓郎接受采访暗示,该工作室的热门生存游戏《幻兽帕鲁》可能很快会转为免费游戏,以“延长其寿命”。该工作室现在澄清说,这次采访是几个月前进行的,目前不再有这样的计划。 “我们…

[产品管理-19]:NPDP新产品开发 - 17 - 产品设计与开发工具 - 实体化设计工具:联合分析、功能分析、FAST技术图和逆向工程

目录 前言: 一、什么是实体化设计 1.1 什么是实体化设计 1、定义与概述 2、设计流程 3、关键要素 4、应用领域 5、举例说明 1.2 实体化设计与概念设计的区别 实体化设计 概念设计 区别归纳 1.3 实体化设计与初步设计、规格设计的区别 1、定义与目的 …

Matlab simulink建模与仿真 第十四章(信号输出库)

参考视频:simulink1.1simulink简介_哔哩哔哩_bilibili 一、信号输出库中的模块概览 注:部分模块在第二章中有介绍,本章不再赘述。 二、文件及工作空间模块 1、To File文件模块 (1)在MATLAB中可用MAT文件对工作区的…

[数据集][目标检测]无人机识别检测数据集VOC+YOLO格式6986张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):6986 标注数量(xml文件个数):6986 标注数量(txt文件个数):6986 标注…

理解Android开发中的MVC、MVVM和MVP设计模式

全篇大概1600 字,建议阅读时间10分钟。 引言 在 Android 应用开发中,设计模式是帮助开发者构建结构清晰、可维护性高的应用程序的关键工具。MVC(Model-View-Controller)、MVVM(Model-View-ViewModel)和 MV…

基于双向RRT算法的三维空间最优路线规划matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1 单向RRT算法 4.2 双向RRT算法 5.完整程序 1.程序功能描述 基于双向RRT(Randomly Exploring Random Trees, 随机探索随机树)算法的三维空间最优路径规划是一种解…

??Ansible介绍

文章目录 一、Ansible基本概述1、什么是以及特性1)是什么:2)功能 2、架构下充当的角色:3、同软件对比Ansible与SaltStack*YAML的基本语法 Ansible与其他同类软件对比 4、Ansible的架构组成5、Ansible的执行流程 二、简单测试Ansib…

【Unity踩坑】为什么有Rigidbody的物体运行时位置会变化

先上图,不知你有没有注意过这个现象呢? 一个物体加上了Rigidbody组件,当勾选上Use Gravity时,运行后,这个物体的位置的值会有变化。这是为什么呢? 刚体由物理系统处理,因此它会对重力、碰撞等做…

Spring注解@Value的基本知识(附Demo)

目录 前言1. 基本知识2. 高级用法3. 彩蛋 前言 对于Java的基本知识推荐阅读: java框架 零基础从入门到精通的学习路线 附开源项目面经等(超全)【Java项目】实战CRUD的功能整理(持续更新) 1. 基本知识 Value 是 Spr…

Python酷库之旅-第三方库Pandas(118)

目录 一、用法精讲 521、pandas.DataFrame.drop_duplicates方法 521-1、语法 521-2、参数 521-3、功能 521-4、返回值 521-5、说明 521-6、用法 521-6-1、数据准备 521-6-2、代码示例 521-6-3、结果输出 522、pandas.DataFrame.duplicated方法 522-1、语法 522-2…

每个企业都需要 (但未使用) 的 BYOD 安全解决方案

远程办公模式的转变彻底改变了组织管理员工设备的方式。如今,员工希望能够灵活地在任何地方使用任何设备工作,这导致自带设备 (BYOD) 政策被广泛采用。 但随着越来越多的企业采用BYOD,一个问题依然摆在眼前:如何在不侵犯个人隐私…

ChatGPT的底层逻辑

“一些未知的东西正在做我们不知道的事情。” —— 阿瑟爱丁顿 “为何不尝试制作一个模拟儿童思维的程序呢?” —— 艾伦图灵 “只要是人脑能提出的问题,它就能够得到解决。” —— 库尔特哥德尔 开始 传说中的扫地僧,在现实中极其罕见。 有…

【题解】—— LeetCode一周小结37

🌟欢迎来到 我的博客 —— 探索技术的无限可能! 🌟博客的简介(文章目录) 【题解】—— 每日一道题目栏 上接:【题解】—— LeetCode一周小结36 9.合并零之间的节点 题目链接:2181. 合并零之间…

【嵌入式硬件开发基础】Arduino板常用外设及应用:MPU6050空间运动传感器(简介,类库函数,卡尔曼滤波),继电器(原理介绍,含应用实例/代码)

当一个人不能拥有的时候,他唯一能做的便是不要忘记。 🎯作者主页: 追光者♂🔥 🌸个人简介: 📝[1] CSDN 博客专家📝 🏆[2] 人工智能领域优质创作者🏆 🌟[3] 2022年度博客之星人工智能领域TOP4🌟 🌿[4] 2023年城市之星领跑者TOP1(哈尔滨…

Python3时间模块使用

文章目录 python安装时间处理模块概述time 模块常用方法 datetime 模块常用方法 时间戳与 datetime 的相互转换时区处理使用 pytz 设置时区 实际应用场景日志时间处理时间差计算不同时区的时间转换 结论 在 Python 编程中,时间处理和时间格式转换是非常常见的需求&a…

毕业论文基于Web的快递中心系统的设计与实现

一、研究的现状及其意义 快递行业是一种发展潜力巨大的新兴行业,随着我国的电子商务蓬勃发展和日益成熟,网购已经成为了现今人们主要的购物方式,与此同时,与网购紧密相连的快递行业随之也得到了飞速发展。我国的快递行业起步阶段为…

2024/9/15 408大题专项训练之存储系统

怎么看组相联、全相联、直接映射? 全相联:一个一个比 直接映射:就一个等号就行 组相联: cache大小怎么算?