下一代推荐系统：多智能体 + 深度强化学习，充分利用文本信息，更深刻的理解用户真实需求和兴趣点

下一代 AI 医疗：知识图谱RAG + 多智能体

大模型 + 推荐，是否有必要？
方案一：基于内容的 Agent + 推荐
方案二：多智能体深度强化学习 + 推荐
强化学习：看、干、想的过程
多智能体框架

方案三：在家慢病自管理推荐系统
如何将医学知识和个人数据转为个性化健康管理建议

嘘，别人我不告诉 TA ！！！

本文金手指：

现代推荐的局限，Agent + 推荐怎么实现？
顶会的无敌设定：多智能体深度强化学习，怎么应用到推荐？
医疗推荐的不同是什么：多智能体深度强化学习 + 基于医学知识推荐？

大模型 + 推荐，是否有必要？

很有必要，感知更加全面，推荐就会更加贴近。

现代推荐系统的问题：

缺乏推荐的可解释性
缺乏改进推荐效果，所需的开放世界知识
依赖于用户显式的反馈，如评分或点击行为，无法分析语言
缺乏长期上下文信息，导致没有具体到点的喜好推荐、个性化
倾向于推荐用户已知或熟悉的内容，有时会导致推荐结果的同质化
在实时推荐方面存在一定的延迟，没办法快速处理和分析用户输入，提供更实时的推荐

这些都可以用【多智能体 + 深度强化学习 + 基于内容的推荐】解决。

方案一：基于内容的 Agent + 推荐

基于内容的推荐系统：依据用户过去喜欢的内容特征来推荐新的、相似的内容。

比如你喜欢快节奏的摇滚乐时，系统就会找出其他具有相似特征（快节奏、摇滚风格）的歌曲推荐给你。

数据需要元数据说明，数据是歌曲，元数据就是这首歌各种的关键信息（作者、风格、流派、标题、节奏、摘要、关键字等等，摘要让大模型生成）。

开发一个电影推荐系统，通过分析用户的历史对话记录（没有动力了、吓自己、底层小人物生活不堪），智能推荐最适合用户需求的电影。

大模型数据处理问题：如何找到一种最适合的文本读取方式，更好的区分各个模块、内容，以保证收集到的数据都是相对完整和独立的？（HTML、Markdown都可）

请添加图片描述

Agent 在这里就是

个性化描述：根据用户的历史偏好和交互数据，LLMs可以生成个性化的推荐描述，使推荐更加贴合用户的个性。
查询理解：LLMs可以用于理解用户的搜索查询或推荐请求，包括自然语言中的复杂表达和细微差别。

方案二：多智能体深度强化学习 + 推荐

论文：《RPP：多智能体强化学习 + 长期个性化推荐》(含代码)

大模型在推荐系统中虽然具有强大的语义理解、意图推理和知识利用能力，但现有研究大多采用统一的提示模板，忽视了用户个体差异，这可能导致推荐系统无法准确捕捉到每个用户的个性化偏好。

为了解决上述问题，提出了实例导向的提示策略，即通过为每位用户定制个性化的提示来提升推荐的相关性和准确性：

使用强化提示个性化（RPP）技术，这是一种基于多代理强化学习的方法，用于优化个性化提示。
RPP 通过选择最优的句子而不是逐字优化，来提升效率并保证提示的质量。
RPP+ 在RPP的基础上增加了动态优化动作的机制，以进一步提升个性化提示的灵活性和推荐系统的性能。

请添加图片描述

强化学习：看、干、想的过程

强化学习，其实跟训狗差不多！

教狗子握手的时候，如果狗子正确握手，就能得到骨头奖励，不握手就没有。

如果咬了主人一口，还会受到惩罚。

狗子为了得到更多骨头，几天就能学会握手这个技能。

分 3 步：看（观察）、干（行动）、想（学习有更高奖励的动作）。

这个过程的数学描述就是马尔可夫决策过程。

大部分强化学习算法都是基于马尔可夫决策过程。

推荐系统中（本文的RPP）中的"看"、“干”、“想”：

“看”：（状态有哪些：进行决策时所需的所有环境信息）

RPP 中是观察用户的历史交互、当前兴趣状态、LLM的推荐结果等。

“干”：（动作有哪些：RPP 中是角色扮演、历史长度、推理指导、输出格式）

选择和组合不同的提示元素。

“想”：

估计不同提示策略的长期价值。
基于用户反馈（如NDCG分数）学习哪些提示策略更有效。
在探索新策略和利用已知好策略之间权衡。

Actor 演员 - Critic 评论家算法

演员主要负责"干"（行动），但也参与"想"（策略更新，寻找更高奖励的动作）
评论家主要负责"想"（评估和学习）
演员干得好，评论家就奖励；干得不好，评论家就批评。

演员：基于概率分布，有一个神经网络，可以根据行为的概率，选出行为。

评论家：基于行为价值，有一个神经网络，可以根据行为的价值进行打分。

RPP中：

Actor网络：负责生成动作，即选择最佳的提示句子。
每个智能体都有自己的Actor网络，根据当前状态生成动作和相应的概率。
Critic网络：评估当前状态的价值，即预测采取某个动作后的预期回报。
Critic网络帮助智能体评估当前策略的好坏。

多智能体框架

多智能体深度强化学习，是研究创新、产品优化的金手指，很多论文都是在这个上迁移改进到场景上，发就是高级别期刊、高逼格论文。

多智能体深度强化学习有 3 种模式，RPP 是最后一种：

这图是一个完全去中心化（Fully Decentralized Execution）的执行环境，其中包含了 N 个代理，以及它们与环境的交互。

去中心化模式，每个 agent 之间没有通信和协调机制，每个代理必须独立地评估环境状态并作出响应。

一般数量得小于 10 个，不然会导致过度分析一个简单环境。

集中式执行（Centralized Execution）的系统结构，其中包含一个中央控制器（Central Controller）和多个代理（Agent 1, Agent 2, …, Agent n）以及它们与环境（Environment）的交互。

中央控制器（Central Controller）：这是系统中的中心节点，负责接收信息、做出决策，并控制整个系统的运行。
代理（Agent 1, Agent 2, …, Agent n）：这些是系统中的执行单元，根据中央控制器的指令与环境进行交互。每个代理都可能有不同的角色和功能。

每个代理把他们各自的观测，都交给中央，中央就可以全面的分析这个局面做出反应，环境适应性整体效果大于几个局部之和。

但也有问题：

扩展性问题：随着系统规模的增长，中央控制器可能会成为性能瓶颈，难以处理大量的数据和请求。
响应时间：在某些情况下，集中式系统可能需要更长的时间来响应，因为所有决策都通过中央控制器。
灵活性降低：代理的自主性较低，因为它们依赖中央控制器的指令，这可能限制了系统的适应性和创新能力。
通信瓶颈：所有代理都通过中央控制器通信，可能导致通信瓶颈，特别是在代理数量众多的情况下。

综合两者：

集中式训练（Centralized Training）介于完全去中心化智能体系统和传统的中心化智能体系统之间，解决俩者的部分问题，旨在提升效率、确保数据一致性、实现模型同步、统一训练策略、简化性能监控和资源优化、促进知识共享、提高可扩展性，并简化开发过程。

每个智能体（演员）自己观测 + 动作，中心控制器（评论家）不在决策而是评估

3 者区别：

集中式训练：中心化训练，去中心化执行
中心化智能体：中心化训练，中心化执行
去中心智能体：去中心化训练，去中心化执行

RPP、RPP+ 框架采用的是：

多智能体框架是 - 集中式训练（中心化训练，去中心化执行）
深度强化学习是 - 演员-评论家

请添加图片描述

推理指导有 6 个子动作：

推理指导在RPP（强化提示个性化）中确实有6个子类动作，这样设计是有特定原因的。让我们详细解析这6个子类及其目的：

直接推荐：
例如：“请直接推荐候选电影。”
目的：提供一个基准方法，无需复杂推理。适用于简单明确的用户偏好。
基于历史推荐：
例如：“根据用户的观影历史推荐电影。”
目的：利用用户的过往行为来预测未来偏好。适合有丰富历史数据的情况。
推断偏好后推荐：
例如：“分析用户的观影模式，推断其偏好，然后推荐电影。”
目的：深入理解用户潜在兴趣，适合处理复杂或隐含的用户偏好。
逐步思考：
例如：“请逐步分析用户喜好，考虑多个因素，然后给出推荐。”
目的：引导LLM进行更详细、系统的分析，适合处理多维度的用户兴趣。
推荐并精炼：
例如：“先给出初步推荐，然后根据用户特征进一步精炼结果。”
目的：通过两步法提高推荐的准确性，允许系统自我纠正。
相似度计算后推荐：
例如：“计算候选电影与用户偏好的相似度，然后推荐最相似的电影。”
目的：引入明确的相似度概念，适合需要精确匹配的场景。

在RPP中，系统会学习在不同情况下选择最合适的推理指导方法。例如：

对于新用户，可能倾向于使用"直接推荐"或"推断偏好后推荐"。
对于有丰富历史的用户，可能更多使用"基于历史推荐"或"相似度计算后推荐"。
在处理复杂兴趣的用户时，可能选择"逐步思考"或"推荐并精炼"。

通过这种多样化的推理指导选项，RPP 可以更好地适应不同用户、不同场景，提供更个性化和精准的推荐。

方案一只是推荐系统与大模型的简单结合，而 RPP 是一个更先进、更动态的系统，它将强化学习、提示工程和大语言模型深度整合，提供了更灵活、更个性化的推荐方案。

RPP 的方法在处理复杂用户偏好和动态环境时表现更好。

方案三：在家慢病自管理推荐系统

怎么把 RPP 这种超个性化方法迁移到医疗领域呢！

论文：CVD-Risk-Prevent 个性化心血管健康推荐系统：基于医学指南的规则框架与 LLM 的结合

现在通用的疾病管理和教育的方式，有点像传统的门户网站，会帮你挑选重要新闻放在头条，告诉你应该看什么、应该想什么。

但未来的疾病管理和教育，更像今日头条，能够根据你的个人情况，有针对性地提供指导。

举个例子，美国Glooko公司在2013年推出了一款能够记录患者血糖水平、饮食和运动情况的软件。

这款软件能够根据患者的信息给出智能化的提醒，比如什么时候该吃药了、什么时候该运动了、最近血糖控制水平如何等等。

临床试验的结果显示，使用这款软件的患者，血糖水平能下降差不多10个百分点。

这是个很了不起的结果。

要知道，软件本身既不能强迫你吃药，也没法强迫你运动，这10%的降血糖效果，仅仅是依靠更精细的信息提醒来实现的。

请添加图片描述

CVD-Risk-Prevent是一个智能的心血管疾病风险管理推荐系统,它的目标是帮助成年人在家里更好地管理自己的心血管健康。

这个系统基于最新的医学指南,结合了医学知识、用户信息分析、逻辑推理和智能对话技术。

它的工作流程大致如下:

收集用户的心血管健康数据,如年龄、血压等。
根据这些数据,给用户的健康状况打分,评估他们的心血管疾病风险。
利用医学知识和逻辑推理,为用户生成个性化的健康管理建议,包括风险提示、生活方式建议、就医建议等。
使用人工智能对话技术(类似于ChatGPT),生成易于理解的解释和说明,帮助用户更好地理解这些建议。

与传统的健康管理系统相比,CVD-Risk-Prevent的特点是:

基于权威医学指南,建议更加可靠。
全面考虑用户的各项健康指标,评估更加准确。
提供多方面的个性化建议,涵盖了目标、信息、解释、行动计划等。
使用人工智能生成通俗易懂的解释,沟通更加友好。
专为家庭用户设计,使用更加便捷。

CVD-Risk-Prevent利用智能技术,将专业的医学知识转化为普通人可以理解和执行的健康管理建议,帮助大家在家中更好地呵护自己的心血管健康,预防心血管疾病的发生。

如何将医学知识和个人数据转为个性化健康管理建议

算法的核心是建立了一个从个人健康数据到健康管理建议的映射关系。

这个映射关系由三个主要部分构成:医学知识库、个人健康状况评估模型和推荐生成规则。

医学知识库:

包含了心血管疾病相关的医学知识,如疾病定义、危险因素、预防措施等。
这些知识主要来源于权威的医学指南,如2021年欧洲心脏病学会的指南。
知识库中的内容被组织成可供计算机处理的形式,如规则、决策树等。

个人健康状况评估模型:

这是一组数学模型,用于根据个人的健康数据评估其心血管健康状况。
主要包括两部分:
a. 心血管风险因素模型(在算法中称为Z):根据个人的健康指标(如血压、cholesterol等),判断其有哪些心血管风险因素。
b. 心血管疾病风险评估模型(如SCORE2):根据个人的风险因素,评估其未来发生心血管疾病的概率。
评估的结果会被记录在用户的健康档案(UP)中,作为后续生成建议的依据。