【算法】演员~评论家方法

news2024/11/26 17:49:29

一、引言

        演员-评论家算法(Actors-Critics Method)是一种用于并发编程中的同步机制,用于解决多线程环境下的资源竞争问题。与传统的锁和信号量等同步工具不同,演员-评论家方法采用更加灵活的协作策略。算法结合了策略梯度(Policy Gradient)和价值函数(Value Function)估计的强化学习方法。它包含两个主要组件:演员(Actor)和评论家(Critic)。演员负责根据当前策略选择动作,而评论家评估这些动作的好坏,并提供反馈来改进演员的策略。通过这种方式,演员-评论家算法能够在连续动作空间和复杂任务中表现出色。

二、算法原理

演员-评论家算法的核心思想是将参与者分为两类角色:

  • 演员(Actors):执行实际工作的线程,它们对共享资源进行操作。
  • 评论家(Critics):监控并评估演员行为的线程,它们不直接操作资源,但可以提供反馈以指导演员的行为。

算法的基本流程如下:

  • 演员尝试对共享资源进行操作。
  • 评论家评估操作的影响,并给出建议或直接干预。
  • 根据评论家的建议,演员决定是否继续操作或修改行为。

三、数据结构

演员-评论家算法中涉及的数据结构包括:

  • 共享资源:需要被多个线程访问和修改的数据。
  • 评论家反馈:评论家对演员操作的评估结果。
  • 状态表示:用于描述环境当前的状态。
  • 动作空间:定义了演员可以选择的所有可能动作。
  • 策略网络(演员):参数化为θ,输出给定状态下的动作概率分布。
  • 价值网络Q网络(评论家):参数化为w,评估当前状态或状态-动作对的价值。

四、算法使用场景

演员-评论家算法适用于:

  • 分布式系统:在分布式系统中协调不同节点的行为。
  • 实时系统:需要快速响应和动态调整策略的场景。
  • 多线程优化:在多线程环境中减少锁的使用,提高性能。

  • 机器人控制:优化机器人的动作策略。

  • 自动驾驶:学习驾驶策略和决策过程。

  • 游戏AI:训练游戏中的智能代理。
  • 资源管理:优化资源分配策略。
  • 连续动作空间:当动作空间是连续的,演员-评论家方法表现优越。
  • 高维状态空间:在复杂环境中,如机器人控制和游戏AI。
  • 需要高效学习的场景:在需要快速适应环境变化的任务中。

五、算法实现

使用Python实现的简单演员-评论家算法示例:

import numpy as np
import gym
import tensorflow as tf

class ActorCritic:
    def __init__(self, state_size, action_size):
        self.state_size = state_size
        self.action_size = action_size
        self.actor = self.build_actor()
        self.critic = self.build_critic()

    def build_actor(self):
        model = tf.keras.Sequential([
            tf.keras.layers.Dense(24, activation='relu', input_shape=(self.state_size,)),
            tf.keras.layers.Dense(self.action_size, activation='softmax')
        ])
        model.compile(optimizer='adam', loss='categorical_crossentropy')
        return model

    def build_critic(self):
        model = tf.keras.Sequential([
            tf.keras.layers.Dense(24, activation='relu', input_shape=(self.state_size,)),
            tf.keras.layers.Dense(1, activation='linear')
        ])
        model.compile(optimizer='adam', loss='mean_squared_error')
        return model

    def choose_action(self, state):
        state = state.reshape([1, self.state_size])
        probabilities = self.actor.predict(state).flatten()
        return np.random.choice(self.action_size, p=probabilities)

    def train(self, state, action, reward, next_state):
        state = state.reshape([1, self.state_size])
        next_state = next_state.reshape([1, self.state_size])

        target = reward + 0.99 * self.critic.predict(next_state)
        td_error = target - self.critic.predict(state)

        # Update actor
        action_onehot = np.zeros(self.action_size)
        action_onehot[action] = 1
        self.actor.fit(state, action_onehot.reshape([1, self.action_size]), verbose=0)

        # Update critic
        self.critic.fit(state, target, verbose=0)

# 使用示例
if __name__ == "__main__":
    env = gym.make('CartPole-v1')
    state_size = env.observation_space.shape[0]
    action_size = env.action_space.n
    agent = ActorCritic(state_size, action_size)

    for episode in range(1000):
        state = env.reset()
        done = False
        while not done:
            action = agent.choose_action(state)
            next_state, reward, done, _ = env.step(action)
            agent.train(state, action, reward, next_state)
            state = next_state

六、其他同类算法对比

与演员-评论家算法相比,其他并发控制算法包括:

  • 锁(Locks):通过互斥锁来保证同一时间只有一个线程访问资源。
  • 信号量(Semaphores):使用计数信号量来控制对资源的访问。
  • 监视器(Monitors):一种同步机制,允许线程在进入临界区前等待。
算法特点优势劣势
Q-Learning基于值的学习,使用 Q 表简单易懂,适用于离散动作空间不适用于高维状态空间,收敛速度慢
SARSA在线学习,使用当前策略更新 Q 值适应性强,能够处理非最优策略收敛速度慢,容易陷入局部最优
DQN使用深度学习进行 Q 值估计处理高维状态空间,具有较好的泛化能力训练不稳定,需要经验回放和目标网络
A3C异步并行学习,使用多个代理训练效率高,能够处理复杂环境实现复杂,需调试多个代理的同步
PPO采用剪切损失函数,保证策略更新稳定简单易实现,具有良好的性能训练速度可能较慢,超参数调节较为复杂

七、多语言代码实现

Java

import java.util.Random;

public class ActorCritic {
    private double[] policy;  // Actor's policy
    private double[] valueFunction;  // Critic's value function
    private double alpha = 0.01;  // Learning rate for policy
    private double beta = 0.01;  // Learning rate for value function
    private Random random = new Random();

    public ActorCritic(int numActions) {
        policy = new double[numActions];
        valueFunction = new double[numActions];
        // Initialize policy and value function
        for (int i = 0; i < numActions; i++) {
            policy[i] = 1.0 / numActions;
            valueFunction[i] = 0.0;
        }
    }

    public int selectAction() {
        double p = random.nextDouble();
        double cumulativeProbability = 0.0;
        for (int i = 0; i < policy.length; i++) {
            cumulativeProbability += policy[i];
            if (p < cumulativeProbability) {
                return i;
            }
        }
        return policy.length - 1;
    }

    public void update(int action, double reward, double nextValue) {
        double tdError = reward + nextValue - valueFunction[action];
        valueFunction[action] += beta * tdError;
        policy[action] += alpha * tdError * (1 - policy[action]);
        // Normalize policy
        double sum = 0.0;
        for (double p : policy) sum += p;
        for (int i = 0; i < policy.length; i++) policy[i] /= sum;
    }

    public static void main(String[] args) {
        // Example usage
        ActorCritic ac = new ActorCritic(4);
        int action = ac.selectAction();
        ac.update(action, 1.0, 0.5);
        System.out.println("Selected action: " + action);
    }
}

Python

import numpy as np

class ActorCritic:
    def __init__(self, num_actions, alpha=0.01, beta=0.01):
        self.policy = np.ones(num_actions) / num_actions
        self.value_function = np.zeros(num_actions)
        self.alpha = alpha
        self.beta = beta

    def select_action(self):
        return np.random.choice(len(self.policy), p=self.policy)

    def update(self, action, reward, next_value):
        td_error = reward + next_value - self.value_function[action]
        self.value_function[action] += self.beta * td_error
        self.policy[action] += self.alpha * td_error * (1 - self.policy[action])
        self.policy /= np.sum(self.policy)

# Example usage
ac = ActorCritic(4)
action = ac.select_action()
ac.update(action, 1.0, 0.5)
print(f"Selected action: {action}")

C++

#include <iostream>
#include <vector>
#include <cstdlib>
#include <ctime>

class ActorCritic {
public:
    ActorCritic(int numActions, double alpha = 0.01, double beta = 0.01)
        : alpha(alpha), beta(beta), policy(numActions, 1.0 / numActions), valueFunction(numActions, 0.0) {
        std::srand(std::time(0));
    }

    int selectAction() {
        double p = static_cast<double>(std::rand()) / RAND_MAX;
        double cumulativeProbability = 0.0;
        for (size_t i = 0; i < policy.size(); ++i) {
            cumulativeProbability += policy[i];
            if (p < cumulativeProbability) {
                return i;
            }
        }
        return policy.size() - 1;
    }

    void update(int action, double reward, double nextValue) {
        double tdError = reward + nextValue - valueFunction[action];
        valueFunction[action] += beta * tdError;
        policy[action] += alpha * tdError * (1 - policy[action]);
        double sum = 0.0;
        for (double p : policy) sum += p;
        for (double &p : policy) p /= sum;
    }

private:
    double alpha;
    double beta;
    std::vector<double> policy;
    std::vector<double> valueFunction;
};

int main() {
    ActorCritic ac(4);
    int action = ac.selectAction();
    ac.update(action, 1.0, 0.5);
    std::cout << "Selected action: " << action << std::endl;
    return 0;
}

Go

package main

import (
    "fmt"
    "math/rand"
    "time"
)

type ActorCritic struct {
    policy         []float64
    valueFunction  []float64
    alpha, beta    float64
}

func NewActorCritic(numActions int, alpha, beta float64) *ActorCritic {
    policy := make([]float64, numActions)
    valueFunction := make([]float64, numActions)
    for i := range policy {
        policy[i] = 1.0 / float64(numActions)
    }
    return &ActorCritic{policy, valueFunction, alpha, beta}
}

func (ac *ActorCritic) SelectAction() int {
    p := rand.Float64()
    cumulativeProbability := 0.0
    for i, prob := range ac.policy {
        cumulativeProbability += prob
        if p < cumulativeProbability {
            return i
        }
    }
    return len(ac.policy) - 1
}

func (ac *ActorCritic) Update(action int, reward, nextValue float64) {
    tdError := reward + nextValue - ac.valueFunction[action]
    ac.valueFunction[action] += ac.beta * tdError
    ac.policy[action] += ac.alpha * tdError * (1 - ac.policy[action])
    sum := 0.0
    for _, p := range ac.policy {
        sum += p
    }
    for i := range ac.policy {
        ac.policy[i] /= sum
    }
}

func main() {
    rand.Seed(time.Now().UnixNano())
    ac := NewActorCritic(4, 0.01, 0.01)
    action := ac.SelectAction()
    ac.Update(action, 1.0, 0.5)
    fmt.Printf("Selected action: %d\n", action)
}

八、实际服务应用场景代码框架

应用场景

        开发一个智能机器人控制系统,使用演员-评论家方法来训练机器人在特定环境中移动。我们将使用 OpenAI Gym 作为环境,使用 Python 实现整个系统。

项目结构

robot_controller/
├── main.py
├── actor_critic.py
├── environment.py
└── requirements.txt

requirements.txt

gym
tensorflow
numpy

actor_critic.py

import numpy as np
import tensorflow as tf

class ActorCritic:
    def __init__(self, state_size, action_size):
        self.state_size = state_size
        self.action_size = action_size
        self.actor = self.build_actor()
        self.critic = self.build_critic()

    def build_actor(self):
        model = tf.keras.Sequential([
            tf.keras.layers.Dense(24, activation='relu', input_shape=(self.state_size,)),
            tf.keras.layers.Dense(self.action_size, activation='softmax')
        ])
        model.compile(optimizer='adam', loss='categorical_crossentropy')
        return model

    def build_critic(self):
        model = tf.keras.Sequential([
            tf.keras.layers.Dense(24, activation='relu', input_shape=(self.state_size,)),
            tf.keras.layers.Dense(1, activation='linear')
        ])
        model.compile(optimizer='adam', loss='mean_squared_error')
        return model

    def choose_action(self, state):
        state = state.reshape([1, self.state_size])
        probabilities = self.actor.predict(state).flatten()
        return np.random.choice(self.action_size, p=probabilities)

    def train(self, state, action, reward, next_state):
        state = state.reshape([1, self.state_size])
        next_state = next_state.reshape([1, self.state_size])

        target = reward + 0.99 * self.critic.predict(next_state)
        td_error = target - self.critic.predict(state)

        # Update actor
        action_onehot = np.zeros(self.action_size)
        action_onehot[action] = 1
        self.actor.fit(state, action_onehot.reshape([1, self.action_size]), verbose=0)

        # Update critic
        self.critic.fit(state, target, verbose=0)

environment.py

import gym

class RobotEnvironment:
    def __init__(self):
        self.env = gym.make('CartPole-v1')

    def reset(self):
        return self.env.reset()

    def step(self, action):
        return self.env.step(action)

    def render(self):
        self.env.render()

    def close(self):
        self.env.close()

main.py

import numpy as np
from actor_critic import ActorCritic
from environment import RobotEnvironment

if __name__ == "__main__":
    env = RobotEnvironment()
    state_size = env.env.observation_space.shape[0]
    action_size = env.env.action_space.n
    agent = ActorCritic(state_size, action_size)

    for episode in range(1000):
        state = env.reset()
        done = False
        while not done:
            action = agent.choose_action(state)
            next_state, reward, done, _ = env.step(action)
            agent.train(state, action, reward, next_state)
            state = next_state
            env.render()

    env.close()

        演员-评论家方法是一种强大的强化学习算法,结合了策略和价值函数的优点,适用于多种复杂的环境。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2092474.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

嵌入式Linux C应用编程指南-进程与线程(速记版)

第九章 进程 9.1 进程与程序 9.1.1 main()函数由谁调用&#xff1f; C 语言程序总是从 main 函数开始执行&#xff0c;main()函数的原型是&#xff1a; int main(void) 或 int main(int argc, char *argv[])。 操作系统下的应用程序在运行 main()函数之前需要先执行一段引导代…

「青鸟」作家导演起飞计划,助人才转型,共铸电影市场新活力

2024年6月&#xff0c;《上海市电影高质量发展三年行动计划》发布「青鸟」作家导演起飞计划应运而生&#xff08;下文简称「青鸟计划」&#xff09;。作为全国首个协助作家跨界转型、用画面讲好故事的扶持平台&#xff0c;青鸟计划重视电影的文学性&#xff0c;通过专业人士搭建…

PyQt5:pycharm设置及使用

前言 PyQt5 是一个用于创建图形用户界面的 Python 库&#xff0c;它是 Qt 应用程序框架的 Python 绑定。Qt 是一个广泛使用的跨平台 C 框架&#xff0c;PyQt5 允许开发者使用 Python 编写图形界面应用程序&#xff0c;而不必直接使用 C。 为了方便地使用它&#xff0c;我尝试在…

springboot中分页插件的使用

安装依赖 这里有个版本的报错&#xff0c;循环依赖的问题&#xff0c;大家可以去具体查下&#xff0c;我这是sp3,所以要选择高点的版本&#xff0c;否则启动会报错 <!--mybatis起步依赖--><dependency><groupId>org.mybatis.spring.boot</groupId>&l…

5 本顶级LMM和AIGC书籍

本文回顾了五本探讨大型语言模型 (LLM) 和生成式人工智能等快速发展领域的关键书籍,为这些变革性技术提供了重要见解。 《NLP with Transformers》向读者介绍了用于自然语言处理的 Transformer 架构,并提供了使用 Hugging Face 进行文本分类等任务的实用指导。Sebastian Ras…

【kubernetes】蓝绿部署

概念&#xff1a; 蓝绿部署中&#xff0c;一共有两套系统&#xff1a;一套是正在提供服务系统&#xff0c;标记为“绿色”&#xff1b;另一套是准备发布的系统&#xff0c;标记为“蓝色”。 两套系统都是功能完善的、正在运行的系统&#xff0c;只是系统版本和对外服务情况不…

LVGL | VisualStuio PC模拟器

LVGL | VisualStuio PC模拟器 时间&#xff1a;2024年8月30日17:46:41 文章目录 LVGL | VisualStuio PC模拟器1.参考Visual Studio 版本LVGL版本 2.工程代码3.演示 1.参考 1.16.LVGL&#xff08;UI设计&#xff09;_军事研究员的博客-CSDN博客 2.嵌入式UI开发-lvglwsl2vscode系…

PMNet

Training will take approx. 1.5 days until convergence (trained with four V100 GPUs)&#xff0c;不建议复现

快速掌握业务全景、深入追踪分析异常关键指标的智慧能源开源了。

简介 AI视频监控平台, 是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒&#xff0c;省去繁琐重复的适配流程&#xff0c;实现芯片、算法、应用的全流程组合&#xff0c;减少企业级应用约 95%的开发成本&#xff0c;用户仅需在界面上…

python-word添加标题,段落,文字块

安装与使用python-docx 要使用必须先安装&#xff0c;要安装python-docx还是在Pycharm的终端&#xff08;Terminal&#xff09;中输入pip install python-docx&#xff0c;如下所示&#xff08;Successfully installed&#xff09;便是表示安装成功了。 新建与保存wor…

Unclutter - 苹果电脑(Mac)桌面文件笔记剪贴板管理工具

刚收拾好的电脑桌面马上又堆满了杂七杂八的文件&#xff1f;刚随手一记的笔记&#xff0c;回头却找不到了&#xff1f; 马上来认识一下 Unclutter&#xff0c;一款藏在 Mac 系统顶部的文件、笔记、剪贴板管理器。 安装后&#xff0c;用户只需要将鼠标指针移动到屏幕顶部&…

2024-2025-1秋学期课程任务和班课号

课表&#xff1a; ROS机器人程序设计 班课号&#xff1a;9074941 以ROS2 Jazzy为主题&#xff0c;以下是极简版本的《ROS机器人程序设计》教学进度表&#xff1a; 教学进度表 课程名称&#xff1a;ROS2 Jazzy程序设计 总学时&#xff1a;48学时&#xff08;讲课32学时&am…

ssrf进阶绕过思路与特殊玩法汇总

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文整理ssrf的绕过思路 本文随我的阅历实时更新 内容包含我搜集到的以及自创的绕过方法 挖掘判断 无回显判断是否访问URL 自己服务器上安装个python 启动监听服务 python -m http.server 有人访问之后就会留…

自建一款开源音乐服务-Navidrome

自建一款开源音乐服务-Navidrome Navidrome&#xff0c;一个开源的音乐服务器和播放器&#xff0c;提供了一个优雅且功能丰富的解决方案&#xff0c;让你的音乐库无论在何处都能触手可及。本文将带你一步步搭建自己的Navidrome音乐服务器&#xff0c;让你的音乐生活更加自由和…

【Windows学习笔记】1:OneCore和Windows API

1 OneCore 主流Windows跑在PC上&#xff0c;Xbox跑的是从Windows 2000分支出来的版本&#xff0c;Windows Phone跑的是基于Windows CE&#xff08;实时操作系统&#xff09;的版本。 为了维护和扩展这些code方便&#xff0c;微软将kernels和base platform集成在一起叫OneCore…

Python中如何import文件?

背景 我在一个语言大模型项目中&#xff0c;多个地方要使用API&#xff0c;这涉及到API密钥的设置&#xff0c;关键我想把项目开源出来&#xff0c;用户设置为自己密钥的时候想提供方便&#xff0c;仅修改一个文件即可&#xff0c;这样会提供方便。于是有了下面的探索 问题 目…

2024年“羊城杯”粤港澳大湾区网络安全大赛 AI部分

2024年“羊城杯”粤港澳大湾区网络安全大赛 AI部分 Author&#xff1a;Ns100kUp From&#xff1a;极安云科-服务中心 Data&#xff1a;2024/08/27 Copyright:本内容版权归属极安云科&#xff0c;未经授权不得以任何形式复制、转载、摘编和使用。培训、环境、资料、考证 公众号…

[QCTF2018]X-man-A face1

下载解压后发现一张缺失左上和左下的二维码&#xff0c;先补齐&#xff0c;扫扫看&#xff0c;请ps 在ps中打开我们需要把右上的回型图案复制&#xff0c;分别黏贴到左上和左下正确位置 先按W键调出魔术棒工具&#xff0c;我的容差已调好&#xff0c;不需要再调试&#xff0c;…

VS Code 一些好用的扩展插件

目录 1.改中文 2.不同注释色 3.显示Color颜色 4.显示尾部空格 5.快捷提示 6.调出颜色面板 7.git 提交记录 8.本地修改记录 9.文件比较 10.Post请求测试 11.实时显示代码的运行结果 12.自动修改标签名 13.在选中代码两边添加各种引号、括号 14.自动添加console.log…

BRAS(宽带接入服务器)简介

文章目录 BRAS的主要功能IP地址分配功能AAA&#xff08;认证、计费、授权&#xff09; BRAS的工作流程PPPoE&#xff08;基于以太网的点对点通讯协议&#xff09;vBRAS&#xff08;虚拟宽带远程接入服务器&#xff09; 宽带接入服务器&#xff08;Broadband Remote Access Serv…