这些方法不同于以前研究的方法,也很少使用。在这种学习算法中,我们需要在一段时间内训练一个代理,以便它可以与特定环境交互。代理将遵循一系列与环境进行交互的策略,然后在观察环境之后,它将针对环境的当前状态采取措施。以下是强化学习方法的主要步骤。
-
第1步-首先,我们需要准备具有一些初始策略的代理。
-
步骤2 -然后观察环境及其当前状态。
-
第3步-接下来,根据环境的当前状态选择最佳策略并执行重要操作。
-
第4步-现在,代理可以根据其在上一步中采取的行动获得相应的奖励或惩罚。
-
步骤5 -现在,我们可以根据需要更新策略。
-
步骤6 -最后,重复步骤2-5,直到代理学习并采用最佳策略为止。
Python机器学习 中的 Reinforcement Le - 无涯教程网无涯教程网提供这些方法不同于以前研究的方法,也很少使用。在这种学习算法中,我们需要在一段时间内训...https://www.learnfk.com/python-machine-learning/machine-learning-with-python-reinforcement-learning.html