sample: 如 70% 的概率向左 20%的概率向右 10% 的概率开火 不是left 分数最高,就直接向左。而是随机sample total reward (return) R 就是优化的目标,分数越高约好 -total reward= loss Policy Gradient 当环境是s 时