Reinforcement Learning with Code 【Code 2. Tabular Sarsa】
This note records how the author begin to learn RL. Both theoretical understanding and code practice are presented. Many material are referenced such as ZhaoShiyu’s Mathematical Foundation of Rei…
前提:已经安装好 golang
可正确的运行下面这段命令,来查看 go 的配置:
go env
输出示例: 以上是我本地(windows)环境下输出的配置信息(环境变量)
我们这次就针对每个配置信息进行一个说明,具体到每个字段是什么意思…
前言
本文关注在Pytorch中如何计算困惑度(ppl)为什么能用模型 loss 代表 ppl
如何计算
当给定一个分词后的序列 X ( x 0 , x 1 , … , x t ) X (x_0, x_1, \dots,x_t) X(x0,x1,…,xt), ppl 计算公式为: 其中 p θ ( x i ∣ x &l…