框架
AHTT可被定义为
AHTT的元素表示智能体在动作为
a
l
m
n
a_{lmn}
almn的情况下从张量状态
s
i
j
k
s_{ijk}
sijk转移到另一个张量状态
s
i
j
k
′
s_{ijk}^{'}
sijk′的概率
通过数理统计首先得到多变量频率张量
状态
s
i
j
k
s_{ijk}
sijk的值函数等于策略
π
t
e
n
s
o
r
\pi_{tensor}
πtensor下状态-动作对值函数的值之和,蓝色框中的状态-动作对值函数可以定义为等式15
张量策略求解包括两个过程,即TPE和TPI
体会
“规则平面”的子图字太小,图11的图注有错的记号。作者未公布代码