- ppo称作近邻策略优化算法,是典型的Actor- critic算法,即以两个网络为输入,并可以同时更新两者参数;在RLHF中我们更关注actor网络的更新方式,其损失函数由三部分构成,分别是:1,新旧状态输出比;2,优势函数,3,输入惩罚因子。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1185788.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!