时序差分学习(Temporal Difference Learning)强化学习中常用时序差分学习来更新模型,时序差分学习的一般流程是:
1.模型根据获取到的状态 st 决定采取动作 at 。
2.环境在执行动作 at 后会给出对应的奖励
2021-04-16