计算每个状态下 执行某一动作的概率将最初的概率表更新直到概率表的变化微乎其微时终止从而得到最优路线这里介绍以下softmax函数:特征对概率的影响是乘性的假设有一个数组V,Vi表示V中的第i个元素,那么这个元素的softmax数值为:$$S
2021-02-21