DQN学习


Q表更新公式

$Q(state,action)=R(state,action)+\gamma*Max[Q(next_state,all_actions)]$

image-20250429164210987

image-20250429164302993

其中Replay Memory D是历史记录队列,是针对每次决策后的的状态值和当前值的一个记录

image-20250429170319680