Agent는 상,하,좌,우로 한 칸씩 움직일 수 있다.
$A=\lbrace \text{north, south, east, west} \rbrace$
Noisy Movement : agent는 항상 계획한 대로만 움직이지는 않는다. → Action에는 랜덤성이 적용된다.
e.g.) 만약 north로 움직이라는 action을 agent가 받어라도, 실제로 action의 확률은 north(80%), west(10%), east(10%)처럼 나타난다. (agent가 만약 이전에 north로 이동했다면, 왔던 길인 south는 선택지에 없다. 이유는 아래 small negative rewards 참고)
만약 agent의 action 방향이 wall(벽)(=north)이라면 agent는 “stays” 행동을 취한다.
State Transition Probability : Action의 Noisy movement에 대한 확률
select an action for each state to maximize the total sum of rewards.
Policy : 각 state이 취하는 action ($\pi$로 표현한다.)
e.g.) state(1,1)의 policy가 north이면 action은 north로 결정된다. 그러나 stochastic grid world에서는 state transition probability에 의해 랜덤성이 추가됨.
Optimal Policy : total sum of rewards를 maximize하는 Policy
agent가 state의 policy대로 action을 취한다.
⇒ policy가 정해지면 하나의 episode만 나타난다.