◾Intro

🔻references

스크린샷 2024-03-18 133332.png

스크린샷 2024-03-18 133337.png

스크린샷 2024-03-18 133343.png

Policy Iteration의 구성
- Policy Evaluation : 현재 policy의 value function을 일관되게 만든다. → 즉 value function이 수렴하게 만든다.
- Policy Improvement : 모든 state에 대해서 value function이 수렴한다면 Q-table를 갖고 greedy하게 policy를 업데이트한다.
GPI : sample로 주어진 데이터에 대해서만 현재 policy의 value function 근삿값을 사용한다.
- 기존의 PI는 full backup을 하기 때문에 모든 경우의 수에 대해 complete한 evaluation 후에 improvement를 진행하지만 GPI는 반복적으로 approximated value function을 계산해가며 PE와 PI를 반복한다.
- PE와 PI가 stabilize(안정)되면 Bellman optimality equation에 도달했다고 보기 때문에 그때의 value function과 policy가 최적이라고 판단하게 된다.