기존의 PI는 full backup을 하기 때문에 모든 경우의 수에 대해 complete한 evaluation 후에 improvement를 진행하지만 GPI는 반복적으로 approximated value function을 계산해가며 PE와 PI를 반복한다.
PE와 PI가 stabilize(안정)되면 Bellman optimality equation에 도달했다고 보기 때문에 그때의 value function과 policy가 최적이라고 판단하게 된다.