+) backup diagram
수식)
$$ v_\pi(s)=\mathbb{E}\pi[G_t|S_t=s] =\sum{a}\pi(a|s)q_\pi(s,a) $$
현재 state이 s라고 할 때, s에서 출발하여 policy를 따라 나올 수 있는 모든 return에 대한 기댓값
$$ q_\pi(s,a)=\mathbb{E}_\pi[G_t|S_t=s,A_t=a] $$
14분39초