-
ref : Markov Property & Markov Chain (MDP)
-
강화학습은 MDP에 ‘학습’의 개념을 추가한 것이라 할 수 있다.
-
마르코프 가정(=마르코프 속성, Markov property, Markov assumption) : 어떤 시점의 상태는 그 이전의 상태에만 영향을 받는다.
$$
P(S_t|S_1,S_2,\cdots,S_{t-1})=P(S_t|S_{t-1})
$$
- T=1,2,3,…,t-1 의 상태를 모두 반영한 현재 상태의 확률과 t-1 시점의 상태만 반영한 현재 상태의 확률이 같다는 것은 결국 현재의 상태에 영향을 주는 게 t-1 시점 즉 바로 이전의 상태만임을 의미하는 것이다.
-
마르코프 과정 (Markov process) : 마르코프 속성을 만족하는 연속적인 일련의 상태(확률과정 stochastic process)이다.
- $<S_1,S_2,\cdots,S_t>$ : 상태의 집합
- state transition probability : $P_{s,s'}=\mathbb{P}[S_{t+1}=s'|S_t=s]$
-
마르코프 의사결정 (MDP) : 마르코프 과정을 기반으로 한 의사결정 모델이다.
$$
MDP=(S,A,P,R,\gamma)
$$
- MDP는 상태 집합 S, 행동 집합 A, 상태전이확률 행렬 P, 보상함수 R, 할인율 $\gamma$ 로 구성되어 있다.
- $S=\lbrace s_1,\cdots,s_{|S|} \rbrace, S_t=s,S_{t+1}=s',(s,s')\in S$ : S는 상태 공간(state space)을 나타내고 소문자 s들은 환경에서 발생할 수 있는 모든 상태들이다. S_t 시점에 나타난 상태를 s라고 할 때 t+1 시점에 나타난 상태는 편의상 s’ 으로 표시한다.
- $A=\lbrace a_1,\cdots,a_{|A|}\rbrace,A_t=a,A_{t+1}=a',(a,a')\in A$ : S와 마찬가지이다.
- $P_{s,s'}^a=\mathbb{P}[S_{t+1}=s'|S_t=s,A_t=a]$ : 어떤 상태 s에서 어떤 행동 a가 정해졌을 때, 다음 상태가 나타날 확률을 의미한다.
- $R_{s}^a=\mathbb{E}[R_{t+1}|S_t=s,A_t=a]$ : 어떤 상태 s에서 어떤 행동 a를 했을 때 기대할 수 있는 보상이다.
- $\gamma$ : 할인율은 이전 시점들의 보상이 더 작아지게하는 요소이다. 이를 통해 최근의 정보에 더 높은 가중치를 둘 수 있다.
- $\pi(a|s)=\mathbb{P}[A_t=a|S_t=s]$ : 정책policy이라고 하며 어떤 상태에서는 어떤 행동을 취해야 보상이 커짐을 계속해서 갱신하는 규칙이다.
- 에이전트는 정책에 따라 특정 상태에서 특정 행동을 하도록 결정하지만 대부분의 MDP에서는 예상치 못한 상황을 고려해 stochastic policy를 활용하기 때문에 정책이 결정한 행동을 수행할 확률을 eplison-greedy policy 에 따라 결정한다.