◾Intro

🔻references

◾Main

🔻강화학습이란?

어떠한 환경에서 어떠한 행동을 했을 때 그것이 잘 된 것인지 잘못된 행동인지 나중에 판단하고 보상 또는 벌칙을 줌으로써 반복을 통해 더 나은 행동을 하도록 학습하게 하는 분야이다.
강화학습의 구성요소로는 크게 ‘환경 environment’와 ‘에이전트 agent’가 있다.
- 환경은 에이전트의 행동에 대한 보상을 내린다.
- agent는 특정 환경에서 행동(action)을 결정한다.

🔻강화학습의 배경

🔸마르코프 의사결정 (MDP : Markov Decision Process)

ref : Markov Property & Markov Chain (MDP)
강화학습은 MDP에 ‘학습’의 개념을 추가한 것이라 할 수 있다.
마르코프 가정(=마르코프 속성, Markov property, Markov assumption) : 어떤 시점의 상태는 그 이전의 상태에만 영향을 받는다.

$$ P(S_t|S_1,S_2,\cdots,S_{t-1})=P(S_t|S_{t-1}) $$
- T=1,2,3,…,t-1 의 상태를 모두 반영한 현재 상태의 확률과 t-1 시점의 상태만 반영한 현재 상태의 확률이 같다는 것은 결국 현재의 상태에 영향을 주는 게 t-1 시점 즉 바로 이전의 상태만임을 의미하는 것이다.
마르코프 과정 (Markov process) : 마르코프 속성을 만족하는 연속적인 일련의 상태(확률과정 stochastic process)이다.
- $<S_1,S_2,\cdots,S_t>$ : 상태의 집합
- state transition probability : $P_{s,s'}=\mathbb{P}[S_{t+1}=s'|S_t=s]$
마르코프 의사결정 (MDP) : 마르코프 과정을 기반으로 한 의사결정 모델이다.

$$ MDP=(S,A,P,R,\gamma) $$
- MDP는 상태 집합 S, 행동 집합 A, 상태전이확률 행렬 P, 보상함수 R, 할인율 $\gamma$ 로 구성되어 있다.
- $S=\lbrace s_1,\cdots,s_{|S|} \rbrace, S_t=s,S_{t+1}=s',(s,s')\in S$ : S는 상태 공간(state space)을 나타내고 소문자 s들은 환경에서 발생할 수 있는 모든 상태들이다. S_t 시점에 나타난 상태를 s라고 할 때 t+1 시점에 나타난 상태는 편의상 s’ 으로 표시한다.
- $A=\lbrace a_1,\cdots,a_{|A|}\rbrace,A_t=a,A_{t+1}=a',(a,a')\in A$ : S와 마찬가지이다.
- $P_{s,s'}^a=\mathbb{P}[S_{t+1}=s'|S_t=s,A_t=a]$ : 어떤 상태 s에서 어떤 행동 a가 정해졌을 때, 다음 상태가 나타날 확률을 의미한다.
- $R_{s}^a=\mathbb{E}[R_{t+1}|S_t=s,A_t=a]$ : 어떤 상태 s에서 어떤 행동 a를 했을 때 기대할 수 있는 보상이다.
- $\gamma$ : 할인율은 이전 시점들의 보상이 더 작아지게하는 요소이다. 이를 통해 최근의 정보에 더 높은 가중치를 둘 수 있다.
- $\pi(a|s)=\mathbb{P}[A_t=a|S_t=s]$ : 정책policy이라고 하며 어떤 상태에서는 어떤 행동을 취해야 보상이 커짐을 계속해서 갱신하는 규칙이다.
  - 에이전트는 정책에 따라 특정 상태에서 특정 행동을 하도록 결정하지만 대부분의 MDP에서는 예상치 못한 상황을 고려해 stochastic policy를 활용하기 때문에 정책이 결정한 행동을 수행할 확률을 eplison-greedy policy 에 따라 결정한다.

🔻강화학습에서의 평가(evaluation)

🔸상태 가치 함수 State-Value Function (V function)

어떤 상태가 가장 가치가 높은지 측정할 수 있게 해주는 함수이다.

$$ V_\pi(s)=\mathbb{E}\bigg[\sum_{i=0}\gamma^i R_{t+i+1}|S_t=s\bigg] $$
- 현재 상태 $s$ 에 대해 그동안의 보상들을 모두 더해 가치를 판단한다.

🔸상태-행동 가치 함수 Action-Value Function (Q function)

상태 가치 함수에서 행동까지 고려한 함수이다. 어떤 상태 s에서 어떤 행동 a를 했을 때의 가치를 측정한다.

$$ Q_\pi(s,a)=\mathbb{E}\bigg[\sum_i \gamma^i R_{t+i+1}|S_t=s,A_t=a\bigg] $$
- 특정 상태 s에서 어떤 행동을 수행했을 때 가장 큰 보상을 얻을 수 있는지 알 수 있다.