◾Contextual LM

🔻Pretrained LM

사전학습 : unlabeled text corpora로 부터 유용한 language representation을 배우는 것
PLMs

[GitHub - thunlp/PLMpapers: Must-read Papers on pre-trained language models.]

🔸ELMo(Embeddings from Language Models)

Bi-LSTM 을 사전학습한 모델.
- forward LSTM 학습
  
  $$ L_{forward}=-\sum_{k=1}^N\log P(t_k|t_1,\cdots,t_{k-1};\Theta_{forward}) $$
- backward LSTM 학습
  
  $$ L_{backward}=-\sum_{k=N}^1\log P(t_k|t_N,\cdots,t_{k+1};\Theta_{backward}) $$
- 최종 목적함수
  
  $$ L_{total}=L_{forward}+L_{backward} $$

🔸GPT-1 (Generative Pre-trained Transformer)

Unlabeled text corpora에 대해 Causal LM 방식으로 사전학습을 진행

$$ L_{CLM}(\theta)=-\sum_{i=1}^N\log P(w_i|w_{1:i-1};\theta) $$
Decodner-only 아키텍쳐
Task별로 모델의 구조를 수정하여 fine-tuning해야 한다.

🔸BERT (Bidirectional Encoder Representations from Transformer)

Unlabeled text corpora에 대해 MLM, NSP 방법론으로 사전학습을 진행.
- MLM (Masked Language Model)
  
  $$ L_{MLM}(\theta)=-\sum i\in M\log P(w_i|w_1,\cdots,w_{i-1},[MASK],w_{i+1},\cdots,w_N;\theta) $$
- NSP (Next Sentence Prediction)
Encoder-only 아키텍쳐
downstream task별로 fine-tuning하여 성능 향상.

🔻Encoder-only models (auto-encoding models)

🔸XLNet (eXtended Language Network)

PLM (Permutation language modeling) 방법론을 도입
- 문장에서 token의 순서를 섞은 후, 원래 순서를 맞추는 방식으로 학습
- MLM이 기존에 존재하지 않는 ‘[MASK]’ 토큰을 사용하여 비현실적임을 지적 → MLM 제거
- permutation을 통해 양방향 context 고려 → Auto-regressive 방식의 단점 보완

🔸RoBERTa