사전학습 : unlabeled text corpora로 부터 유용한 language representation을 배우는 것
PLMs
[GitHub - thunlp/PLMpapers: Must-read Papers on pre-trained language models.]
forward LSTM 학습
$$ L_{forward}=-\sum_{k=1}^N\log P(t_k|t_1,\cdots,t_{k-1};\Theta_{forward}) $$
backward LSTM 학습
$$ L_{backward}=-\sum_{k=N}^1\log P(t_k|t_N,\cdots,t_{k+1};\Theta_{backward}) $$
최종 목적함수
$$ L_{total}=L_{forward}+L_{backward} $$
Unlabeled text corpora에 대해 Causal LM 방식으로 사전학습을 진행
$$ L_{CLM}(\theta)=-\sum_{i=1}^N\log P(w_i|w_{1:i-1};\theta) $$
Decodner-only 아키텍쳐
Task별로 모델의 구조를 수정하여 fine-tuning해야 한다.
MLM (Masked Language Model)
$$ L_{MLM}(\theta)=-\sum i\in M\log P(w_i|w_1,\cdots,w_{i-1},[MASK],w_{i+1},\cdots,w_N;\theta) $$
NSP (Next Sentence Prediction)