◾One-hot encoding

◾SLM: Statistical LM

단어가 가지는 확률 분포를 기반으로 각 단어의 조합을 예측하는 전통적인 언어 모델.
- 이전 시퀀스에 대한 조건부 확률에 기반하여 다음 단어를 예측한다.

단순 통계 기반, count 기반의 조건부확률은 다양한 데이터가 없다면 긴 시퀀스에서 올바른 단어를 예측할 수 없다.

e.g.) PyTorch Docs를 학습해서 “PyTorch is an optimized tensor library for deep learning using GPUs and CPUs.” 라는 시퀀스는 생성할 수 있지만, 이 문장을 다양한 형태로 생성할 수는 없다.

“PyTorch is an optimized tensor open-source library”라는 시퀀스를 생성하고 싶어도 P(”PyTorch is an optimized tensor open-source” | “PyTorch is an optimized tensor")에서 count(”PyTorch is an optimized tensor open-source")=0 이기 때문에 생성될 수 없다.

Sparsity Problem of Count-based SLM 의 문제점을 보완.
N 개의 연속된 시퀀스를 기반으로 통계적 언어 모델링을 수행하는 것이다.
Markov assumption : T 시점의 확률이 T-1 시점에만 의존한다는 가정, 속성. → 🔸Markov Property
- Uni-gram : $P(w_i|w_{i-1})$. i 번째 토큰을 생성하기 위한 정보가 i-1 번째 토큰에 모두 반영되어 있다고 가정.
- Bi-gram : $P(w_i|w_{i-1}, w_{i-2})$
- Tri-gram : $P(w_i|w_{i-1}, w_{i-2}, w_{i-3})$
… N-gram : $P(W)=\prod_{i=1}^T P(w_i|w_{i-(N-1)},\cdots,w_{i-1})$
Trade-off
- N의 크기를 키우면? 성능은 좋아지지만, N을 키울수록 결국 희소문제를 직면 + 모델 사이즈 증대
- N을 작게 하면? 희소문제를 완화할 수 있지만 정확도가 떨어진다.

국소 표현 (Local Representation) : 단어 그 자체만 보고, 특정 값을 매핑하여 단어를 표현한다.

e.g. one-hot encodig
- 단점 : 희소 행렬 문제, 단어 간 연관성/유사성을 표현하기 어렵다.