◾분포 가설 (distributional hypothesis)

word embedding 모델들이 가정하는 가설이다.
단어가 나타나는 주변 맥락이 유사하다면, 그 단어들의 뜻도 서로 유사할 것이라는 가설.

→ 단어의 의미는 그 단어가 사용되는 맥락에 의해 결정된다.
기존의 count-based 언오 모델들은 주변 맥락을 반영하지 못하기 때문에 이런 분포 가설을 만족하지 못했다.

단어를 고정된 길이의 dense vector로 표현하는 방법.
비슷한 의미를 가진 단어들이 벡터 공간에서 서로 가까이 또는 서로 유사한 방향에 위치할 수 있도록 벡터화하는 것이 목적이다.

[ https://medium.com/@hari4om/word-embedding-d816f643140]

e.g.) king과 queen은 서로 거리가 가깝다. (king - man + woman)과 같은 벡터 연산이 ‘queen’에 가까운 결과를 낼 수 있도록 임베딩이 되었다.
Vocabulary : 고유한 단어들의 집합.
word embedding의 종류
- Count-based : BoW, TF-IDF
- Prediction-based : 신경망을 통해 vocabulary에 대한 벡터를 학습한 것. Word2Vec, FastText, Neural Probabilistic Language Models
- Others : GloVe (count-based와 prediction-based를 결합한 방법론)

◾의미기반 언어 지식 표현 체계

용도 : corpus 전체의 통계 정보를 바탕으로 벡터 간의 dot-product가 co-occurrence 확률의 로그 값과 같아지도록 학습하여, 더 종합적인 문맥 정보를 활용할 수 있게 한다.
공존 확률 Co-occurrence Probability

$$ P_{ij}=P(j|i)=\frac{X_{ij}}{X_{i}}=\frac{X_{ij}}{\sum_kX_{ik}} $$
- $X_{ij}$ : j 라는 단어가 i 단어의 문맥에 동시에 등장하는 횟수에 대한 행렬
$$ J=\sum_{i,j=1}^Vf(X_{ij})(w_i^T\tilde{w_j}+b_i+b_j-\log X_{ij})^2 $$
- V : vocabulary size
- $f(X_{ij})$ : 단어 i, j 의 공존 횟수에 따라 주어지는 가중치. 희귀한 단어 쌍에 대한 영향력은 줄이고, 자주 등장하는 단어 쌍에 대한 영향력은 증가시킨다.

용도 : 문맥 예측 (Prediction-based) 기반으로 서브워드 정보를 포함하는 단어 벡터 학습 및 표현
- 단어를 n-gram subword로 분해하여 단어의 ‘형태학적 특성’까지 학습하는 것을 목표로 한다.
- Word2Vec의 문제점인 OOV(Out of Vocabulary) 를 극복할 수 있다.
- Negative Sampling을 통해 학습 과정을 최적화한다.