word embedding 모델들이 가정하는 가설이다.
단어가 나타나는 주변 맥락이 유사하다면, 그 단어들의 뜻도 서로 유사할 것이라는 가설.
→ 단어의 의미는 그 단어가 사용되는 맥락에 의해 결정된다.
기존의 count-based 언오 모델들은 주변 맥락을 반영하지 못하기 때문에 이런 분포 가설을 만족하지 못했다.
단어를 고정된 길이의 dense vector로 표현하는 방법.
비슷한 의미를 가진 단어들이 벡터 공간에서 서로 가까이 또는 서로 유사한 방향에 위치할 수 있도록 벡터화하는 것이 목적이다.
[ https://medium.com/@hari4om/word-embedding-d816f643140]
e.g.) king과 queen은 서로 거리가 가깝다. (king - man + woman)과 같은 벡터 연산이 ‘queen’에 가까운 결과를 낼 수 있도록 임베딩이 되었다.
Vocabulary : 고유한 단어들의 집합.
word embedding의 종류
→ Word2Vec
용도 : corpus 전체의 통계 정보를 바탕으로 벡터 간의 dot-product가 co-occurrence 확률의 로그 값과 같아지도록 학습하여, 더 종합적인 문맥 정보를 활용할 수 있게 한다.
공존 확률 Co-occurrence Probability
$$ P_{ij}=P(j|i)=\frac{X_{ij}}{X_{i}}=\frac{X_{ij}}{\sum_kX_{ik}} $$
$$ J=\sum_{i,j=1}^Vf(X_{ij})(w_i^T\tilde{w_j}+b_i+b_j-\log X_{ij})^2 $$
V : vocabulary size
$f(X_{ij})$ : 단어 i, j 의 공존 횟수에 따라 주어지는 가중치. 희귀한 단어 쌍에 대한 영향력은 줄이고, 자주 등장하는 단어 쌍에 대한 영향력은 증가시킨다.