word embedding 모델들이 가정하는 가설이다.
단어가 나타나는 주변 맥락이 유사하다면, 그 단어들의 뜻도 서로 유사할 것이라는 가설.
→ 단어의 의미는 그 단어가 사용되는 맥락에 의해 결정된다.
기존의 count-based 언어 모델들은 주변 맥락을 반영하지 못하기 때문에 이런 분포 가설을 만족하지 못했다.
단어를 고정된 길이의 dense vector로 표현하는 방법.
+) vector = List[float]
+) dense vector? List의 값에 0이 거의 없는 vector.
비슷한 의미를 가진 단어들이 벡터 공간에서 서로 가까이 또는 서로 유사한 방향에 위치할 수 있도록 단어를 벡터화하는 것이 목적이다.
![[ https://medium.com/@hari4om/word-embedding-d816f643140 ]](attachment:1f4cb7a3-a818-469c-9fa5-444167c93028:image.png)
[ https://medium.com/@hari4om/word-embedding-d816f643140 ]
e.g.) king과 queen은 서로 거리가 가깝다. (king - man + woman)과 같은 벡터 연산이 ‘queen’에 가까운 결과를 낼 수 있도록 임베딩이 되었다. (king-man+woman) 은 단순한 연산처럼 보이지만 Cosine Similarity 관점에서 woman, queen에 유사하다는 의미를 갖게 된다.

Vocabulary : 고유한 단어들의 집합.
word embedding의 종류
→ Word2Vec
용도 : corpus 전체의 통계 정보를 바탕으로 벡터 간의 dot-product가 co-occurrence 확률의 로그 값과 같아지도록 학습하여, 더 종합적인 문맥 정보를 활용할 수 있게 한다.
공존 확률 Co-occurrence Probability
$$ P_{ij}=P(j|i)=\frac{X_{ij}}{X_{i}}=\frac{X_{ij}}{\sum_kX_{ik}} $$
$$ J=\sum_{i,j=1}^Vf(X_{ij})(w_i^T\tilde{w_j}+b_i+b_j-\log X_{ij})^2 $$
V : vocabulary size
$f(X_{ij})$ : 단어 i, j 의 공존 횟수에 따라 주어지는 가중치. 희귀한 단어 쌍에 대한 영향력은 줄이고, 자주 등장하는 단어 쌍에 대한 영향력은 증가시킨다.
