◾Intro

🔻references

◾Main

🔸정의

간단 설명 : 고차원 공간에서 무작위로 서로 다른 벡터 2 개를 더하면 두 벡터는 높은 확률로 approximate orthogonality를 갖는다. 즉, 높은 확률로 두 벡터의 dot product가 0이고, 따라서 두 벡터를 서로에게 영향을 주지 못한다.

🔸Absolute Position Encoding

vanilla Transformer에서 content embedding과 positional encoding을 단순히 더하여 학습시키는 것도 blessing of dimensionality 덕분에 가능하다.

content embeddings와 absolute position encodings가 서로 직교할 가능성이 매우 높기 때문에 둘을 더하여도 모델이 content와 position 정보를 따로 잘 학습할 수 있을 것이라 기대한다.

◾Code