vanilla Transformer에서 content embedding과 positional encoding을 단순히 더하여 학습시키는 것도 blessing of dimensionality 덕분에 가능하다.
content embeddings와 absolute position encodings가 서로 직교할 가능성이 매우 높기 때문에 둘을 더하여도 모델이 content와 position 정보를 따로 잘 학습할 수 있을 것이라 기대한다.