딥러닝 자연어처리 word2vec 개념을 8분안에 정리해드립니다ㅣ서울대 AI박사과정
◾개요
🔻기존 문자 인코딩방식의 문제
🔸정수 인코딩(Integer Encoding)
- Label encoding, one-hot encoding 등 정수로 문자를 표현하는 인코딩 방식
- 문제점
- 문장을 인코딩하는 경우, 단어 사이의 연관성, 즉 인코딩된 숫자들 간 연관성을 파악하기 어려움
- one-hot 인코딩의 경우, 메모리 문제도 있음 << **희소표현(sparse representation)**이기 때문.
🔻밀집 표현 Dense Representation
- One-hot encoding의 희소표현 문제를 보완
- 벡터의 차원을 원하는 대로 설정할 수 있음.
- 벡터가 연관성을 나타낼 수 있도록 데이터를 학습하여 표현함. >> Neural Network를 사용
◾Word2Vec
🔸개념
🔻Embadding