[NLP] word2vec
이전 장에서는 통계 기반의 방식으로 단어를 벡터화하였다. 전체 말뭉치에서 단어가 나타나는 맥락을 읽어들여서 통계화한 뒤, 이 정보를 벡터화하였다. 이번에 알아볼 기법은 추론 기반의 방식이다. 대표적인 추론 기반 기법으로 word2vec 방식이 있다. word2vec은 신경망을 이용하여 단어를 벡터화한다. 신경망을 훈련시키는 과정을 다시 생각해보자. 신경망에는 입력이 주어지고, 신경망을 통과시켜 어떤 출력을 만들었을 때, 타깃과의 비교를 통해 손실을 계산한다. word2vec에서는 입력이 맥락이고, 타깃이 중앙 단어이다. When I find myself in times of trouble. 여기서는 맥락을 다음과 같이 만들 수 있다. (윈도우가 1일 경우) When I find myself in time..
2023.02.13