[NLP] LSTM(Long Short-Term Memory)
지난 장에서는 RNN이 무엇인지 살펴보고, RNN을 통해서 어떻게 모델이 장기 기억을 가져가는지 알아보았다. 하지만 RNN은 Time이 늘어짐에 따라 역전파 과정에서 기울기 소실/폭발이 일어날 수 있다는 문제점이 있다. 이번 장에서는 이러한 문제점을 극복할 수 있는 LSTM을 알아보고 구현하도록 해보자. LSTM은 Long Short-Term Memory의 약자로 '기억 셀'이라는 요소를 통해서 시계열에서 어떤 지점을 기억하고, 잊을지에 대해서도 학습하는 더 발전된 형태의 순환신경망이다. 기존 RNN에서는 이전 타임(t-1)에서 은닉 상태(h_t-1)를 전달받아서 현재(t)의 은닉 상태(h_t)를 계산해냈다. LSTM에서는 이 중간 계산 과정에 여러가지 게이트들(f, g, i, o)을 추가해서 어떤 시점..
2023.02.25