Related to: Architectures
개요
RNN(Recurrent Neural Networks)은 구조상 시간 축을 따라 반복된 곱연산이 발생합니다. 이로 인해 값이 무한정 커지거나 작아지는 문제가 발생할 수 있으며, 이를 방지하기 위해 활성화 함수로 sigmoid 또는 tanh를 사용합니다.
핵심 개념
- RNN은 구조상 반복된 곱연산이 발생한다. 따라서 뒤로 갈수록 값이 무한정 커질 수 밖에 없다.
- 하지만 값을 tanh 또는 sigmoid를 거쳐가게 하면 sigmoid의 경우 항상 [0,1]사이의 값 되도록 보장할 수 있고 tanh의 경우 [-1,1]사이의 값이 되도록 보장할 수 있다.
- 그러므로 계속 곱연산이 일어나도 결과 값이 발산하지 않을 수 있다.
관련 개념
- RNN(Recurrent Neural Networks) — RNN 구조와 hidden state 전파 방식
- 하이퍼볼릭 탄젠트(Hyperbolic Tangent) — tanh 함수의 정의와 특성
- 가중치 초기화(Weight Initialization)가 필요한 이유와 Xavier & He 초기화 — 발산 방지를 위한 또 다른 접근