가중치 초기화(Weight Initialization)가 필요한 이유와 Xavier & He 초기화

개요

신경망 모델의 목적은 손실(Loss)을 최소화하는 것으로, 이를 위해 경사 하강법으로 파라미터를 최적화합니다. 학습 시작 시 가중치를 어떻게 초기화하느냐에 따라 학습 속도와 수렴 방향이 크게 달라집니다.

Untitled 62.png

파라미터에 다른 값을 부여하기 위해서 가장 쉽게 생각해 볼 수 있는 방법은 확률분포를 사용하는 것입니다.
Std1, Sigmoid를 사용한 경우
- 0, 1에 가까운 값만 출력
- 활성화 값이 0, 1에 가까울 때, Sigmoid 기준 기울기가 0에 가까워지므로 학습이 거의 일어나지 않게 되어 Gradient Vanishing 현상 발생
Std 0.01, Sigmoid를 사용한 경우
- 대부분의 출력 값이 0.5 주변에 위치하며, 따라서 Gradient Vanishing 현상을 방지할 수 있음
- 출력 값이 비슷하면 노드를 여러개 구성하는 의미가 사라지게 됨

사비에르 글로로트(Xavier Glorot)가 제안
고정된 표준편차를 사용하지 않음, 은닉층의 노드 수에 맞춰 표준편차를 선정

$n : num of prev hidden nodes m : num of curr hidden nodes σ = \frac{2}{n + m}$
적용 후

Code

# TensorFlow
tf.keras.initializers.GlorotNormal()
 
# PyTorch
torch.nn.init.xavier_normal_()

카이밍 히(Kaiming He)가 제안
ReLU함수를 활성화 함수로 사용할 때 추천되는 초기화 방법

$n : num of prev hidden nodes σ = \frac{2}{n}$
적용 전
적용 후

Code

# TensorFlow
tf.keras.initializers.HeNormal()
 
# PyTorch
torch.nn.init.kaiming_normal_()