Dropout & Ensemble
김성훈 교수님의 강의를 보면서 딥러닝을 공부중.
정리를 하지 않고 보다 보니, 나중에 무얼 봤는지 조차 기억나지 않아서 간단히 블로그에 남긴다.
lec10-3: Dropout 과 앙상블 : https://youtu.be/wTxMsp22llc
overfitting : training dataset에 model이 fit된 상태
solution for overfitting
- more training data
- reduce the number of features (딥러닝에서는 상관없다고 함)
- regularization
여기서는 regualarization에 대해서 좀 더 설명
cost + (lamda)(sigma) w^2
여기서 (lamda)를 regularization strength라고 한다.
(lamda)의 값에 따라 강도를 이 0이면 끄는 것이고, 값에 따라 영향력이 달라진다고 보면 된다.
이것을 l2reg라고 한다.
(tensorflow code)
l2reg = 0.001 & tf.reduce_sum(tf.square(W))
그리고, NN(neural networks)에서는 overfitting을 해결하는 다른 방법이 있는데, 그것이 dropout이다.
딥네트워크에서 몇몇 노드를 끊어버리는 방법이다.
(단, 학습시에만 dropout을 사용하고, 실제로 적용할 때는 dropout을 사용하지 않는다.)
(tensorflow code)
dropout_rate = tf.placeeholder("float")
_L1 = tf.nn.relu(tf.add(tf.matmul(X, W1), B1)) <= 이렇게 한 노드를 넣어서
L1 = tf.nn.dropout(_L1, dropout_rate)
# train
sess.run(optimizer, feed_dict={X: batch_xs, batch_ys, dropout_rate : 0.7})
# evaluation
sess.run(optimizer, feed_dict={X: batch_xs, batch_ys, dropout_rate : 1})
마지막으로는 ensemble이 있다.
머신이 많고, 학습 데이터도 충분할 때 사용하는 방법이다.
training set 마다 초기값이 달라 결과도 조금씩 다르고, 모드 학습시킨 다음에 결합하는 것이다.
=> 여러명의 전문가에게 결과를 얻는 것을 보면 된다.