DeepLearning_Lec10 - 8BitsCoding/RobotMentor GitHub Wiki

YouTube

복습

XOR을 표현하기 위해서는 하나의 로직이 아닌 여러개의 로직을 겹쳐서 연산해야한다.

(참고) Sigmoid function을 Activation function이라고도 한다.

더 깊은 연산은 어떻게 하나??

(참고) Tensor Board를 통해서 시각화 하고싶다면??

더 깊은 연산은 곧 더 좋은 결과를 야기할까??

아래 그림에서 보겠지만 꼭 그렇지는 않다.

왜 그럴까??

BackPropagation은 단 수 (더 깊은 연산)을 할 경우 학습이 안되는 문제가 있다.

왜?

강의를 보면 정확하게 알 수 있다(9:20)

간단하게 정리하면 Sigmoid함수를 여러번 거치면서 Sigmoid특성을 타게된다. (0~1사이 값만 존재) 그러면서 학습이 안되는 현상이 발생하게 된다.

위 현상을 Vanishing gradient라고 한다.

이 문제로 인해 Machine Learning은 2차 겨울을 맞는다...

어떻게 해결했는데??

Sigmoid로 야기된 문제이니 Sigmoid말고 다른거 써보자?

ReLU(Rectified Linear Unit)의 등장

0보다 작은거는 0으로,

0보다 크다면 리니어하게 값을 적용!

단, 마지막 단은 Sigmoid를 써야한다.(0혹은 1로 값을 받아야하기 때문!)