RNN - leemik3/tensorflow-2.0 GitHub Wiki

RNN (Recurrent Neural Network)

시간적으로 연속성이 있는 데이터를 처리하려고 고안된 인공 신경망
이전 은닉층이 현재 은닉층의 입력이 되면서 반복되는 순환 구조를 갖는다
기존 네트워크와 다른 점은 '기억을 갖는다'는 것
활용 분야
- 자연어 처리 : 음성 인식, 단어 의미 판단 및 대화 등 처리
- 시계열 데이터 처리
이론적으로는 long sequence data도 처리할 수 있지만, 실제로는 vanishing/exploding gradient problem으로 인해 몇 개의 step만 볼 수 있음 (long term dependency) -> 해결책 : LSTM, GRU

Reference

https://www.youtube.com/watch?v=bPRfnlG6dtU
[#26.Lec] (강추) Basic of RNN (Recurrent Neural Network) - 딥러닝 홀로서기

Time domain analaysis
Frequency domain analysis
Nearest neighbors analysis
Probabilistic Model : Language modeling (주어진 시퀀스에 대해서 그 다음에 나올 시퀀스가 뭔지에 대한 확률 모델링)
(S)AR(I)MA(X) models : time series의 autocorrelation
Decomposition : Time series = trend part + seasonal part + residuals -> 분해하는 것
Nonlinear Dynamics : (Ordinary / Partial / Stochastic) Differential Equation
Machine Learning

MLP : stack of fully connected layers

CNN : stack of Conv, Pool, FC layers

Sequential Data는 순서가 의미가 있는 데이터임! 이 order을 고려하기 위해서 이전 time step의 output과 새로운 input을 같이 고려하여 현재 step의 output을 만드는 것이다. x : 각 time step의 데이터

h에 행렬 연산(파란 네모 부분)을 한 뒤에 현재 input과 element-wise하게 더해준 뒤 nonlinear activation function 연산을 수행

Q) h에 연산하는 행렬은 같은 파라미터?
A) ㅇㅇ parameter sharing을 한다

Q) 들어오는 데이터의 길이가 다르다면?
A) 잘 안되겠죠? interpolation 등의 방법으로 처리한다.

Q) 데이터가 문장이면 어떻게 처리? (x가 문장인 경우임)
A) NLP에서 다루는 문제인데, 주로 하는 방법은, 문장을 구성하는 단어의 집합을 만들고 각 token을 one-hot encoding

many to one : 원하는 부분에 그냥 model 하나를 더 붙인다.
many to many : 마찬가지로 model(노란 네모 부분)을 붙임, parameter가 share되기 때문에 노란 model들의 파라미터가 모두 같음

Q) 그림이 한 epoch인가요?
A) 아니오. 해당 그림은 하나의 시퀀스에 대한 그림. Batch가 100개라면 해당 그림이 100개 있고 병렬적으로 수행한다고 생각하면 됨.