20. RNN

학교 공부/기계학습개론

경북대학교컴퓨터학부 2022. 12. 14. 20:54

📌 Time series data

📌 Recurrent Neurons

📌 Recurrent Neurons

시간 $t$일 때, recurrent neuron은 2개의 input을 받는다
- $x(t)$
- $y(t-1)$ : 이전 시간의 output
- $y(t)=\theta(W_x^t x(t)+W_y^T y(t-1) +b) $. theta는 activation function
노드는 1개이지만, 이해하기 위해서 펼쳐놓은 것
input, output의 개수는 여러 개가 될 수 있다

📌 Memory cells

📌 Recurrent Neural Network types

📌 Training RNNs

unroll RNN이 필요하다
Backpropagation through time(BPTT)
1. unrolled net에 대해 forward pass를 진행한다
2. cost function C()를 사용하여 output sequence를 평가한다
3. gradient를 backward로 전파한다(실선)
4. update model parameter
weight, bias는 time step 상관없이 동일하다!

📌 Deep RNNS

📌 Problem in handling LONG sequences

gradient vanish(weight가 1보다 작을 때) 또는 gradient 폭발(weight가 1보다 클 때) RNN은 DMLP, CNN보다 더 심각하다. (긴 샘플이 자주 발생하고, 가중치 공유 때문에 같은 값을 계속 곱하기 때문이다)
결과적으로 sequence의 first input을 잊어버리게 된다

📌 Unstable gradients problem

Non-saturating activation function -> saturating
- ReLU는 해결책이 되지 않는다. 왜냐하면 같은 weight가 계속해서 곱해지게 될텐데, 그렇게 되다보면 output은 explode하게 된다. 그래서 nonsaturating activation function을 사용하는 것은 도와주지 못한다
- hyperbolic tangent와 같은 saturating activation function을 사용하자
Batch Normalization -> Layer Normalization
- 가로방향(batch) Normalization을 통해 조정해봤자 다시 들어오는 input은 평균과 표준편차가 다르다. 즉, batch normalization은 의미가 없다.
- 따라서 세로방향(layer) Normalization을 하여 Feature demension 중심으로 normalization을 진행하는 것이 효율적이다

📌 LSTM cells

📌 GRU cell

LSTM Cell에서의 두 상태 벡터 $C_t$와 $h_t$가 하나의 벡터 로 합쳐졌다.
삭제 게이트와 입력 게이트가 리셋 게이트와 업데이트 게이트로 변화되었다.
하나의 gate controller인 $z_t$가 forget과 input 게이트(gate)를 모두 제어한다. $z_t$가 1을 출력하면 forget 게이트가 열리고 input 게이트가 닫히며, $z_t$가 0일 경우 반대로 forget 게이트가 닫히고 input 게이트가 열린다. 즉, 이전($t-1$)의 기억이 저장 될때 마다 타임 스텝 $t$의 입력은 삭제된다.
GRU 셀은 output 게이트가 없어 전체 상태 벡터 $h_t$가 타임 스텝마다 출력되며, 이전 상태 $h_{t-1}$의 어느 부분이 출력될지 제어하는 새로운 gate controller인 $r_t$가 있다.