Transformer - beyondnlp/nlp GitHub Wiki

Transformer 3개의 Multi-Head Attention이 있다.

(1). Input Embedding을 입력으로 받는 MH Attention (2). Output Embedding을 입력으로 받는 MH Attention (3). 위 두가지를 입력으로 받는 MH Attention

Scaled Dot-Product Attention

Scale : Embedding된 값 중 특정 값이 너무 큰 값이 오면 학습에 지장을 주기 때문에 normalizing을 해준다.
Mask(opt) : (1)은 입력을 모두 사용하기 때문에 mask를 사용할 필요가 없는데 2, 3번은 순차적으로 생성을 하는 방식이라서 유효한 범위에 대한 마스킹이 필요하다( 즉 시작은 1 0 0 0 두번째는 1 1 0 0, 세번째는 1 1 1 0 , 네번째는 1 1 1 1 으로 유효범위를 마스킹한다 )
Softmax : 계산된 값을 가중치에 따라 확률로 표현( 확률 : 합이 1 )

Multi-Head Atteion에서

Linear은 Fully Connected Netword를 의미
MH은 3개의 input이 존재 ( Q, K, V )

Transformer Formular

root(Dk) = scaling Factor

(1). Query : Input, Key : Input Vec, Value : Input (2). Query : Output, Key : Output, Value : Output Hidden (3). Query : Output Vec, Key : Input Vec , Value : Input Hidden

Transformer Demension

https://jalammar.github.io/illustrated-transformer/