Multi Head Attention - beyondnlp/nlp GitHub Wiki

멀티헤드 어텐션은 왜 나왔나

기존의 sequence labeling은 모두 이전의 상태에 의존적이다.
rnn도 예외가 아니다.
GPU가 아무리 많아도 구조적인 한계( 현재는 이전 상태의 결과를 입력으로 받는다 )때문에 속도 개선의 상한이 존재한다.
이를 병렬화 할수 있고 병렬화가 가능하면 속도 이득도 얻을 수 있다.
이런 목적을 얻기 위해 요즘 가징 각광받는 기술중 하나인 어텐션을 사용하여 sequence 정보까지도 계산하는 것을 목표로 개발되었다.

Transformer architecture

세개의 어텐션

트랜스포머 구조도를 보면 총 세개의 어텐션이 존재한다. 
세개의 어텐션은 인코더 어텐션, 디코더 어텐션, 인코더 디코더간 어텐션이다.

이번 챕터에서는 먼저 어텐션 구조를 살펴보고 각 어텐션별 입력을 고려하여 이야기를 전개하겠다.
인코더 어텐션의 입력 세가지는 다음과 같다
--- 논문의 내용 ---
encoder-decoder attention layer
이전 디코더 레이어로부터 쿼리가 들어오고
인코더의 아웃풋이 key, value로 들어온다.
이것은 디코더의 모든 포지션이 입력 시퀀스의 모든 포지션에 참여할 수 있다.
이 방식이 seq2seq 방식의 인코더 디코더 매커니즘을 모방한다.


encoder
인코더는 셀프 어텐션 레이어를 포함한다.
모든 keys, values, querys의 셀프 어텐션 레이어는 같은 변수 값이 유입된다.
입력들간의 상관관계를 적용하여 그 가중치를 다시 입력에 적용한다.


decoder
encoder와 유사하게 디코더의 셀프 어텐션 레이어는 디코더에서 각각의 포지션이 현재 위치까지의 모든 포지션에 참여한다.
( 인코더는 입력이 정해진 상태이기 때문에 모든 범위에 대해 어텐션을 확인할수 있지만 디코더는 현재 위치에서 앞에 있는 것에 대해서만 어텐션을 계산할수 있다. ) 
디코더에서 the auto-regressive property를 보장하기 위해 정보가 왼쪽 방향으로 흐르는 것을 막을 필요가 있다.
계산의 편의( softmax에 0이 입력되는 것을 막기 위해 ) 현재 위치의 다음 위치에 해당되는 곳에는 softmax 입력의 모든 값을 ( - 무한대 )로 마스킹하여 scaled dot-product attention 내부를 구현했다.

3개의 어텐션

def attention(Q, K, V):
        num = np.dot(Q, K.T)
        denum = np.sqrt(K.shape[0])   #Dk는 Key의 차원
        return np.dot(softmax(num / denum), V)

Attention Formular

위 수식과 아래 그림은 정확하게 동일하다.
수식을 먼저 설명하면
QK^t를 곱하여 ROOT dk(Dk는 Key의 차원)로 나눈다. 이 값을 softamx를 취해 나온 값에 V를 곱한다.
그림을 설명하면
Q와 K를 MatMul( Matrix Multiplcation )을 한 후 Scaling한다.
이후에 Mask(opt) -> 이것에 대해서는 따로 설명
이 값을 softmax를 거치고
V와 MatMul를 한다.
(dk는 스케일을 맞추기 위한 값으로 전체를 더한 것을 평균한 것으로 봐도 된다 )
수식에 대한 설명과 순서도에 대한 설명이 정확히 동일한 것을 볼 수 있다.
* Dk로 나누는 이유는 small gradient를 막기 위한 조치( 일반적으로 attention에는 dot production과 additive attention 두 가지가 있는데 transformer에는 scale이 들어가는 것을 제외하곤 dot production attention과 동일하다 )

![Scaled Dot Product Attention](https://github.com/beyondnlp/nlp/raw/master/scaled_dot_product_attention

multi head attention V, K, Q

.png)

왜 멀티 헤드인가

어텐션이 처음 나왔을때 어텐션은 전체 임베딩에 하나의 weight값을 적용하였다.
300차원이건 200차원이건 동일하다
그런데 이 컬럼벡터를 몇개의 조각으로 어텐션을 적용하면 좀 더 효과적이지 않을까 이것이 멀티헤드 어텐션의 도입점이다

multi head attention

multi head attention step

self attention의 경우 Q,K,V가 모두 동일하게 입력 임베딩을 사용한다.
아래 이미지는 그중 하나(Q)를 기본으로 하고 마지막 내적만 Q*K로 가정한다.

Multi Head Attention - beyondnlp/nlp GitHub Wiki

멀티헤드 어텐션은 왜 나왔나

세개의 어텐션

왜 멀티 헤드인가

reference