1. Residual Attention Network for Image Classification - yspaik/pytorch_study GitHub Wiki
- ๋ ผ๋ฌธ ์ ๋ชฉ: Residual Attention Network for Image Classification
- ๋ ผ๋ฌธ ๋งํฌ: https://arxiv.org/abs/1704.06904
- ์์ค์ฝ๋: https://github.com/fwang91/residual-attention-network
- Introduction
- ๋ฐฐ๊ฒฝ
- Attention ๋ชจ๋ธ์ ์๊ณ์ด ๋ชจ๋ธ์ ๋ํด ์ ์ฌ์ฉ๋๊ณ ์์ง๋ง, ์ด๋ฏธ์ง ์ธ์ ๋ฑ์ feedforward network์๋ ์ ์ฌ์ฉ๋์ง ์์
- ์ต๊ทผ ์ด๋ฏธ์ง ์ธ์ ๊ธฐ์ ํฅ์์ผ๋ก ResNet์ ์ด์ฉํ์ฌ ์ธต์ ๊น๊ฒ ํ ์ ์์
โ ResNet์ ์ด์ฉํ
๊น์
CNN ๋ํด attention์ ์ ์ฉ ํ๊ณ ์ ๋ฐ๋ ํฅ์์ ๋๋ชจ
- ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ฑ๊ณผ
1. Stacked network structure
- ์ฌ๋ฌ Attention Module์ ์์ ๋ง๋ ๋ชจ๋ธ ๊ตฌ์กฐ. Attention Module์ ๋ค๋ฅธ ์ข ๋ฅ๋ก๋ ์ฐ๊ฒฐ๋ ์ ์์
2. Attention Residual Learning
- ๋จ์ํ Attention Module์ ์ฐ๊ฒฐํ๋ ๊ฒ๋ง์ผ๋ก๋ ์ ํ๋๊ฐ ๋จ์ด์ง.
- Residual Network๋ฅผ ๊ณ ๋ คํ์ฌ hundreds of layers์ ๋คํธ์ํฌ๋ฅผ ์ฐ๊ฒฐ
3. Bottom-up top-down feedforward attention
-
Bottom-up (๋ฐฐ๊ฒฝ์ ์ฐจ์ด ๋ฑ) attention ํ๋ ๋ฐฉ๋ฒ
-
Top-down (์ฌ์ ์ง์ ๋ฑ) attention ํ๋ ๋ฐฉ๋ฒ
โ ์์ ์ธต์ ๋๋ฆฌ๊ณ ์ ํ๋ ํฅ์, End-to-End ๊น์ ๋คํธ์ํฌ์ ์ฝ๊ฒ ์ ์ฉ, ํจ์จ์ ์ธ ๊ณ์ฐ
-
๊ทธ๋ฆผ์์ ์ฃผ๋ชฉํ ์
- ๋ค๋ฅธ Attention Module์์๋ ๋ค๋ฅธ attention mask
- ์ธต์ด ์์ attention module์์๋ ๋ฐฐ๊ฒฝ์ ๋น ๊ณต๊ฐ์ ์๊ฑฐ
- ์ธต์ด ๊น์ attention module์์๋ ํ์ ์ ๊ฐ์กฐ
-
Related Work
-
Residual Attention Network - ์ ์ ๋ชจ๋ธ
3.1. Attention Residual Learning
-
๋จ์ํ Attention Module์ CNN์ถ๋ ฅ๊ณผ ๊ณฑํ๊ธฐ๋ง ํ๋ฉด ์ ๋ฐ๋๊ฐ ๋จ์ด์ง
- ์ธต์ด ๊น์ด ์ง์๋ก gradient decent๊ฐ ์ฌ๋ผ์ง
- CNN์ ์ค์ํ value of features๋ฅผ ์ฝํ ๋ ๊ฐ๋ฅ์ฑ
-
Attention Residual Learning ๋์
-
Soft mask branch ๐ ๐ฅ โ [0, 1] ์ญํ
- enhance good features
- trunk features๋ก๋ถํฐ noise deduction
-
Stacked Attention Modules๊ฐ ์ฅ๋จ์ ์ ๋ณด์ํ์ฌ feature map์ ์ ๊ตํ๊ฒ ๋ค๋ฌ๊ฒ ๋จ โ ํ์ ๊ทธ๋ฆผ Layer๊ฐ ๊น์ด์ง์๋ก ์ ๊ตํด์ง
-
3.2. Soft Mask Branch
- ๋ ๊ฐ์ง ๊ธฐ๋ฅ์ ๊ฐ์งํ๋ ๊ตฌ์กฐ
-
- Fast feed-forward sweep -> ์ด๋ฏธ์ง ์ ์ฒด์ ์ ๋ณด๋ฅผ ํ์
-
- Top-down feedback step -> ์๋ feature map๊ณผ ์ด๋ฏธ์ง ์ ์ฒด์ ์ ๋ณด๋ฅผ ๊ฒฐํฉ
-
- Sigmoid : normalize output range [0,1]
3.3 Spatial Attention and Channel Attention
- Activation function ๋ณ๊ฒฝ โ Attention ์ ์ฝ์ ์ถ๊ฐ ๊ฐ๋ฅ
-
- Mixed Attention โ sigmoid
-
- Channel Attention โ ๋ชจ๋ ์์ญ์ channlel์ ๋ํ L2 normalization โ spatial ์ ๋ณด ์ญ์
-
- Spatial Attention โ ๊ฐ channel์์ feature map ์์์ ์ ๊ทํ โ sigmoid๋ฅผ ํตํด์ spatial ์ ๋ณด๋ง ๊ด๊ณ๋ mask ํ๋
-