Depthwise Separable Convolution = Depthwise conv + Pointwise conv
์์ด๋์ด: spatialํ ์ ๋ณด์ channel๋ณ ์ ๋ณด๋ฅผ convolution ์ฐ์ฐ์์ ๋ถ๋ฆฌ์ํค๊ณ ์ ํ๋ค.
Depthwise conv : Channel ๋ณ๋ก convolution ์ฐ์ฐ์ ์๋ก ๋ ๋ฆฝ์ ์ผ๋ก ์งํํ์ฌ ๋ง์น HxWxC ์ฑ๋์ HxWx1 ์ฑ๋์ C๋ฒ ์ฐ์ฐํ๋ ๊ฒ๊ณผ ๊ฐ๋ค. โ ์๋ก ๋ค๋ฅธ ์ฑ๋์ ์ ๋ณด๊ฐ ์ํฅ์ ๋ผ์น์ง ์๋๋ค = Spatial ์ ๋ณด๋ง์ผ๋ก ํน์ง์ ์ถ์ถํ๊ณ ์๋ค.
[kernel academy - CV Basic]
Pointwise conv : ๊ธฐ์กด์ 1x1 convolution layer ์ฐ์ฐ๊ณผ ๋์ผ โ ์ฑ๋๋ณ ์ ๋ณด๋ฅผ ์ทจํฉํ๋ค.
Squeeze and Excitation : Feature๋ฅผ ์์ถํ๋ค๊ฐ ์ฆํญํ๋ ๊ณผ์ ์ ํตํด Feature์ ์ค์๋๋ฅผ ์ฌ์กฐ์ ํ๋ ๊ธฐ๋ฒ
[[1709.01507] Squeeze-and-Excitation Networks]
(C, H, W)
(1, 1, C)
ํฌ๊ธฐ๋ก ์์ถํ๋ค. โ ๊ฐ ์ฑ๋์ ์ค์ํ ์ ๋ณด๋ง ๋ด๊ณ ์๋ค.baseline EfficientNet์ ํฌ๊ธฐ๋ฅผ ์ด๋ป๊ฒ ํค์์ผ ํจ์จ์ ์ผ์ง๋ฅผ ์คํ
d
(depth) : baseline EfficientNet์ layer ๊น์ด๋ฅผ 1์ด๋ผ ํ์ ๋ d=2๋ฉด ๊น์ด๋ฅผ 2๋ฐฐ ๋๋ฆฐ ๊ฒ์ด๋ค.r
(resolution) : ๋ง์ฐฌ๊ฐ์ง๋ก baseline์ 1์ด๋ผ ํ์ ๋ ๋ค๋ฅธ ๋ชจ๋ธ์ resolution ๋น์จโ depth์ resolution์ ๋๋ฆด์๋ก ์ ํ๋๊ฐ ํฅ์๋์๋ค. = Resolution์ด ๋์์๋ก ๋ ํฐ Receptive field๊ฐ ํ์ํ๊ณ high frequency information ์ ๋ณด๋ฅผ ๋ฐ์ํ๊ธฐ ์ํด ๋ ๊น์ ๋ชจ๋ธ, ๋ ๋์ Channel์ ๊ฐ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข๋ค.
โ Resolution, Depth, Channel Width 3๊ฐ์ง ๋ชจ๋ scale upํ๋ ๊ฒ์ด ๊ฐ์ฅ ํจ์จ์ .
Compoun Scaling
Resolution, Depth, Channel Width ๊ฐ๊ฐ์ ๋ํ ์คํ โ ํ๋์ฉ๋ง ์กฐ์ ํ๋ฉฐ ์คํํ๋ฉด ๊ฒฐ๊ตญ ์ด๋์ ๋ ์์ค์์ ๋์ด์ ์ฑ๋ฅ ์ฆ๊ฐ๊ฐ ์๋ค. ๊ฒฐ๊ตญ ์ธ ๊ฐ์ง ์์๋ฅผ ๋ชจ๋ ์ฆ๊ฐ์์ผ์ผ ๊ฐ์ฅ ํจ๊ณผ๊ฐ ํฌ๋ค.
Individual Scaling : ๊น์ด(d), Channel ๋์ด(w), ํด์๋(r)์ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก scaling
Compound Scaling : ๊น์ด(d), Channel ๋์ด(w), ํด์๋(r)์ ๋์์ scaling
$$ d=\alpha^\phi \\w=\beta^\phi \\r=\gamma^\phi \\\text{s.t.}\quad \alpha\cdot \beta^2\cdot\gamma^2\approx 2 (\alpha\ge1\beta\ge1\gamma\ge1) $$
$\phi$ (์์) : Compound Coefficient. d,w,r์ ๊ท ์ผํ๊ฒ ์ฆ๊ฐ์ํค๋ compound ๊ณ์
s.t.
(์ ์ฝ ์กฐ๊ฑด) : $\alpha\cdot \beta^2\cdot\gamma^2$ ๊ฐ 2์ ๊ทผ์ฌํ๋๋ก alpha, beta, gamma ๊ฐ์ ์ ํด์ผ ํ๋ค.
โ Compound Scaling์ ํ๋ฉด $\phi$ (์์)๊ฐ 1์ฉ ์ฆ๊ฐํ ๋๋ง๋ค ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ๊ฐ์๊ฐ 2๋ฐฐ์ฉ ๋์ด๋๋ค.
๋ ผ๋ฌธ
๊ฒฐ๊ณผ