Mobiole-Unet을 활용한 실시간 배경 제거 모델



Original Source Here

Depthwise separable convolution은 두 가지 과정을 거친다. 위 구조에서 윗부분에 해당하는 부분이 Depth convolution, 아랫부분에 해당하는 부분이 Pointwise convolution이다.

  1. Depth convolution

우선 Depth convolution은 필터의 채널과 입력 채널의 수가 같지 않고, 1로 두어 Convolution 결과 채널 개수의 변화가 생기지 않도록 한다. 따라서 일반적인 Convolution과 달리 출력 채널의 개수가 입력 채널의 수와 동일하다. 이를 일반화하면 위와 같으며, 파라미터 수는 Dk * Dk * 1 * M이 된다.

2. Pointwise convolution

다음으로 Pointwise convolution을 통해 1*1 filter을 원하는 출력 채널의 개수만큼 사용해 채널의 개수를 맞춘다. 이를 일반화하면 위와 같으며, 파라미터 수는 1 * 1 * M * N이다.

이렇게 두 가지 과정을 거쳐, Depthwise separable convolution은 일반적인 Convolution과 같은 결과값을 출력한다.

총 계산 비용은 두 가지 과정의 파라미터 수를 합친 Dk * Dk * M * 1 + 1 * 1 * M * N이 되며, 일반적인 Convolution에 비해 현저히 줄어들었다.

Recap: Upsampling

다음은 Mobile-Unet의 Decoder 구조이다. Mobile-Unet은 Decoder 구조에서 Upsampling시 Transpose convolution과 Bilinear convolution 두 가지를 사용한다.

AI/ML

Trending AI/ML Article Identified & Digested via Granola by Ramsey Elbasheer; a Machine-Driven RSS Bot

%d bloggers like this: