DetectroRS

개요

DetectroRS는 ‘Look and Think Twice’ 메커니즘을 객체 탐지에 적용한 모델입니다. 일반적인 feed forward network에 feedback 레이어를 추가한 신경망(extra feedback network)을 의미합니다.

논문에서는 당시 객체탐지 모델들이 ‘Look and Think Twice’ 메커니즘을 차용하여 성능이 크게 개선되었다고 합니다.

Untitled 16.png

Untitled 1 11.png

핵심 개념

DetectroRS은 FPN(Feature Pyramid Network)으로 부터 얻은 추가적인 패드백 연결(extra feedback connections)을 bottom-up backbone layer에 추가해주는 Recursive Feature Pyramid와 다양한 Atrous Rates로 얻은 Features를 Switch function을 통해 모아주는 Switchable Atrous Convolution을 제안합니다.

Recursive Feature Pyramid (RFP)

아래 Recursive Feature Pyramid 구조를 여러번 반복하는 방식으로 Feedback을 구현합니다.

Untitled 2 7.png

Feature Pyramid Network(FPN)에 extra feedback을 추가한 네트워크
Feature Pyramid 구조와 유사, 추가적으로 backbone에서 feature pyramid의 정보를 가지고 학습 수행
Flops가 증가하는 단점

ASPP (Atrous Spatial Pyramid Pooling)

Deeplab v2에서 처음 제안, Deeplab v3에서 개선
Feature Map ‘f’를 Backbone으로 Feedback 할 때, f를 입력으로 받아 RFP Feature로 변환
f를 그대로 그대로 RFP Feature로 사용하는 것 보다 더 좋은 성능

Unrolled Iterations

Untitled 3 6.png

Recursive한 모델을 실제로 구현하기 위해서 iteration의 형태로 변경
Iteration unrolled step을 $t$ 라 하고 $t = 1, ..., T$ 이며, 최대 iteration은 $T$ 번
- 논문에서는 T를 2로 사용
$f_{i}^{t} = F_{i}^{t} (f_{f + 1}^{t}, x_{i}^{t}), x_{i}^{t} = B_{i}^{t} (x_{i - 1}^{t}, R_{i}^{t} (f_{i}^{t - 1}))$
- $B_{i}^{0} (x_{i - 1}^{0}, 0)$ : 그림 가장 왼쪽의 상황, iteration을 수행하지 않았으므로 당연히 feedback 할 것이 없음( $f_{i}^{0} = 0$ )
- $B_{i}^{1} (x_{i - 1}^{1}, R_{i}^{1} (f_{i}^{0}))$ : 1번째 iteration
- $B_{i}^{2} (x_{i - 1}^{2}, R_{i}^{2} (f_{i}^{1}))$ : 2번째 iteration