DetectroRS

Untitled 16.png

Untitled 1 11.png

논문에서는 당시 객체탐지 모델들이 ‘Look and Think Twice’ 메커니즘을 차용하여 성능이 크게 개선되었다고 합니다. Look and Think Twice 메커니즘이란 일반적인 feed forward network에 feedback 레이어를 추가한 신경망(extra feedback network)을 의미합니다.

DetectroRS은 FPN으로 부터 얻은 추가적인 패드백 연결(extra feedback connections)을 bottom-up backbone layer에 추가해주는 Recursive Feature Pyramid와 다양한 Atrous Rates로 얻은 Features를 Switch function을 통해 모아주는 Switchable Atrous Convolution을 제안합니다.

아래 Recursive Feature Pyramid 구조를 여러번 반복하는 방식으로 Feedback을 구현합니다.

Recursive Feature Pyramid
- Feature Pyramid Network(FPN)에 extra feedback을 추가한 네트워크
- Feature Pyramid 구조와 유사, 추가적으로 backbone에서 feature pyramid의 정보를 가지고 학습 수행
- Flops가 증가하는 단점
ASPP(Atrous Spatial Pyramid Pooling)
- Deeplab v2에서 처음 제안, Deeplab v3에서 개선
- Feature Map ‘f’를 Backbone으로 Feedback 할 때, f를 입력으로 받아 RFP Feature로 변환
- f를 그대로 그대로 RFP Feature로 사용하는 것 보다 더 좋은 성능
Unrolled Iterations
- Recursive한 모델을 실제로 구현하기 위해서 iteration의 형태로 변경
- Iteration unrolled step을 $t$ 라 하고 $t = 1, ..., T$ 이며, 최대 iteration은 $T$ 번
  - 논문에서는 T를 2로 사용
- $f_{i}^{t} = F_{i}^{t} (f_{f + 1}^{t}, x_{i}^{t}), x_{i}^{t} = B_{i}^{t} (x_{i - 1}^{t}, R_{i}^{t} (f_{i}^{t - 1}))$
  - $B_{i}^{0} (x_{i - 1}^{0}, 0)$ : 그림 가장 왼쪽의 상황, iteration을 수행하지 않았으므로 당연히 feedback 할 것이 없음( $f_{i}^{0} = 0$ )
  - $B_{i}^{1} (x_{i - 1}^{1}, R_{i}^{1} (f_{i}^{0}))$ : 1번째 iteration
  - $B_{i}^{2} (x_{i - 1}^{2}, R_{i}^{2} (f_{i}^{1}))$ : 2번째 iteration