Abstract
- CNN은 구축 모듈의 고정된 기하학적 구조로 인해 본질적으로 기하학적 변환을 모델링하는 데 한계가 있다.
- 이번 작업에서는 CNN의 변환 모델링 기능을 향상시키는 두 가지 새로운 모듈, 즉 Deformable convolution과 Deformable RoI pooling을 소개한다.
- 두 모듈 모두 추가 offset으로 모듈의 spatial sampling location을 보강하고 추가 감독 없이 대상 작업에서 offset을 학습하는 아이디어를 기반으로 한다.
- 새로운 모듈은 기존 CNN의 일반 모듈을 쉽게 대체할 수 있으며, 표준 역전파를 통해 end-to-end로 쉽게 훈련할 수 있다.
- 광범위한 실험을 통해 이러한 접근 방식의 성능을 검증한다.
- 처음으로 DCNN에서 고밀도 공간 변환(Dense spatial transformation)을 학습하는 것이 물체 감지 및 semantic 분할과 같은 정교한 비전 작업에 효과적이라는 것을 보여준다.
1. Introduction
- Visual Recognition의 핵심 과제는 object scale, pose, viewpoint 및 part deformation에서 기하학적 변형을 수용하거나 기하학적 변형을 모델링하는 방법이다.
- 일반적으로 두 가지 방법이 있다.
- 첫 번째는 원하는 변형이 충분히 포함된 데이터 세트를 구축하는 것이다.
- 이는 일반적으로 affine transformation을 통해 기존 데이터 샘플을 보강함으로써 실현된다.
- 데이터로부터 강력한 표현을 학습할 수 있지만, 일반적으로 훈련 비용이 많이 들고 모델 파라미터가 복잡해진다.
- 두 번째는 transformation-invariants feature와 알고리즘을 사용하는 것이다.
- 이는 SIFT 및 sliding window 기반 Object Detection 패러다임과 같이 잘 알려진 많은 기법이 포함된다.
- 위의 방식에는 두 가지 단점이 있다.
- 첫째, 기하학적 변환은 고정되고 알려진 것으로 가정한다.
- 이러한 사전 지식(Prior Knowledge)은 데이터를 보강하고 특징과 알고리즘을 설계하는 데 사용된다.
- 이러한 가정은 제대로 모델링되지 않은 기하학적 변환을 가진 새로운 작업에 대한 일반화를 방지한다.