반응형


A Normalized Gaussian Wasserstein Distance for Tiny Object Detection

CIoU, DIoU, GIoU와 같이 단순히 IoU를 사용하는 방법의 문제점을 제시하며 새로운 방법론을 제시하는 논문이다.

이 때, 기존 CIoU, DIoU등은 BBox가 아예 겹치지 않았을 때 거리를 고려하지않고 완전 터무니없는 후보군과 나름대로 가깝게 추론한 후보 BBox를 모두 0으로 똑같이 취급하는 문제점을 꼽았다면, 본 논문에서는 Tiny Object(소형 객체)탐지에서 발생하는 문제점을 꼽고, BBox의 크기에 의존성이 없도록 두 BoundBox간의 Wasserstein Distance를 구하고 이를 Normalize하여 Metric 형식으로 사용할 수 있도록하는 Normalized Gaussian Wasserstein Distance를 제안한다.

 

 

 

Abstract


  • Object Detection 분야에서 Tiny Object를 탐지하는 것은 굉장히 까다로운 문제이다. 그 근본적인 원인은 Tiny Object는 포함된 Pixel 수 자체도 매우 적기 때문이다.

  • 저자들은 꽤나 높은 정확도를 가진 SOTA 모델들도 Tiny Object에 대해서는 만족스럽지 못한 결과물을 나타내는 것에 문제 의식을 가졌다.

  • 저자들은 이러한 현상의 원인이, Intersection over Union(IoU) 기반 Metric이 Tiny Object에서는 위치 정보의 사소한 변화에도 너무 Sensitive하게 변화하는 특성 때문이라고 생각하였다.

    - Ex) 거대한 Bounding Box에서는 Ground Truth와 Predicted Box가 1Pixel 정도 차이난다고 하더라도, 높은 IoU를 얻을 수 있지만, Bounding Box가 워낙 작아서 넓이가 불과 몇 픽셀밖에 안되는 Tiny Object에서는 1Pixel이라도 Ground Truth와 차이가 발생하게 되면 IoU가 매우 크게 감소하여, Threshold 값을 결국 넘기지 못하는 상황이 발생

  • 이를 보완하기 위해서, 저자들은 Wasserstein Distance를 활용한 새로운 Evaluation Metric을 제안한다. 

  • 본 논문에서 제안하는 방법은 첫째로, Bounding Box들을 2D Gaussian Distribution 형태로 변환한후, Normalized Wasserstein Distance(NWD)를 통해 두 Gaussian Distribution의 유사성을 구한다. 

  • 위와 같은 방식으로 계산된 NWD는 Non-maximum suppression(NMS), IoU Loss 등에서 기존 방식을 대체하여 사용될 수 있으며, Tiny Object만으로 구성된 Dataset인 AI-TOD에서 기존 방식 대비 AP가 무려 6.7이나 향상되었다고 저자들은 주장한다.

 

Introduction


  • Tiny Object 탐지는 자율주행과 같은 다양한 Task에 있어서 중요한 요소중 한가지이다. 비록 Object Detection 성능 자체는 매우 큰폭으로 향상되었지만, 아직도 소형 객체 탐지 성능은 상용화되기 어려울 정도로 정확도가 떨어진다.

  • 16 x 16 pixel 보다 적은 객체들로 구성된 AI-TOD 데이터셋의 경우, 굉장히 한정된 양의 시각 데이터를 제공하며, 이로 인해서 이러한 Tiny Object를 탐지해내는 것은 굉장히 어려운 문제로 꼽힌다.

  • 최근 진행된 연구에서는 이러한 한계점을 해결하기위해서, GAN을 활용한 Super Resolution 방식으로 작은 Object의 크기를 크게 만들어 학습을 진행한다던가, FPN등의 Multi-scale Feature를 활용하는 방법을 적용하였으나, Tiny Object를 탐지하기위해서 별도의 추가적인 작업이 필요하다는 단점이 있다.

  • 본 논문에서는 Tiny Object 탐지를 어렵게 하는 근본적인 원인인 IoU의 한계점을 설명하고, 이를 해결하기 위한 방법론을 제시한다.
    6x6 크기의 Tiny Scale Object와 36x36 크기의 Normal Scale Object
  • 위 그림에서 A는 Ground Truth, B는 GT에서 1 pixel만큼 shifting 한 Bounding Box,  C는 4 pixel 만큼 shifting한 Bounding Box이다. Normal Scale Object는 1Pixel에선 0.9, 4Pixel에서는 0.65의 IoU를 가졌지만, 반면 Tiny Scale Object는 1Pixel 차이만으로도 이미 IoU가 0.53으로 크게 하락하고, C의 경우에는 아예 0.06으로 매우 낮은 IoU를 가지게 되는 것을 볼 수 있다.

  • 즉, Tiny Scale Object에서의 IoU는 Ground Truth와 거의 완벽히 일치하지 않는 이상, IoU Threshold를 넘는 IoU값을 가지게 되는 것이 어렵고, Positive Sample로 Labeling되기 어렵다는 사실을 나타낸다.

 

 

Methodology


  • 저자들이 제안하는 새로운 Metric은 다음과 같다.

  • 먼저, Bounding Box (cx, cy, w, h)에 대해서, 내부에 내접하는 타원의 형태를 나타내면 아래와 같다.
  • 그리고 2D Gaussian Distribution의 확률 분포 함수는 아래와 같다.
  • 이 때, Gaussian Distribution의 Mean Vector와 공분산 행렬이 아래 조건을 만족시킬 경우,
    위 수식의 타원이 2D Gaussian Distribution의 Density Contour가 되므로, Bounding Box (cx,cy,w,h)는 다음과 같은 2D Gaussian Distribution으로 표현될 수 있다.
  • 이는 즉, Bounding Box A와 B의 유사도가 두 Gaussian Distribution의 거리로 표현될 수 있음을 의미한다.
    본 저자들은 두 Gaussian Distribution의 거리를 측정하기 위해서 Wasserstein Distance 개념을 적용하였다.
    엄청 어려워보이지만, 쉽게 말하면 두 Bounding Box를 바탕으로 2D Gaussian Distribution으로 전환하고, L2 Norm 개념으로 두 2D Gaussian Distribution의 유클리디언 거리를 구한다라는 느낌으로 이해하면 되는 것으로 보인다.

  • IoU를 대체하는 식으로 사용하기 위해서는 0과 1사이의 값을 가지도록 변경해주어야 하므로, 저자는 아래와 같은 방식으로 Normalize를 진행한다. 이 때, 분모 C는 데이터셋에 맞게 조정되는 Hyperparameter이다.

Experiments


  • 위 표는 AI-TOD에 적용한 다양한 Evaluation Metric의 결과이다. NWD를 기존 방식들과 비교했을 때, Label Assigning에서 가장 효과적이었다. 

  • 이는 위에서 언급한 IoU의 과도한 민감도로 인해 IoU Threshold를 넘지 못하는 문제를 효과적으로 해결했기 때문으로 보이며, 후처리를 담당하는 NMS에서는 그다지 좋은 모습을 보여주지는 않는다.
  • 다만 위 표만 봐도 어느정도 예상이 되는 부분이 있는데, Large를 뜻하는 AP_L이 없다. 즉, Tiny Object에 강인해진 대신, 그 여파로 Large Object에 대해서는 성능이 하락된 것으로 보인다.

  • 실제로 직접 실험한 것은 아니지만, 딥러닝논문읽기모임의 안종식님의 말에 따르면(https://www.youtube.com/watch?v=eGKlg4sZ0Zw), VisDrone 데이터셋을 분류한 결과, AP_S(small)은 기존 IoU 방식 mAP 0.258에서 NWD를 사용했을 시 0.292로 향상되는 모습을 보였지만, AP_L(Large)의 경우에는 기존 IoU 방식 0.655에서 NWD방식 0.405로 큰폭의 하락이 존재했다고 한다. 

  • 결국 해당 방식도, Anchor Size를 줄여서 작은 Object를 잘 찾게 되면, 큰 Object를 못 찾게 되는것과 유사한 모습을 보인다는 것을 확인할 수 있다.

Conclusion


  • 비록 한계점도 존재하는 연구이긴 하지만, 본 논문에서는 Tiny Object를 효과적으로 탐지할 수 있는 방법론을 소개했다.

  • 작은 객체로만 이루어진 AI-TOD 데이터셋에서 SOTA를 달성하였으며, VisDrone 데이터셋의 경우에도 mAP_L이 비록 감소하긴 했지만 최종적인 mAP@0.5가 조금이나마 개선되는 모습을 보였다.

  • 따라서 본 방식은 소형 객체 탐지에 특화된 모델을 만드는데에 주요하게 동작할 것으로 보인다.
반응형
블로그 이미지

Hyunsoo Luke HA

석사를 마치고 현재는 Upstage에서 전문연구요원으로 활동중인 AI 개발자의 삽질 일지입니다! 이해한 내용을 정리하는 용도로 만들었으니, 틀린 내용이 있으면 자유롭게 의견 남겨주세요!

,