오늘 리뷰할 논문은 omni3D입니다.
메타에서 발표한 mono 3D detection 으로 huge dataset을 활용하는 이름하여 zero-shot monocular camera 3D detection입니다.
최근 3D object detection은 크게 두개의 domain으로 나뉩니다. 하나는 outdoor(autonomous field)이고 다른하나는 indoor입니다. outdoor의 정통한 모델들은 보통 BEV라는 개념을 통해 ground plane을 이용하는 것이 보통입니다. indoor는 물체들의 ground위에 있지 않기에 BEV를 이용하기보다는 다른 transformer등의 아키텍쳐를 사용합니다.
본 논문에서는 cubercnn이라는 단일 모델을 제안하고 해당 모델 한가지로 두개의 domain을 모두 커버하는 것을 목표로합니다. zero-shot으로 말이죠. outdoor 데이터셋으로는 KITTI, Nuscenes데이터셋을 사용하였고 Indoor용 데이터셋으로는 SUN RBG-D, ARKitScenes, Hypersim을 사용하였습니다. 데모 코드를 보면 outdoor용 pretrained model과 indoor용 pretrained model이 나눠져 있는 것을 알 수 있습니다.
Method
그렇다면 본 논문에서 사용한 Cubercnn을 보겠습니다. 이름에서 알 수 있듯이 2D detector중 하나인 Faster RCNN을 reference로 하였습니다.
FasterRCNN은 아래 포스팅 참고하세요.
Faster RCNN은 크게 백본(CNN), RPN(region proposal network), ROI 로 구성되어 있습니다. Cubercnn은 3D cuboid를 prediction하기 위에 몇가지가 추가됩니다.
IoUness
RPN은 보통 두 가지의 역할을 합니다. anchor박스를 propose하고 object가 있는지 없는지를 classify합니다. omni3d에서는 많은 데이터셋을 활용하기에 모든 instance가 라벨링이 되어있는지 보장할 수가 없습니다. 이를 위해 IoUness를 사용하는데 GT와의 IoU를 계산하여 기존의 reg loss에 CE loss를 추가합니다.
CubeHead
기존의 3D cuboid를 prediction하기 위해 cubehead부분을 추가하였습니다. RoI를 통해 나온 7x7 feature map은 2개의 FC layers를 지납니다. 이 후 13개의 parameter를 prediction합니다.
정리하면 3D center의 image상에 projection한 픽셀(u,v), virtual depth(뒤쪽에서 설명예정), dimension(log normalized scale), object rotation, uncertainty(confidence) 이렇게 총 13개의 파라미터입니다.
위의 수식은 image plane에서 3D space로 inverse projection 하는 수식입니다.
위의 수식의 log scale의 dimenstion을 arragne하고 있고
최종적으로를 위의 수식을 통해 3D cuboid를 prediction합니다.
위의 수식은 최종 loss입니다. 위에서 RPN의 loss, 2D bbox의 loss [faster rcnn과 동일) 그리고 3D cuboid의 loss인데 3D loss는 center point부분에 L1, dimension에 L1, rotation에 L1을 사용하고 cuboid의 꼭지점 8개의 GT와 chamfer distance도 loss로 활용합니다. u는 2D와 3D의 weight 조절하는 파라미터 입니다.
Virtual Depth
본 논문에서는 virtual depth라는 개념을 도입니다. depth estimation은 2D에서 3D로 mapping하는데 필수적입니다. omni3D데이터는 다양한 데이터셋을 활용하기 때문에 camera parameter가 일정하지 않습니다. 이를 위해 metric depth를 virtual depth로 mapping합니다.
virtual depth는 이미 알고있는 intrinsic parameter 를 이용하며 (코드상에서 없으면 해상도에 맞춰 ideal한 파라미터로 가정합니다.) 이로 인해 모든 데이터셋에서 이미지 크기와 초점 거리가 constant하게 유지됩니다.
위 공식은 매핑하는 수식이며 $H_{v}$는 가상 이미지 높이, $f_{v}$는 virtual focal distance입니다. 이는 모두 하이퍼파라미터입니다.
Experiments
ablation study입니다. uncertainty가 가장 영향력이 큰 factor인걸 확인할 수 있고 virtual을 통해 scale을 맞추는 작업 또한 매우 중요한 요소임을 알 수 있습니다.
위의 테이블은 omni3d데이터셋의 결과입니다. 기존의 모델보다 성능향상이 엄청 큰 것을 알 수 있습니다.
밑의 동영상은 cubercnn의 outdoor pretrained model을 가지고 학습에 사용되지 않은 데이터셋인 pandaset이라는 데이터셋으로 inference해본 결과입니다.