논문 리뷰

    [paper review] omni3D 논문 리뷰

    오늘 리뷰할 논문은 omni3D입니다.메타에서 발표한 mono 3D detection 으로 huge dataset을 활용하는 이름하여 zero-shot monocular camera 3D detection입니다. 최근 3D object detection은 크게 두개의 domain으로 나뉩니다. 하나는 outdoor(autonomous field)이고 다른하나는 indoor입니다. outdoor의 정통한 모델들은 보통 BEV라는 개념을 통해 ground plane을 이용하는 것이 보통입니다. indoor는 물체들의 ground위에 있지 않기에 BEV를 이용하기보다는 다른 transformer등의 아키텍쳐를 사용합니다.본 논문에서는 cubercnn이라는 단일 모델을 제안하고 해당 모델 한가지로 두개의 dom..

    [paper review] Far3D : Expanding the Horizon for Surround-view 3D Object Detection 논문 리뷰

    안녕햐세요. 이번 포스팅은 multi-view를 이용한 3D detector인 Far3D를 리뷰하겠습니다.Far3D는 AAAI 24에 publish되었고 현재 nuscenes camera 3D detection 리더보드에서 sota이고, megvii라는 회사에서 나왔는데 이 megvii라는 곳에서 최근에 camera 3D detector를 발표하고 있습니다. 최근 camera 3d detector는 크게 두가지 타입으로 나뉩니다. query-baes 방법과 BEV-base 방법입니다. 위 논문은 query-base방법을 사용하였고 long range에서도 뛰어난 성능을 보이기 위한 아키텍쳐입니다.   [paper review] PETR 논문리뷰 (3D detection w Cam)안녕하세요 이번에는 PE..

    [paper review] DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets 논문리뷰

    안녕하세요. 이번 포스팅은 lidar 3D detection model중 하나로 Transformer를 활용한 DSVT라는 논문입니다. 논문에서 가장 내세우는 것 중에 하나는 기존의 많은 lidar model들이 sparse conv를 처리하기 위해 custom cuda kernel (spconv등)을 사용하여 model deployment에 상당한 제약이 있었는데, DSVT는 standard transformer로 이루어져있어서 배포에 상당히 용이하다는 점입니다. Transformer에 대한 대략적인 이해는 아래의 포스팅 참고하세요. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되..

    [paper review] DROID-SLAM (Deep Visual SLAM) 논문 리뷰

    안녕하세요. 이번 포스팅은 DROID-SLAM이라는 논문을 리뷰하겠습니다. '21에 발표된 성능 좋은 Deep-based SLAM으로 그 구조를 뜯어보도록 하겠습니다. Intro 우선 visual SLAM을 살펴보겠습니다. 제가 임의로 나눠보았는데 접근방법에 따라 Direct, Indirect, Deep-based으로 나눌 수 있습니다. Direct같은 경우 보통 photometry error를 통해 optical flow를 구하고 이를 이용해서 Front-end에서 tracking을 합니다. 이거의 모든 pixel을 활용하기에 일반적으로 tracking loss 확률이 indirect보다 적습니다. back-end에서는 optimization을 수행합니다. 반면 indirect 방법은 feature와 ..

    [paper review]Center-based 3D Object Detection and Tracking 리뷰

    안녕하세요. 이번에는 CenterPoint라는 논문 리뷰 진행하겠습니다. 시작에 앞서 우선 CenterNet(objects as points)이라는 2D base의 논문을 먼저 skim하겠습니다. CenterNet 위의 그림은 일반적인 SSD, Yolo 등의 anchor box의 예시입니다. 수 많은 anchor box를 proposal하고 GT와 IoU를 계산하여 학습을 진행합니다. 수 많은 anchor box를 사용하기에 training속도는 늦을 수 밖에 없습니다. 이에 CornerNet등에서는 keypoint estimation을 사용하여 단 하나의 anchor box를 사용하는 방법을 제안하였습니다. 위 그림을 보면 keypoints로 왼쪽 위, 오른쪽 아래 두 개의 모서리를 detect하여 b..

    [paper review] pointRCNN 리뷰

    안녕하세요. 이번에는 Lidar 3D object detection의 대표, CVPR '19에 퍼블리쉬된 pointRCNN 논문리뷰를 진행하겠습니다. pointRCNN은 대표적인 2-stage detector입니다. 기존의 detector들은 point cloud의 irregularity를 해결하기 위해 BEV로 projection을 하거나 3D voxelization을 하였습니다.(quantization 문제발생) * 3D voxelization의 대표 디텍터로는 VoxelNet으로 아래 포스팅 참고하세요. [paper review] VoxelNet 리뷰 안녕하세요. 이번에는 3D object관련 논문 리뷰를 포스팅하겠습니다. VoxelNet은 '17년도에 apple에서 발표한 논문으로 lidar를 사..

    [Detection] Object Detection History 3탄

    안녕하세요. 후니대디입니다. 이번에는 object detection history 3탄 one stage 관련하여 포스팅하겠습니다. 이전의 포스팅은 아래 참고하세요. [Detection] Object Detection History 1탄 Object Detection의 발전과정 및 개요에 대해 키워드 중심으로 전체적인 맥락을 살펴보도록 하겠습니다. 정의 우선 정의 부터 살펴보자면, Classification/ Localization/ Detection/ Segmentation으로 구분하여 비 jaehoon-daddy.tistory.com [Detection] Object Detection History 2탄 [Detection] Object Detection History 1탄 Object Detecti..

    [paper review] DyNeRF : Neural 3D Video Synthesis from Multi-view Video 논문 리뷰

    안녕하세요. 후니대디입니다. 이번 논문은 Neural 3D Video Synthesis from Multi-view Video입니다. 기존의 바닐라 NeRF는 아래 포스팅 참고하세요. [paper review] NeRF 논문 리뷰 최근 synthetic data들의 중요성이 대두되고 있습니다. simulation, generative model 등 여러 방법이 있지만 여기서는 NeRF를 짧게 분석해보겠습니다. 정 의 NeRF는 Novel View Synthesis 계열의 기술입니다. NVS란 특 jaehoon-daddy.tistory.com Intro 우선 논문에서의 목적은 고정되어 있는 여러대의 카메라를 (고프로) 이용하여 video를 촬영하고 이를 이용하여 3D synthesis video를 생성해내..