All

    [3D Detection]Fusion Multimodal Detection(1) : DeepFusion, 3D Dual Field

    안녕하세요. 오늘은 3D Detection에서 multimodal Fusion에 대해 알아보겠습니다. Detection분야에서 멀티모달이라하면 보통 camera와 lidar를 이야기합니다. Intro 위의 표는 개인적인 생각(?)을 포함하여 Fusion하는 Approach별로 나눈 표입니다. 우선 point-level방법은 raw data level에서 fusion을 해주는 방법입니다. 어떻게 보면 tightly coupled방법과 동일합니다. 문제는 image, pcd의 domain 영역이 다르기 때문에 이를 fusion method에서 어떻게 처리하는지가 제일 이슈인 방법입니다. 다음으로 proposal-level은 lidar, camera 각각 detection모델을 통해 proposal bbox를..

    [Transformer] Transformer & Vision

    안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고 많은 분야에서 활용되고 있는 아키텍쳐인데요. NLP분야에서 일찍이 탄생했지만 비전 및 다른 분야에서도 많이 활용되고 있습니다. Transfomer는 Attention is All You Need 라는 논문을 통해 처음 발표되었습니다. 제목에서도 알 수 있듯이 Transformer를 이해하려면 우선 Attention에 대해서 이해를 이해합니다. Attention 우선 attention 메커니즘은 sequence-to-sequence 모델에 적용이 됩니다. seq2seq모델은 글자나 이미지의 feature 등을 입력으로 받아 또 다른 시퀀스를 출력합니다. 이 시퀀스 모델은 encoder와 deco..

    [paper review] AB3MOT 리뷰, 3D Multi Object Tracking

    이번 포스팅은 AB3MOT라는 3D Multi Object Tracking 논문을 리뷰하겠습니다. 'AB'라는 의미는 3D MOT의 baseline이라는 느낌을 주기 위해 지은 이름이라고 추측됩니다 ; Intro 위의 표는 MOT관련하여 정리한 내용입니다. tracking하는 방법은 접근 방법에 따라 크게 TBD, JDT, Transformer-based 로 나눌 수 있습니다.(제가 임의로 나눈것입니다;;) 2D 에서 tracking의 baseline인 SORT알고리즘이 TBD에 해당하는데 이는 detector를 따로 두고 나온 bbox를 input으로하고 association방법을 추가하여 tracking모듈을 만듭니다. 그렇기 때문에 detector의 성능에 의존성이 있고 전체적인 아키텍쳐가 좀 커집..

    [SLAM] 5. Optimization, 비선형 최적화

    이번 SLAM tutorial 에서는 최적화 관련하여 포스팅하겠습니다. 최적화(혹은 수치해석)은 SLAM에서 backend부분에 쓰이는데, MAP point를 이용하여 optimization 후 odometry의 accuracy를 높이는데 보통 활용됩니다. 조금 더 구체적으로 센서 및 real world에서는 noise가 존재하는데 이 때문에 camera 센서를 통해 얻은 이미지로 odometry를 구하더라도 정확한 GT값을 얻기는 힘듭니다. visual SLAM에서는 camera가 여러 시퀀스에서 이미지를 얻습니다. 그 과정에서 한 지점을 여러 번 관찰하게 되고 이를 최적화를 사용하여 노이즈를 최소화하게 됩니다. Optimization 위키피디아의 정의를 보면 optimization이란 집합 위에서 정..

    [paper review] PV-RCNN, PV-RCNN ++ 논문 리뷰

    안녕하세요. 후니대디입니다. PV-RCNN, PV-RCNN++를 이번 포스팅에서 다루겠습니다. PV-RCNN PV-RCNN은 PointVoxel-RCNN은 줄임말로 3D voxel과 point-based을 모두 사용하는 프레임워크를 제시합니다. 대부분의 기존 3D detector는 voxel기반 point기반으로 분류될 수 있습니다. voxel(grid)은 보통 voxelization 혹은 BEV 맵으로 변환하고 3D-conv 혹은 2D-conv를 사용하여 feature를 추출합니다. 이 voxelization과정에서 미세한 정보손실이 발생합니다. point-based 방법은 point특성을 모두 살릴수 있지만 computing cost가 비쌉니다. 1. structure 우선 기본적인 backbone은..

    [paper review]Center-based 3D Object Detection and Tracking 리뷰

    안녕하세요. 이번에는 CenterPoint라는 논문 리뷰 진행하겠습니다. 시작에 앞서 우선 CenterNet(objects as points)이라는 2D base의 논문을 먼저 skim하겠습니다. CenterNet 위의 그림은 일반적인 SSD, Yolo 등의 anchor box의 예시입니다. 수 많은 anchor box를 proposal하고 GT와 IoU를 계산하여 학습을 진행합니다. 수 많은 anchor box를 사용하기에 training속도는 늦을 수 밖에 없습니다. 이에 CornerNet등에서는 keypoint estimation을 사용하여 단 하나의 anchor box를 사용하는 방법을 제안하였습니다. 위 그림을 보면 keypoints로 왼쪽 위, 오른쪽 아래 두 개의 모서리를 detect하여 b..

    [paper review] PointPillars : Fast Encoders for Object Detection from Point Clouds 리뷰

    안녕하세요. 이번에는 3D object detector중 Pointpillars를 간단하게 리뷰하겠습니다. CVPR '19에 퍼블리쉬 되었으며 Lidar만을 사용한 1-stage 3D object detector입니다. 기존에 VoxelNet에서는 3D conv를 사용하여 middle layer의 feature를 뽑기때문에 inference time이 느렸습니다. PointPillars에서는 2D conv를 사용하여 이를 해결하려 합니다. 2D conv를 적용하려면 3D point를 2D로 표현해야 하는데 해당 논문에서는 pillar feature를 이용하여 pseudo image를 만들어 3D point를 마치 image처럼 2D화 시킵니다. *voxelnet에 대한 설명은 아래의 포스팅 참고하게요 [..

    [paper review] pointRCNN 리뷰

    안녕하세요. 이번에는 Lidar 3D object detection의 대표, CVPR '19에 퍼블리쉬된 pointRCNN 논문리뷰를 진행하겠습니다. pointRCNN은 대표적인 2-stage detector입니다. 기존의 detector들은 point cloud의 irregularity를 해결하기 위해 BEV로 projection을 하거나 3D voxelization을 하였습니다.(quantization 문제발생) * 3D voxelization의 대표 디텍터로는 VoxelNet으로 아래 포스팅 참고하세요. [paper review] VoxelNet 리뷰 안녕하세요. 이번에는 3D object관련 논문 리뷰를 포스팅하겠습니다. VoxelNet은 '17년도에 apple에서 발표한 논문으로 lidar를 사..