논문리뷰

    [paper review] Lion : Linear Group RNN for 3D ObjectDetection in Point Clouds 논문 리뷰 (Lidar Detector SOTA)

    안녕하세요. 이번에 포스팅할 논문은 Lion이라는 lidar detection model입니다. IntroLidar detection 모델은 크게 point base방법과 voxel base방법으로 나눠져 발전했습니다.(pvrcnn과 같은 두가지의 방식을 혼합한 방법도 있습니다만)최근 트렌드는 voxel base 방법의 모델이라고 여겨집니다. pointcloud를 voxelization하고 이 sparse voxel grid를 효율적으로 computation 하기 위해 spconv와 같은 sparse convolution을 사용합니다. 헌데 이 operator는 custom cuda kernel를 사용하기에 onnx, trt로 변환하기가 매우 까다롭죠.이런 이유와 언어모델들에서의 transformer의 ..

    [paper review] EFM3D 논문 리뷰

    안녕하세요. 이번 포스팅은 META에서 발표한 EFM3D라는 논문에 대해 리뷰하겠습니다.최근 language model, image model은 인터넷의 방대한 data를 활용해서 self-supervised learning을 통해 백본을 학습합니다. 그리고 다양한 downstream task에 활용하는 것이 현재 주류의 approach인데요. 3D의 경우 데이터를 확보하기가 쉽지 않습니다. EFM은 wearable device를 활용해서 egocetric high quality dataset를 수집하고 이를 처리하는 모델을 EFM3D(3D Egocetric Foundation Model이라고 하였습니다.(output으로 mesh또한 제공합니다.) Meta에서 AR classes등에 디바이스(Projec..

    [paper review] MonoDETR : Depth-guided Transformer for Monocular 3D Object Detection 논문 리뷰

    안녕하세요. 이번에는 monocular 3D detector인 MonoDETR 이라는 논문에 대해서 리뷰하겠습니다.MMlab으로 유명한 CUHK의 mmlab에서 나온 논문으로 ICCV '23 에 publish되었습니다. 기존의 방법들은 보통 2D detector를 통해 대략적인 object center를 파악하고 3D feature를 예측하지만 본 논문은 local visual feature에 국한되지 않고 depth-guided 통해 3D feature를 estimation합니다. Comparison of DETR-based MethodDETR은 2D detector로 NMS, anchor가 필요없이 높은 성능을 자랑합니다. 이를 이용한 3D detector로 여러가지 모델이 있는데 우선 PETR이 있..

    [paper review] PETR 논문리뷰 (3D detection w Cam)

    안녕하세요 이번에는 PETR 이라는 camera기반의 3D detection 논문을 살펴보겠습니다.최근 camera를 기반으로하는 3D detection 논문들이 많이 나오고 있습니다. 현재 multi-cam 3D detection분야는 BEV 방법론과 perspective 방법론으로 나눠져 있는데, 오늘 리뷰할 논문은 후자의 방법론을 사용하였습니다. 위의 벤치마크 순위에는 없지만 perspective 방법론은 해당 논문을 기반으로 설계되었습니다.   [paper review] BEVFusion 논문 리뷰이번 논문리뷰는 BEVFusion이라는 논문으로 3D Detection에서 multi-modal 그 중에서도 camera-lidar에 관련된 논문입니다. ICRA 23에 publish되고 현재기준으로 m..

    [paper review] Zero 123++ 논문 리뷰

    이번에 포스팅할 논문은 Zero 123++입니다. 123시리즈의 기점 논문인 zero 1 to 3 논문을 뭔저 읽기를 권합니다. [paper review] zero-1-to-3 : zero-shot one Image to 3D object 안녕하세요. 오늘 포스팅할 논문은 ICCV 2023에 publish된 zero-1-to-3논문입니다. 사전에 dreamfusion논문을 살펴보면 좀 더 도움이 될 것 같습니다. [Paper Review] DreamFusion 논문 리뷰 안녕하세요. 오늘 포스 jaehoon-daddy.tistory.com Intro zero123++는 zero123과 마찬가지로 single image로 multi-view image를 생성하는 것을 목표로 합니다. zero123의 dif..

    [paper review] zero-1-to-3 : zero-shot one Image to 3D object

    안녕하세요. 오늘 포스팅할 논문은 ICCV 2023에 publish된 zero-1-to-3논문입니다. 사전에 dreamfusion논문을 살펴보면 좀 더 도움이 될 것 같습니다. [Paper Review] DreamFusion 논문 리뷰 안녕하세요. 오늘 포스팅할 논문은 DreamFusion으로 google에서 ICRA'23에 publish한 Text-to-3D 논문입니다. 최근 multi modal generative model의 발전이 눈부시고 여러 글로벌 기업에서 하루가 멀다하고 이와 관련 jaehoon-daddy.tistory.com Intro text-to-3D 관련 논문이 최근에 많이 쏟아지고 있습니다. 어떤걸 먼저 봐야할지 정보의 홍수속에 아래와 같은 3D diffusion timeline이라..

    [paper review] TPV Former (Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction)

    이번에 포스팅할 논문은 TPVFormer로 multi-cam기반의 semantic occupancy prediction model입니다. An academic alternative to Tesla's Occupancy Network이라는 부제로 일전의 테슬라 day에서 보여준 autnomous vehicle model의 academic버전이라고 저자는 주장하고 있습니다. 벤치마크에서도 상위권에 랭크하고있습니다.(사실 multi-cam기반의 semantic occupancy or segmentation 논문은 거의없습니다..) Prior Knowledge 시작하기 전에 deformable attention에 대해 이해할 필요가 있습니다. 아래 포스팅에 자세히 서술하였습니다. 간략히 말하면 기존의 atten..

    [paper review] UniTR : A Unified and Efficient Multi-Modal Transformer for BEV Representation 논문 리뷰

    안녕하세요. 이번 포스팅은 UniTR이라는 multi-sensor(camera,lidar) detector에 대해 포스팅하겠습니다. 앞서 아래의 BEVfusion과 DSVT논문을 먼저 읽는 것을 추천합니다. [paper review] BEVFusion 논문 리뷰 이번 논문리뷰는 BEVFusion이라는 논문으로 3D Detection에서 multi-modal 그 중에서도 camera-lidar에 관련된 논문입니다. ICRA 23에 publish되고 현재기준으로 multi model 3D detection쪽에서 opensource중에서는 최고성 jaehoon-daddy.tistory.com [paper review] DSVT: Dynamic Sparse Voxel Transformer with Rotated..