3d detection14 [paper review] LLaVa-3D : A Simple yet Effective Pathway to EmpoweringLMMs with 3D Capabilities 논문리뷰 이번 포스팅할 논문은 LLaVa-3D입니다. 최근에 LLM이 발전하면서 2D understanding task 또한 엄청난 속도도 성능이 발전하고 있습니다. 하지만 3D 쪽의 LLM task들은 large-scale 3D vision-language dataset의 부족과 새로운 3D encoder 스탠다드의 부재로 성능이 많이 부족합니다. 기존의 방법들은 대게 2D가 large scale vision-language dataset을 이용해서 학습하는 것도 유사하게 3D에서는 pointcloud로 부터 encoding된 3D feature를 language과 연결하는 식으로 접근하였는데 여기서 데이터 부족문제가 발목을 잡고있고 CLIP, ViT와 같은 강력한 Pretrained model이 없는 것 또한.. 2025. 4. 20. [paper review] Lion : Linear Group RNN for 3D ObjectDetection in Point Clouds 논문 리뷰 (Lidar Detector SOTA) 안녕하세요. 이번에 포스팅할 논문은 Lion이라는 lidar detection model입니다. IntroLidar detection 모델은 크게 point base방법과 voxel base방법으로 나눠져 발전했습니다.(pvrcnn과 같은 두가지의 방식을 혼합한 방법도 있습니다만)최근 트렌드는 voxel base 방법의 모델이라고 여겨집니다. pointcloud를 voxelization하고 이 sparse voxel grid를 효율적으로 computation 하기 위해 spconv와 같은 sparse convolution을 사용합니다. 헌데 이 operator는 custom cuda kernel를 사용하기에 onnx, trt로 변환하기가 매우 까다롭죠.이런 이유와 언어모델들에서의 transformer의 .. 2024. 11. 6. [paper review] EFM3D 논문 리뷰 안녕하세요. 이번 포스팅은 META에서 발표한 EFM3D라는 논문에 대해 리뷰하겠습니다.최근 language model, image model은 인터넷의 방대한 data를 활용해서 self-supervised learning을 통해 백본을 학습합니다. 그리고 다양한 downstream task에 활용하는 것이 현재 주류의 approach인데요. 3D의 경우 데이터를 확보하기가 쉽지 않습니다. EFM은 wearable device를 활용해서 egocetric high quality dataset를 수집하고 이를 처리하는 모델을 EFM3D(3D Egocetric Foundation Model이라고 하였습니다.(output으로 mesh또한 제공합니다.) Meta에서 AR classes등에 디바이스(Projec.. 2024. 11. 4. [Lidar detection] AI Challenge 3위 솔루션 분석 안녕하세요. 운이 좋게도 과학기술정보통신부에서 진행한 AI challenge에서 3위를 수상하였습니다. 해서 이번 포스팅은 그 과정을 공유하고자 합니다.전체코드는 https://github.com/ies0411/DNA_challenge.git 해당 레포에 전체 공유되어있습니다. Data ProcessingLidar detector의 대표적인 framework인 openpcdet를 사용하여 챌린지에 임하였습니다. 해당 프레임워크는 gt sampling을 위해서 gt point들을 pkl파일로 따로 관리합니다. 또한 custom dataset은 npy파일로 저장을하고 pkl로 다시 convert하는 과정을 거칩니다. 이 과정은 기존의 openpcdet의 메뉴얼대로 동일하게 진행하였습니다. Baseline M.. 2024. 11. 4. [3D Detection] Monocular camera 3D detection ? 안녕하세요.이번 포스팅은 monocular camera 3D detection입니다. 최근 줄여서 mono cam 3D detector들을 조사하고 있는데, 적절한 survey 논문도 없고 해서 간략하게 공부한 바를 기록하게 되었습니다. 기본적으로 3D detection을 위한 센서로는 여러가지가 있을 수 있지만, 보통 Lidar 센서가 많이 사용되고 multi-camera가 사용됩니다. 여러대의 camera를 이용하면 3D 공간의 recognition이 좀 더 쉬워지고 metric 레벨의 depth도 추정이 가능하게 됩니다.하나의 camera으로는 여러 제약이 존재하는 것이 사실입니다. 특히 depth map을 absolute scale로 예측하는 것이 사실상 불가능하다고 여겨왔습니다. 하지만 최근 d.. 2024. 9. 2. [paper review] MonoDETR : Depth-guided Transformer for Monocular 3D Object Detection 논문 리뷰 안녕하세요. 이번에는 monocular 3D detector인 MonoDETR 이라는 논문에 대해서 리뷰하겠습니다.MMlab으로 유명한 CUHK의 mmlab에서 나온 논문으로 ICCV '23 에 publish되었습니다. 기존의 방법들은 보통 2D detector를 통해 대략적인 object center를 파악하고 3D feature를 예측하지만 본 논문은 local visual feature에 국한되지 않고 depth-guided 통해 3D feature를 estimation합니다. Comparison of DETR-based MethodDETR은 2D detector로 NMS, anchor가 필요없이 높은 성능을 자랑합니다. 이를 이용한 3D detector로 여러가지 모델이 있는데 우선 PETR이 있.. 2024. 8. 28. 이전 1 2 3 다음