본문 바로가기

Paper review28

[paper review] PTv2, PTv3 (Point Transformer) 논문리뷰 안녕하세요. 이번 포스트는 lidar segmentation에서 높은 성능을 보이고 있는 Point Transformer관련 논문리뷰 진행하겠습니다. 간략하게 trasnformer관련 task들을 살펴보면 image 도메인에서는 ViT가 대표적입니다. 문제는 ViT는 이미지 전체에 대해 global attention을 수행하기에 메모리를 많이 잡아먹는 단점이 있어 Swin-Transformer에서 이를 해결하기 위해 grid base의 local attention을 수행하여 이를 해결합니다.Pointcloud도메인에서는 크게 prjection, voxel, point 방법들이 있는데 projection방법은 다양한 방법으로 image plane으로 projection한 후에 2D CNN기반의 model을.. 2024. 12. 12.
[paper review] Lion : Linear Group RNN for 3D ObjectDetection in Point Clouds 논문 리뷰 (Lidar Detector SOTA) 안녕하세요. 이번에 포스팅할 논문은 Lion이라는 lidar detection model입니다. IntroLidar detection 모델은 크게 point base방법과 voxel base방법으로 나눠져 발전했습니다.(pvrcnn과 같은 두가지의 방식을 혼합한 방법도 있습니다만)최근 트렌드는 voxel base 방법의 모델이라고 여겨집니다. pointcloud를 voxelization하고 이 sparse voxel grid를 효율적으로 computation 하기 위해 spconv와 같은 sparse convolution을 사용합니다. 헌데 이 operator는 custom cuda kernel를 사용하기에 onnx, trt로 변환하기가 매우 까다롭죠.이런 이유와 언어모델들에서의 transformer의 .. 2024. 11. 6.
[paper review] EFM3D 논문 리뷰 안녕하세요. 이번 포스팅은 META에서 발표한 EFM3D라는 논문에 대해 리뷰하겠습니다.최근 language model, image model은 인터넷의 방대한 data를 활용해서 self-supervised learning을 통해 백본을 학습합니다. 그리고 다양한 downstream task에 활용하는 것이 현재 주류의 approach인데요. 3D의 경우 데이터를 확보하기가 쉽지 않습니다. EFM은 wearable device를 활용해서 egocetric high quality dataset를 수집하고 이를 처리하는 모델을 EFM3D(3D Egocetric Foundation Model이라고 하였습니다.(output으로 mesh또한 제공합니다.) Meta에서 AR classes등에 디바이스(Projec.. 2024. 11. 4.
[paper review] MonoDETR : Depth-guided Transformer for Monocular 3D Object Detection 논문 리뷰 안녕하세요. 이번에는 monocular 3D detector인 MonoDETR 이라는 논문에 대해서 리뷰하겠습니다.MMlab으로 유명한 CUHK의 mmlab에서 나온 논문으로 ICCV '23 에 publish되었습니다. 기존의 방법들은 보통 2D detector를 통해 대략적인 object center를 파악하고 3D feature를 예측하지만 본 논문은 local visual feature에 국한되지 않고 depth-guided 통해 3D feature를 estimation합니다. Comparison of DETR-based MethodDETR은 2D detector로 NMS, anchor가 필요없이 높은 성능을 자랑합니다. 이를 이용한 3D detector로 여러가지 모델이 있는데 우선 PETR이 있.. 2024. 8. 28.
[paper review] omni3D 논문 리뷰 오늘 리뷰할 논문은 omni3D입니다.메타에서 발표한 mono 3D detection 으로 huge dataset을 활용하는 이름하여 zero-shot monocular camera 3D detection입니다. 최근 3D object detection은 크게 두개의 domain으로 나뉩니다. 하나는 outdoor(autonomous field)이고 다른하나는 indoor입니다. outdoor의 정통한 모델들은 보통 BEV라는 개념을 통해 ground plane을 이용하는 것이 보통입니다. indoor는 물체들의 ground위에 있지 않기에 BEV를 이용하기보다는 다른 transformer등의 아키텍쳐를 사용합니다.본 논문에서는 cubercnn이라는 단일 모델을 제안하고 해당 모델 한가지로 두개의 dom.. 2024. 8. 15.
[paper review] Far3D : Expanding the Horizon for Surround-view 3D Object Detection 논문 리뷰 안녕햐세요. 이번 포스팅은 multi-view를 이용한 3D detector인 Far3D를 리뷰하겠습니다.Far3D는 AAAI 24에 publish되었고 현재 nuscenes camera 3D detection 리더보드에서 sota이고, megvii라는 회사에서 나왔는데 이 megvii라는 곳에서 최근에 camera 3D detector를 발표하고 있습니다. 최근 camera 3d detector는 크게 두가지 타입으로 나뉩니다. query-baes 방법과 BEV-base 방법입니다. 위 논문은 query-base방법을 사용하였고 long range에서도 뛰어난 성능을 보이기 위한 아키텍쳐입니다.   [paper review] PETR 논문리뷰 (3D detection w Cam)안녕하세요 이번에는 PE.. 2024. 7. 8.