Study/Paper Review

    [paper review] UniTR : A Unified and Efficient Multi-Modal Transformer for BEV Representation 논문 리뷰

    안녕하세요. 이번 포스팅은 UniTR이라는 multi-sensor(camera,lidar) detector에 대해 포스팅하겠습니다. 앞서 아래의 BEVfusion과 DSVT논문을 먼저 읽는 것을 추천합니다. [paper review] BEVFusion 논문 리뷰 이번 논문리뷰는 BEVFusion이라는 논문으로 3D Detection에서 multi-modal 그 중에서도 camera-lidar에 관련된 논문입니다. ICRA 23에 publish되고 현재기준으로 multi model 3D detection쪽에서 opensource중에서는 최고성 jaehoon-daddy.tistory.com [paper review] DSVT: Dynamic Sparse Voxel Transformer with Rotated..

    [paper review] DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets 논문리뷰

    안녕하세요. 이번 포스팅은 lidar 3D detection model중 하나로 Transformer를 활용한 DSVT라는 논문입니다. 논문에서 가장 내세우는 것 중에 하나는 기존의 많은 lidar model들이 sparse conv를 처리하기 위해 custom cuda kernel (spconv등)을 사용하여 model deployment에 상당한 제약이 있었는데, DSVT는 standard transformer로 이루어져있어서 배포에 상당히 용이하다는 점입니다. Transformer에 대한 대략적인 이해는 아래의 포스팅 참고하세요. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되..

    [paper review] panoptic nerf(3D-2D Label transfer) 논문 리뷰

    이번 포스팅은 panoptic nerf로 3D-2D label transfer관련 논문입니다. 저자분은 KITTI360데이터셋을 구축한 분들 중에 한분으로 현재 고국에서 교수님 생활을 하시면서 후속작을 내신거로 보입니다. Intro 저자분의 경험치에서 나온거겠지만 보통 3D에서 separate instance를 라벨링하는게 2D에서 보다 쉽다고 합니다. sparse하기 때문에 instance가 어느정도 떨어져 있기 때문이겠죠. 그렇기 때문에 3D에서 labeling 정보를 2D(Image)로 transfer하는 것이 합리적이라고 주장합니다. 저자분이 KITTI360을 구축했을때는 이를 위해 CRF라는 method를 사용하여 이를 해결하였는데 최근 NeRF가 각광을 받으면서 이 NeRF를 통해 3D lab..

    [paper review] Text-to-3D Using Gaussian Splatting(GSGEN) 논문리뷰

    안녕하세요. 이번 포스팅은 text-to-3D의 분야의 논문인 GSGEN을 리뷰해보겠습니다. 제목에서 알 수 있듯이 Gaussian Splatting을 사용한 방법론이고 칭화대에서 ICLR '24에 발표한 논문입니다. 사전에 현재 Text-to-3D의 기반이 되고 있는 DreamFusion논문을 보시면 좋습니다. [Paper Review] DreamFusion 논문 리뷰 안녕하세요. 오늘 포스팅할 논문은 DreamFusion으로 google에서 ICRA'23에 publish한 Text-to-3D 논문입니다. 최근 multi modal generative model의 발전이 눈부시고 여러 글로벌 기업에서 하루가 멀다하고 이와 관련 jaehoon-daddy.tistory.com Intro 기존의 text-t..

    [Paper Review] DreamFusion 논문 리뷰

    안녕하세요. 오늘 포스팅할 논문은 DreamFusion으로 google에서 ICRA'23에 publish한 Text-to-3D 논문입니다. 최근 multi modal generative model의 발전이 눈부시고 여러 글로벌 기업에서 하루가 멀다하고 이와 관련된 product를 출시하고 있습니다. 그로인해 3D genertive에 관한 논문들도 최근 많이 나오고 있습니다. DreamField를 시작으로 오늘 포스팅할 DreamFusion, Magic3D, SweetDreamer 등 많은 논문들이 나오고 있습니다. Intro DreamFusion은 Diffusion model과 Nerf-like model을 잘 짬뽕하고 그럴듯한 loss function을 만들어내서 iteration을 돌린다라고 한 줄로..

    [paper review] Spherical Transformer for LiDAR-based 3D Recognition 논문리뷰

    포스팅할 논문은 현재 기준 semantic segmentation leaderboard인 sematic KITTI에서 SoTA 성능, NuScenes 데이터에서는 rank2 에 랭크되어 있는 Spherical Transformer 모델입니다. 해당 논문은 기존의 transformer를 사용한 segmentation 모델의 약점인 SPARSE DISTANCE POINTS를 radial window self-attention을 이용하여 문제를 푼 모델입니다. Intro 기존의 방법들은 local operator를 사용하거나(SparseConv), 2D CNN등을 응용하여 사용하였습니다. 이 방법들은 sparse distant point문제의 해결에 굉장히 취약합니다. 그 원인은 receptive field가..

    [paper review] SSDA3D 논문 리뷰

    안녕하세요. 이번 포스팅은 SSDA3D라는 pointcloud 3D detection 모델의 Domain Adaptation관련 논문을 리뷰하겠습니다. AAAI에 publish된 해당 논문은 이전에 포스팅한 DA과는 다르게 최소의 target data의 label을 필요로 합니다. [paper review]Density-Insensitive Unsupervised Domain Adaption on 3D Object Detection 논문 리뷰 (model generalization) 이번 포스팅은 3D object detection에서 DA(domain adaptation)에 관련된 DUDA논문의 리뷰입니다. 해당 논문의 문제정의부터 보면 최근 3D Object Detection (좀 더 자세하게는 po..

    [paper review] BEVFusion 논문 리뷰

    이번 논문리뷰는 BEVFusion이라는 논문으로 3D Detection에서 multi-modal 그 중에서도 camera-lidar에 관련된 논문입니다. ICRA 23에 publish되고 현재기준으로 multi model 3D detection쪽에서 opensource중에서는 최고성능을 자랑하고 multi task로 쓸 수 있는 유용한 multi-model 3D detector라서 살펴보게 되었습니다. Intro 기존의 camera-lidar 를 fusion하여 Detection하는 모델들은 많았습니다. 대표적인 방법으로는 calibration matrix는 알고있다는 가정하에 lidar points들을 camera domain에 projection하여 fusion하는 방법입니다. 이 방법은 간편하지만 ..