Study

    [paper review] UniTR : A Unified and Efficient Multi-Modal Transformer for BEV Representation 논문 리뷰

    안녕하세요. 이번 포스팅은 UniTR이라는 multi-sensor(camera,lidar) detector에 대해 포스팅하겠습니다. 앞서 아래의 BEVfusion과 DSVT논문을 먼저 읽는 것을 추천합니다. [paper review] BEVFusion 논문 리뷰 이번 논문리뷰는 BEVFusion이라는 논문으로 3D Detection에서 multi-modal 그 중에서도 camera-lidar에 관련된 논문입니다. ICRA 23에 publish되고 현재기준으로 multi model 3D detection쪽에서 opensource중에서는 최고성 jaehoon-daddy.tistory.com [paper review] DSVT: Dynamic Sparse Voxel Transformer with Rotated..

    [paper review] DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets 논문리뷰

    안녕하세요. 이번 포스팅은 lidar 3D detection model중 하나로 Transformer를 활용한 DSVT라는 논문입니다. 논문에서 가장 내세우는 것 중에 하나는 기존의 많은 lidar model들이 sparse conv를 처리하기 위해 custom cuda kernel (spconv등)을 사용하여 model deployment에 상당한 제약이 있었는데, DSVT는 standard transformer로 이루어져있어서 배포에 상당히 용이하다는 점입니다. Transformer에 대한 대략적인 이해는 아래의 포스팅 참고하세요. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되..

    [CV] Computer Vision History 3 : (segment anything , depth anything, 4M)

    안녕하세요. 이번 포스팅은 image detection 시리즈 3편을 포스팅하겠습니다. 사실 단일 task의 detection은 DL computer vision에서 사실상 의미가 없는 수준이 되었습니다. 그러면서 multi-modal, foundation model을 통해 zero-shot, few-shot learning이라는 흐름으로 넘어간 상황입니다. 그렇기 때문에 제목을 detection history에서 cv history로 변경하였습니다. 최근 LLM분야에서는 huge foundation model들이 각광을 받고 있습니다. 글로벌 회사들에서 하루가 멀다하고 이런 foundation model들을 배포하고 있는대요. foundation model이란 간단하게 말하면 엄청난 huge data로..

    [Transformer] ViT 코드 구현

    안녕하세요. 이번 포스팅은 ViT 코드 구현을 해보려고 합니다. ViT에 대해서는 Transformer 포스팅에서 살짝 언급했었는데요, ViT는 이제 많은 vision task의 backbone으로 쓰이고 있습니다. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고 많은 분야에서 활용되고 있는 아키텍쳐인데요. NLP분야에서 일찍이 탄생했지만 비전 및 jaehoon-daddy.tistory.com 위의 대략적인 overview를 보면 image를 patch(or token)로 나누고 position encoding과 summation후에 Transformer Encoder를 거치게 ..

    [paper review] panoptic nerf(3D-2D Label transfer) 논문 리뷰

    이번 포스팅은 panoptic nerf로 3D-2D label transfer관련 논문입니다. 저자분은 KITTI360데이터셋을 구축한 분들 중에 한분으로 현재 고국에서 교수님 생활을 하시면서 후속작을 내신거로 보입니다. Intro 저자분의 경험치에서 나온거겠지만 보통 3D에서 separate instance를 라벨링하는게 2D에서 보다 쉽다고 합니다. sparse하기 때문에 instance가 어느정도 떨어져 있기 때문이겠죠. 그렇기 때문에 3D에서 labeling 정보를 2D(Image)로 transfer하는 것이 합리적이라고 주장합니다. 저자분이 KITTI360을 구축했을때는 이를 위해 CRF라는 method를 사용하여 이를 해결하였는데 최근 NeRF가 각광을 받으면서 이 NeRF를 통해 3D lab..

    [paper review] Text-to-3D Using Gaussian Splatting(GSGEN) 논문리뷰

    안녕하세요. 이번 포스팅은 text-to-3D의 분야의 논문인 GSGEN을 리뷰해보겠습니다. 제목에서 알 수 있듯이 Gaussian Splatting을 사용한 방법론이고 칭화대에서 ICLR '24에 발표한 논문입니다. 사전에 현재 Text-to-3D의 기반이 되고 있는 DreamFusion논문을 보시면 좋습니다. [Paper Review] DreamFusion 논문 리뷰 안녕하세요. 오늘 포스팅할 논문은 DreamFusion으로 google에서 ICRA'23에 publish한 Text-to-3D 논문입니다. 최근 multi modal generative model의 발전이 눈부시고 여러 글로벌 기업에서 하루가 멀다하고 이와 관련 jaehoon-daddy.tistory.com Intro 기존의 text-t..

    [3DV] 간략한 3DV history 발전과정(SfM - NeRF - Gaussian Splatting)

    안녕하세요. 이번 포스팅은 3DV가 요근래 어떤식으로 발전 혹은 연구되어왔고 또 최근에 나온 기법들은 무엇들이 있는지 general한 시각으로 살펴보겠습니다. 3DV에서는 결국 사람이 보는 2D plane으로 어떻게 잘 rasterization하냐 혹은 2D plane의 pixel들을 어떻게 3D로 reconstruction하냐라는 문제로 압축할 수 있습니다. 그래서 초기에는 이를 위한 여러 파라미터를 줄이는 방식으로 연구를 하였다면 2000년도에 SfM이 대표적입니다. [paper review] Structure from Motion Revisited, Colmap 논문 리뷰 안녕하세요. 후니대디입니다. colmap으로 유명한 SfM revisited 논문을 리뷰해보겠습니다. review 해당논문은 S..

    [3D Detection] Code 분석 (1) : PV-RCNN, SECOND 편

    안녕하세요. 이번 포스팅은 3D Detection 코드를 리뷰하도록 하겠습니다. 코드 베이스는 아래의 OpenPCDet를 사용하였습니다. 이론적인 설명은 아래 포스팅 참고하세요 [paper review] PV-RCNN, PV-RCNN ++ 논문 리뷰안녕하세요. 후니대디입니다. PV-RCNN, PV-RCNN++를 이번 포스팅에서 다루겠습니다. PV-RCNN PV-RCNN은 PointVoxel-RCNN은 줄임말로 3D voxel과 point-based을 모두 사용하는 프레임워크를 제시합니다. 대부분의 기jaehoon-daddy.tistory.com 요약하면 기존의 voxel-based의 detection은 ROI-pooling단계 or Head단계에서 sparse한 특징때문에 bbox의 위치를 정확하고 미세..