Study/ML, DL tutorial
[Transformer] ViT 코드 구현
안녕하세요. 이번 포스팅은 ViT 코드 구현을 해보려고 합니다. ViT에 대해서는 Transformer 포스팅에서 살짝 언급했었는데요, ViT는 이제 많은 vision task의 backbone으로 쓰이고 있습니다. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고 많은 분야에서 활용되고 있는 아키텍쳐인데요. NLP분야에서 일찍이 탄생했지만 비전 및 jaehoon-daddy.tistory.com 위의 대략적인 overview를 보면 image를 patch(or token)로 나누고 position encoding과 summation후에 Transformer Encoder를 거치게 ..
[3D Detection] Code 분석 (1) : PV-RCNN, SECOND 편
안녕하세요. 이번 포스팅은 3D Detection 코드를 리뷰하도록 하겠습니다. 코드 베이스는 아래의 OpenPCDet를 사용하였습니다. 이론적인 설명은 아래 포스팅 참고하세요 [paper review] PV-RCNN, PV-RCNN ++ 논문 리뷰안녕하세요. 후니대디입니다. PV-RCNN, PV-RCNN++를 이번 포스팅에서 다루겠습니다. PV-RCNN PV-RCNN은 PointVoxel-RCNN은 줄임말로 3D voxel과 point-based을 모두 사용하는 프레임워크를 제시합니다. 대부분의 기jaehoon-daddy.tistory.com 요약하면 기존의 voxel-based의 detection은 ROI-pooling단계 or Head단계에서 sparse한 특징때문에 bbox의 위치를 정확하고 미세..
[Generative Model] Diffusion Model (1)
안녕하세요. 이번 포스팅은 생성 모델 중 하나로 diffusion model에 대해 포스팅하겠습니다. diffusion model은 최근 많은 이슈가 되었던 stable-Diffusion, DALL-E2, Imagen의 base가 되는 Generative Model입니다. 몇 년전만 하더라도 대표적인 Generative Model하면 GAN을 떠올렸지만 이제는 대부분 Diffusion model을 떠올리게 될 정도로 변화가 빠른 분야입니다. Diffusion은 분자들의 확산을 뜻하는데 분자의 움직임은 Gaussian Distribution을 따릅니다. 즉, 평균과 표준 편차를 따르는 정규 분포로 움직임을 표현할 수 있습니다. 만약 매 스텝마다의 분자의 움직임을 알 수 있다면 이를 확산전의 모양으로 되돌리..
[3D Detection]Fusion Multimodal Detection(1) : DeepFusion, 3D Dual Field
안녕하세요. 오늘은 3D Detection에서 multimodal Fusion에 대해 알아보겠습니다. Detection분야에서 멀티모달이라하면 보통 camera와 lidar를 이야기합니다. Intro 위의 표는 개인적인 생각(?)을 포함하여 Fusion하는 Approach별로 나눈 표입니다. 우선 point-level방법은 raw data level에서 fusion을 해주는 방법입니다. 어떻게 보면 tightly coupled방법과 동일합니다. 문제는 image, pcd의 domain 영역이 다르기 때문에 이를 fusion method에서 어떻게 처리하는지가 제일 이슈인 방법입니다. 다음으로 proposal-level은 lidar, camera 각각 detection모델을 통해 proposal bbox를..
[Transformer] Transformer & Vision
안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고 많은 분야에서 활용되고 있는 아키텍쳐인데요. NLP분야에서 일찍이 탄생했지만 비전 및 다른 분야에서도 많이 활용되고 있습니다. Transfomer는 Attention is All You Need 라는 논문을 통해 처음 발표되었습니다. 제목에서도 알 수 있듯이 Transformer를 이해하려면 우선 Attention에 대해서 이해를 이해합니다. Attention 우선 attention 메커니즘은 sequence-to-sequence 모델에 적용이 됩니다. seq2seq모델은 글자나 이미지의 feature 등을 입력으로 받아 또 다른 시퀀스를 출력합니다. 이 시퀀스 모델은 encoder와 deco..
[Detection] Object Detection History 3탄
안녕하세요. 후니대디입니다. 이번에는 object detection history 3탄 one stage 관련하여 포스팅하겠습니다. 이전의 포스팅은 아래 참고하세요. [Detection] Object Detection History 1탄 Object Detection의 발전과정 및 개요에 대해 키워드 중심으로 전체적인 맥락을 살펴보도록 하겠습니다. 정의 우선 정의 부터 살펴보자면, Classification/ Localization/ Detection/ Segmentation으로 구분하여 비 jaehoon-daddy.tistory.com [Detection] Object Detection History 2탄 [Detection] Object Detection History 1탄 Object Detecti..
[Detection] Object Detection History 2탄
[Detection] Object Detection History 1탄 Object Detection의 발전과정 및 개요에 대해 키워드 중심으로 전체적인 맥락을 살펴보도록 하겠습니다. 정의 우선 정의 부터 살펴보자면, Classification/ Localization/ Detection/ Segmentation으로 구분하여 비 jaehoon-daddy.tistory.com 안녕하세요. 지난 포스팅에 이어서 object detection 관련하여 포스팅을 이어 나가겠습니다. R-CNN 계열 1. R-CNN R-CNN은 VOC2012 대회에서 CNN을 활용하여 이전의 방법보다 30%가 넘는 큰 성능향상을 보였습니다. 특징 및 전체적인 흐름은 아래와 같습니다. Selective Search알고리즘을 이용하여..
[Detection] Object Detection History 1탄
안녕하세요. 후니대디입니다. 이번 포스팅에서는 Object Detection의 발전과정 및 개요에 대해 키워드 중심으로 전체적인 맥락을 살펴보도록 하겠습니다. Definition 우선 정의 부터 살펴보자면, Classification/ Localization/ Detection/ Segmentation으로 구분하여 비교해보겠습니다. Classification : 뜻 그대로 이 사진이 개인지, 고양인지 분류하는 것을 뜻합니다. 정확하게 Object가 사진에서 어디에 있는지는 중요하지 않습니다. Localizaion : 단 하나의 Object의 위치를 Bounding Box로 지정하여 찾는 것을 뜻합니다. Object Detection : 여러개의 Object들에 대해 위치를 BBox로 지정하여 찾습니다. ..