Study/ML | DL21 [CV] Computer Vision History 3 : (segment anything , depth anything, 4M) 안녕하세요. 이번 포스팅은 image detection 시리즈 3편을 포스팅하겠습니다. 사실 단일 task의 detection은 DL computer vision에서 사실상 의미가 없는 수준이 되었습니다. 그러면서 multi-modal, foundation model을 통해 zero-shot, few-shot learning이라는 흐름으로 넘어간 상황입니다. 그렇기 때문에 제목을 detection history에서 cv history로 변경하였습니다. 최근 LLM분야에서는 huge foundation model들이 각광을 받고 있습니다. 글로벌 회사들에서 하루가 멀다하고 이런 foundation model들을 배포하고 있는대요. foundation model이란 간단하게 말하면 엄청난 huge data로.. 2024. 1. 1. [Transformer] ViT 코드 구현 안녕하세요. 이번 포스팅은 ViT 코드 구현을 해보려고 합니다. ViT에 대해서는 Transformer 포스팅에서 살짝 언급했었는데요, ViT는 이제 많은 vision task의 backbone으로 쓰이고 있습니다. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고 많은 분야에서 활용되고 있는 아키텍쳐인데요. NLP분야에서 일찍이 탄생했지만 비전 및 jaehoon-daddy.tistory.com 위의 대략적인 overview를 보면 image를 patch(or token)로 나누고 position encoding과 summation후에 Transformer Encoder를 거치게 .. 2023. 12. 27. [3D Detection] Code 분석 (1) : PV-RCNN, SECOND 편 안녕하세요. 이번 포스팅은 3D Detection 코드를 리뷰하도록 하겠습니다. 코드 베이스는 아래의 OpenPCDet를 사용하였습니다. 이론적인 설명은 아래 포스팅 참고하세요 [paper review] PV-RCNN, PV-RCNN ++ 논문 리뷰안녕하세요. 후니대디입니다. PV-RCNN, PV-RCNN++를 이번 포스팅에서 다루겠습니다. PV-RCNN PV-RCNN은 PointVoxel-RCNN은 줄임말로 3D voxel과 point-based을 모두 사용하는 프레임워크를 제시합니다. 대부분의 기jaehoon-daddy.tistory.com 요약하면 기존의 voxel-based의 detection은 ROI-pooling단계 or Head단계에서 sparse한 특징때문에 bbox의 위치를 정확하고 미세.. 2023. 11. 7. [Generative Model] Diffusion Model (1) 안녕하세요. 이번 포스팅은 생성 모델 중 하나로 diffusion model에 대해 포스팅하겠습니다. diffusion model은 최근 많은 이슈가 되었던 stable-Diffusion, DALL-E2, Imagen의 base가 되는 Generative Model입니다. 몇 년전만 하더라도 대표적인 Generative Model하면 GAN을 떠올렸지만 이제는 대부분 Diffusion model을 떠올리게 될 정도로 변화가 빠른 분야입니다. Diffusion은 분자들의 확산을 뜻하는데 분자의 움직임은 Gaussian Distribution을 따릅니다. 즉, 평균과 표준 편차를 따르는 정규 분포로 움직임을 표현할 수 있습니다. 만약 매 스텝마다의 분자의 움직임을 알 수 있다면 이를 확산전의 모양으로 되돌리.. 2023. 10. 13. [3D Detection]Fusion Multimodal Detection(1) : DeepFusion, 3D Dual Field 안녕하세요. 오늘은 3D Detection에서 multimodal Fusion에 대해 알아보겠습니다. Detection분야에서 멀티모달이라하면 보통 camera와 lidar를 이야기합니다. Intro 위의 표는 개인적인 생각(?)을 포함하여 Fusion하는 Approach별로 나눈 표입니다. 우선 point-level방법은 raw data level에서 fusion을 해주는 방법입니다. 어떻게 보면 tightly coupled방법과 동일합니다. 문제는 image, pcd의 domain 영역이 다르기 때문에 이를 fusion method에서 어떻게 처리하는지가 제일 이슈인 방법입니다. 다음으로 proposal-level은 lidar, camera 각각 detection모델을 통해 proposal bbox를.. 2023. 2. 13. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고 많은 분야에서 활용되고 있는 아키텍쳐인데요. NLP분야에서 일찍이 탄생했지만 비전 및 다른 분야에서도 많이 활용되고 있습니다. Transfomer는 Attention is All You Need 라는 논문을 통해 처음 발표되었습니다. 제목에서도 알 수 있듯이 Transformer를 이해하려면 우선 Attention에 대해서 이해를 이해합니다. Attention 우선 attention 메커니즘은 sequence-to-sequence 모델에 적용이 됩니다. seq2seq모델은 글자나 이미지의 feature 등을 입력으로 받아 또 다른 시퀀스를 출력합니다. 이 시퀀스 모델은 encoder와 deco.. 2023. 2. 7. 이전 1 2 3 4 다음