Study/ML, DL tutorial

    [Optimization] 모델 경량화 실습 (ONNX, TensorRT of DSVT)

    안녕하세요. 이번 포스팅은 딥러닝 모델 경량화 실습이라는 제목으로 이전 포스팅에 이어서 경량화 예제코드를 분석해 볼 생각입니다. 경량화에 대한 이론은 아래 포스팅 참고하세요. [Optimization] 모델 경량화 이론 (ONNX, TensorRT) 안녕하세요. 이번에는 모델 경량화 관련하여 포스팅하도록 하겠습니다. 경량화의 목적 경량화를 하는 이유는 보통 edge device에서 딥러닝 모델을 inference하고 싶은데 보통의 edge device의 리소스가 jaehoon-daddy.tistory.com 실습할 모델은 DSVT라는 모델입니다. pointcloud detection model인데 기존의 pointcloud model은 3D backbone에서 3D convolution을 이용합니다. 그..

    [Optimization] 모델 경량화 이론 (ONNX, TensorRT)

    안녕하세요. 이번에는 모델 경량화 관련하여 포스팅하도록 하겠습니다. 경량화의 목적 경량화를 하는 이유는 보통 edge device에서 딥러닝 모델을 inference하고 싶은데 보통의 edge device의 리소스가 매우 제한된 환경일 경우 경량화를 생각합니다. 즉, 제한된 리소스에서 latency를 줄이고 throughtput을 높이기 위해 사용합니다. 속도를 높이기위해서는 quantinization을 하게 되는데 그 과정에서 정확도를 줄어들게 됩니다. 최대한 정확도를 유지하면서 속도를 높이는 것이 경량화의 목적이라고 할 수 있습니다. [참고] FLOPs? FLOPs는 "Floating Point Operations per Second"의 약어로, 한 번의 연산에 필요한 부동 소수점 연산의 수를 나타내..

    [CV / Detection] DETR기반의 Image Detector들

    안녕하세요. 2D Detection관련하여 이번에는 DETR 모델에 관련해서 포스팅 하려합니다. 포스팅 시점 현재 2D image detection에서 bench mark SOTA에 올라와 있는 모델이 DETR기반의 모델이기 때문에 해당 모델을 포스팅의 주제로 잡았습니다. 시작전에 trasnformer에 대한 배경지식은 아래 포스팅 참고하세요. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고 많은 분야에서 활용되고 있는 아키텍쳐인데요. NLP분야에서 일찍이 탄생했지만 비전 및 jaehoon-daddy.tistory.com DETR End-to-End Object Detection..

    [NLP] LLM모델이란? (1) - fine-tune, token, language model

    vision에서의 foundation model, diffusion model등의 유래는 사실상 자연어 처리분야(NLP)에서 시작되었습니다. 자연어 처리 모델들이 점점 커지면서 최근에는 BERT, GPT, LLAMA, GERME, SOLAR 등의 여러 LLM모델들이 출시되고 있습니다. LLM의 시작부터 최근이야기까지 포스팅해보겠습니다. 자연어 처리 모델은 보통 document classification, sentence pair classification, named entity recongnition, question answering, sentence generation등의 과제가 있고 입력으로 자연어를 받아 임베딩과정을 거쳐 최종적으로 어떤 범주 혹은 어떤 단어일지 확률을 return하는 방식입니다..

    [CV] Computer Vision History 3 : (segment anything , depth anything, 4M)

    안녕하세요. 이번 포스팅은 image detection 시리즈 3편을 포스팅하겠습니다. 사실 단일 task의 detection은 DL computer vision에서 사실상 의미가 없는 수준이 되었습니다. 그러면서 multi-modal, foundation model을 통해 zero-shot, few-shot learning이라는 흐름으로 넘어간 상황입니다. 그렇기 때문에 제목을 detection history에서 cv history로 변경하였습니다. 최근 LLM분야에서는 huge foundation model들이 각광을 받고 있습니다. 글로벌 회사들에서 하루가 멀다하고 이런 foundation model들을 배포하고 있는대요. foundation model이란 간단하게 말하면 엄청난 huge data로..

    [Transformer] ViT 코드 구현

    안녕하세요. 이번 포스팅은 ViT 코드 구현을 해보려고 합니다. ViT에 대해서는 Transformer 포스팅에서 살짝 언급했었는데요, ViT는 이제 많은 vision task의 backbone으로 쓰이고 있습니다. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고 많은 분야에서 활용되고 있는 아키텍쳐인데요. NLP분야에서 일찍이 탄생했지만 비전 및 jaehoon-daddy.tistory.com 위의 대략적인 overview를 보면 image를 patch(or token)로 나누고 position encoding과 summation후에 Transformer Encoder를 거치게 ..

    [3D Detection] Code 분석 (1) : PV-RCNN, SECOND 편

    안녕하세요. 이번 포스팅은 3D Detection 코드를 리뷰하도록 하겠습니다. 코드 베이스는 아래의 OpenPCDet를 사용하였습니다. 이론적인 설명은 아래 포스팅 참고하세요 [paper review] PV-RCNN, PV-RCNN ++ 논문 리뷰안녕하세요. 후니대디입니다. PV-RCNN, PV-RCNN++를 이번 포스팅에서 다루겠습니다. PV-RCNN PV-RCNN은 PointVoxel-RCNN은 줄임말로 3D voxel과 point-based을 모두 사용하는 프레임워크를 제시합니다. 대부분의 기jaehoon-daddy.tistory.com 요약하면 기존의 voxel-based의 detection은 ROI-pooling단계 or Head단계에서 sparse한 특징때문에 bbox의 위치를 정확하고 미세..

    [Generative Model] Diffusion Model (1)

    안녕하세요. 이번 포스팅은 생성 모델 중 하나로 diffusion model에 대해 포스팅하겠습니다. diffusion model은 최근 많은 이슈가 되었던 stable-Diffusion, DALL-E2, Imagen의 base가 되는 Generative Model입니다. 몇 년전만 하더라도 대표적인 Generative Model하면 GAN을 떠올렸지만 이제는 대부분 Diffusion model을 떠올리게 될 정도로 변화가 빠른 분야입니다. Diffusion은 분자들의 확산을 뜻하는데 분자의 움직임은 Gaussian Distribution을 따릅니다. 즉, 평균과 표준 편차를 따르는 정규 분포로 움직임을 표현할 수 있습니다. 만약 매 스텝마다의 분자의 움직임을 알 수 있다면 이를 확산전의 모양으로 되돌리..