Study/ML, DL tutorial

    [Lidar detection] AI Challenge 3위 솔루션 분석

    안녕하세요. 운이 좋게도 과학기술정보통신부에서 진행한 AI challenge에서 3위를 수상하였습니다. 해서 이번 포스팅은 그 과정을 공유하고자 합니다.전체코드는 https://github.com/ies0411/DNA_challenge.git 해당 레포에 전체 공유되어있습니다. Data ProcessingLidar detector의 대표적인 framework인 openpcdet를 사용하여 챌린지에 임하였습니다. 해당 프레임워크는 gt sampling을 위해서 gt point들을 pkl파일로 따로 관리합니다. 또한 custom dataset은 npy파일로 저장을하고 pkl로 다시 convert하는 과정을 거칩니다. 이 과정은 기존의 openpcdet의 메뉴얼대로 동일하게 진행하였습니다. Baseline M..

    [Detection] AI challenge 1위 솔루션 분석

    안녕하세요. 운이 좋게도 이번에 한화에서 진행한(Oct '24) IR sensor를 이용한 객체인식 AI challenge에서 1위를 수상하였습니다.해서 이번 포스팅은 그 과정을 공유하고자 합니다. Data Preprocessing우선 데이터 전처리 부분입니다. IR sensor는 쉽게 생각하면 열화상 카메라라고 생각하시면 됩니다. 들어오는 input값은 마치 흑백카메라와 같이 채널이 한개인 image shape이라고 보시면 됩니다.위의 과정을 통해 잘못된 labeling을 수정하였습니다. 뒤의 augmentation과정에서 albumentation을 추가로 사용하였는데 잘못된 labeling정보때문에 런타임 에러가 발생할 수 있습니다. 두번째로는 GT의 클래스 분포도를 확인하였습니다.빈도가 가장 큰 클..

    [3D Detection] Monocular camera 3D detection ?

    안녕하세요.이번 포스팅은 monocular camera 3D detection입니다. 최근 줄여서 mono cam 3D detector들을 조사하고 있는데, 적절한 survey 논문도 없고 해서 간략하게 공부한 바를 기록하게 되었습니다. 기본적으로 3D detection을 위한 센서로는 여러가지가 있을 수 있지만, 보통 Lidar 센서가 많이 사용되고 multi-camera가 사용됩니다. 여러대의 camera를 이용하면 3D 공간의 recognition이 좀 더 쉬워지고 metric 레벨의 depth도 추정이 가능하게 됩니다.하나의 camera으로는 여러 제약이 존재하는 것이 사실입니다. 특히 depth map을 absolute scale로 예측하는 것이 사실상 불가능하다고 여겨왔습니다. 하지만 최근 d..

    [Optimization] 모델 경량화 실습 (ONNX, TensorRT of DSVT)

    안녕하세요. 이번 포스팅은 딥러닝 모델 경량화 실습이라는 제목으로 이전 포스팅에 이어서 경량화 예제코드를 분석해 볼 생각입니다. 경량화에 대한 이론은 아래 포스팅 참고하세요. [Optimization] 모델 경량화 이론 (ONNX, TensorRT) 안녕하세요. 이번에는 모델 경량화 관련하여 포스팅하도록 하겠습니다. 경량화의 목적 경량화를 하는 이유는 보통 edge device에서 딥러닝 모델을 inference하고 싶은데 보통의 edge device의 리소스가 jaehoon-daddy.tistory.com 실습할 모델은 DSVT라는 모델입니다. pointcloud detection model인데 기존의 pointcloud model은 3D backbone에서 3D convolution을 이용합니다. 그..

    [Optimization] 모델 경량화 이론 (ONNX, TensorRT)

    안녕하세요. 이번에는 모델 경량화 관련하여 포스팅하도록 하겠습니다. 경량화의 목적 경량화를 하는 이유는 보통 edge device에서 딥러닝 모델을 inference하고 싶은데 보통의 edge device의 리소스가 매우 제한된 환경일 경우 경량화를 생각합니다. 즉, 제한된 리소스에서 latency를 줄이고 throughtput을 높이기 위해 사용합니다. 속도를 높이기위해서는 quantinization을 하게 되는데 그 과정에서 정확도를 줄어들게 됩니다. 최대한 정확도를 유지하면서 속도를 높이는 것이 경량화의 목적이라고 할 수 있습니다. [참고] FLOPs? FLOPs는 "Floating Point Operations per Second"의 약어로, 한 번의 연산에 필요한 부동 소수점 연산의 수를 나타내..

    [CV / Detection] DETR기반의 Image Detector들

    안녕하세요. 2D Detection관련하여 이번에는 DETR 모델에 관련해서 포스팅 하려합니다. 포스팅 시점 현재 2D image detection에서 bench mark SOTA에 올라와 있는 모델이 DETR기반의 모델이기 때문에 해당 모델을 포스팅의 주제로 잡았습니다. 시작전에 trasnformer에 대한 배경지식은 아래 포스팅 참고하세요. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고 많은 분야에서 활용되고 있는 아키텍쳐인데요. NLP분야에서 일찍이 탄생했지만 비전 및 jaehoon-daddy.tistory.com DETR End-to-End Object Detection..

    [NLP] LLM모델이란? (1) - fine-tune, token, language model

    vision에서의 foundation model, diffusion model등의 유래는 사실상 자연어 처리분야(NLP)에서 시작되었습니다. 자연어 처리 모델들이 점점 커지면서 최근에는 BERT, GPT, LLAMA, GERME, SOLAR 등의 여러 LLM모델들이 출시되고 있습니다. LLM의 시작부터 최근이야기까지 포스팅해보겠습니다. 자연어 처리 모델은 보통 document classification, sentence pair classification, named entity recongnition, question answering, sentence generation등의 과제가 있고 입력으로 자연어를 받아 임베딩과정을 거쳐 최종적으로 어떤 범주 혹은 어떤 단어일지 확률을 return하는 방식입니다..

    [CV] Computer Vision History 3 : (segment anything , depth anything, 4M)

    안녕하세요. 이번 포스팅은 image detection 시리즈 3편을 포스팅하겠습니다. 사실 단일 task의 detection은 DL computer vision에서 사실상 의미가 없는 수준이 되었습니다. 그러면서 multi-modal, foundation model을 통해 zero-shot, few-shot learning이라는 흐름으로 넘어간 상황입니다. 그렇기 때문에 제목을 detection history에서 cv history로 변경하였습니다. 최근 LLM분야에서는 huge foundation model들이 각광을 받고 있습니다. 글로벌 회사들에서 하루가 멀다하고 이런 foundation model들을 배포하고 있는대요. foundation model이란 간단하게 말하면 엄청난 huge data로..