본문 바로가기

Study88

[CV / Detection] DETR기반의 Image Detector들 안녕하세요. 2D Detection관련하여 이번에는 DETR 모델에 관련해서 포스팅 하려합니다. 포스팅 시점 현재 2D image detection에서 bench mark SOTA에 올라와 있는 모델이 DETR기반의 모델이기 때문에 해당 모델을 포스팅의 주제로 잡았습니다. 시작전에 trasnformer에 대한 배경지식은 아래 포스팅 참고하세요. [Transformer] Transformer & Vision안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고 많은 분야에서 활용되고 있는 아키텍쳐인데요. NLP분야에서 일찍이 탄생했지만 비전 및jaehoon-daddy.tistory.com DETREnd-to-End Object Detection Wi.. 2024. 2. 25.
[paper review] TPV Former (Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction) 이번에 포스팅할 논문은 TPVFormer로 multi-cam기반의 semantic occupancy prediction model입니다. An academic alternative to Tesla's Occupancy Network이라는 부제로 일전의 테슬라 day에서 보여준 autnomous vehicle model의 academic버전이라고 저자는 주장하고 있습니다. 벤치마크에서도 상위권에 랭크하고있습니다.(사실 multi-cam기반의 semantic occupancy or segmentation 논문은 거의없습니다..) Prior Knowledge 시작하기 전에 deformable attention에 대해 이해할 필요가 있습니다. 아래 포스팅에 자세히 서술하였습니다. 간략히 말하면 기존의 atten.. 2024. 2. 25.
[NLP] LLM모델이란? (1) - fine-tune, token, language model vision에서의 foundation model, diffusion model등의 유래는 사실상 자연어 처리분야(NLP)에서 시작되었습니다. 자연어 처리 모델들이 점점 커지면서 최근에는 BERT, GPT, LLAMA, GERME, SOLAR 등의 여러 LLM모델들이 출시되고 있습니다. LLM의 시작부터 최근이야기까지 포스팅해보겠습니다. 자연어 처리 모델은 보통 document classification, sentence pair classification, named entity recongnition, question answering, sentence generation등의 과제가 있고 입력으로 자연어를 받아 임베딩과정을 거쳐 최종적으로 어떤 범주 혹은 어떤 단어일지 확률을 return하는 방식입니다.. 2024. 2. 15.
[paper review] UniTR : A Unified and Efficient Multi-Modal Transformer for BEV Representation 논문 리뷰 안녕하세요. 이번 포스팅은 UniTR이라는 multi-sensor(camera,lidar) detector에 대해 포스팅하겠습니다. 앞서 아래의 BEVfusion과 DSVT논문을 먼저 읽는 것을 추천합니다. [paper review] BEVFusion 논문 리뷰 이번 논문리뷰는 BEVFusion이라는 논문으로 3D Detection에서 multi-modal 그 중에서도 camera-lidar에 관련된 논문입니다. ICRA 23에 publish되고 현재기준으로 multi model 3D detection쪽에서 opensource중에서는 최고성 jaehoon-daddy.tistory.com [paper review] DSVT: Dynamic Sparse Voxel Transformer with Rotated.. 2024. 1. 29.
[paper review] DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets 논문리뷰 안녕하세요. 이번 포스팅은 lidar 3D detection model중 하나로 Transformer를 활용한 DSVT라는 논문입니다. 논문에서 가장 내세우는 것 중에 하나는 기존의 많은 lidar model들이 sparse conv를 처리하기 위해 custom cuda kernel (spconv등)을 사용하여 model deployment에 상당한 제약이 있었는데, DSVT는 standard transformer로 이루어져있어서 배포에 상당히 용이하다는 점입니다. Transformer에 대한 대략적인 이해는 아래의 포스팅 참고하세요. [Transformer] Transformer & Vision 안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되.. 2024. 1. 29.
[CV] Computer Vision History 3 : (segment anything , depth anything, 4M) 안녕하세요. 이번 포스팅은 image detection 시리즈 3편을 포스팅하겠습니다. 사실 단일 task의 detection은 DL computer vision에서 사실상 의미가 없는 수준이 되었습니다. 그러면서 multi-modal, foundation model을 통해 zero-shot, few-shot learning이라는 흐름으로 넘어간 상황입니다. 그렇기 때문에 제목을 detection history에서 cv history로 변경하였습니다. 최근 LLM분야에서는 huge foundation model들이 각광을 받고 있습니다. 글로벌 회사들에서 하루가 멀다하고 이런 foundation model들을 배포하고 있는대요. foundation model이란 간단하게 말하면 엄청난 huge data로.. 2024. 1. 1.