본문 바로가기

Study88

[paper review] StreamPETR : Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection 논문 리뷰 안녕하세요. 이번 포스팅은 StreamPETR이라는 Multi-cam 3D detector에 대해서 포스팅하겠습니다.StreamPETR은 PETR이라는 single frame multi-cam 3D detector에서 sparse query를 기반으로 하여 object-centric temporal mechanism을 적용한 모델입니다. online 방식으로 long-term historical 정보틀ㄹ object query를 통해 프레임단위로 전파하는 전략을 취합니다. PETR모델은 이전 포스팅을 참고하고 이번 포스팅은 memory bank위주로 살펴볼예정입니다. [paper review] PETR 논문리뷰 (3D detection w Cam)안녕하세요 이번에는 PETR 이라는 camera기반의 .. 2025. 4. 22.
[paper review] LLaVa-3D : A Simple yet Effective Pathway to EmpoweringLMMs with 3D Capabilities 논문리뷰 이번 포스팅할 논문은 LLaVa-3D입니다. 최근에 LLM이 발전하면서 2D understanding task 또한 엄청난 속도도 성능이 발전하고 있습니다. 하지만 3D 쪽의 LLM task들은 large-scale 3D vision-language dataset의 부족과 새로운 3D encoder 스탠다드의 부재로 성능이 많이 부족합니다. 기존의 방법들은 대게 2D가 large scale vision-language dataset을 이용해서 학습하는 것도 유사하게 3D에서는 pointcloud로 부터 encoding된 3D feature를 language과 연결하는 식으로 접근하였는데 여기서 데이터 부족문제가 발목을 잡고있고 CLIP, ViT와 같은 강력한 Pretrained model이 없는 것 또한.. 2025. 4. 20.
[paper review] BEV-SUSHI: Multi-Target Multi-Camera 3D Detection and Tracking in Bird’s-Eye View 논문리뷰 포스팅할 논문의 이름은 BEV-SUSHI입니다.BEV-SUSHI는  multi-camera 3D detection and Tracker논문으로 기존의 late association방법과는 다르게 GNN-based tracker를 사용하는데 base가 되는 GNN base의 tracker는 SUSHI로 아래 포스팅 참고하세요.  [paper review] Unifying Short and Long-Term Tracking with Graph Hierarchies 논문 리뷰안녕하세요. 이번 포스팅은 Unifying Short and Long-Term Tracking with Graph Hierarchies, 줄여서 SUSHI라는 tracking 모듈을 리뷰하겠습니다.보통 tracking에서 long-term.. 2025. 4. 11.
[paper review] UCMCTrack 논문 리뷰 이번 포스팅은  Multi-Object Tracking with Uniform Camera Motion Compensation 이라는 MOT논문을 포스팅하겠습니다.UCMCTrack은 카메라 움직임이 큰 환경에서도 robust하게 MOT하기위한 새로운 motion tracking method를 제안합니다. 기존의 CMC는 프레임마다 카메라 보정을 계산해야했는데 UCMCTrack은 영상 시퀀스 전체에 동일한 compensation parameter를 적용합니다. Method위의 그림은 overview입니다. 입력영상에서 bbox를 graound plane으로 매핑합니다. 2D image상의 x,y를 ground상의 u,v로 변환하기 위해 Homography Transfomation행렬 H를 사용합니다. 카메.. 2025. 3. 27.
[paper review] ByteTrack 논문리뷰 이번에 리뷰할 논문은 ByteTrack입니다. Bytetrack은 22 ECCV 논문으로 나온지는 꽤 되었지만 아직도 많이 사용하는 MIT 라이센스의 MOT모델입니다. MOT의 방법은 크게 TBD(tracking by Detection)으로 detection후의 결과를 가지고 tracking하는 방법과 end-to-end로 detection과 tracking까지 한번에 학습하는 방법이 있고, TBD에서 association하는 부분을 filter기반의 방법과 learnable방법(i.e. GNN, attention)으로 나뉩니다. ByteTrack은 TBD에 filter기반의 association method를 사용하는 논문입니다. 기존의 filter기반의 MOT방법들은 low confidence det.. 2025. 3. 27.
[ML] GNN 훑어보기 What is Graph?그래프는 자료구조에서도 많이 나오는 키워드입니다. Node, edge로 구성되어 추상적인 개념을 다루기에 유리합니다. 소셜 네트워크, 바이러스 확산 등등의 모델링할 수 있습니다.그래프를 나타내는 matrix로는 Adjacency matrix, Degree matrix, laplacian matrix등이 있습니다. adjacency matrix는 노드 개수가 N일때 NxN의 크기를 갖습니다. $i,j$가 연결되어있다면 1, 아니면 0의 값을 같습니다. 따라서 symmetric한 성질을 가집니다. Degree matrix의 경우 마찬가지로 NxN의 크기를 갖고 node와 연결된 edge의 개수를 저장합니다.대각행렬의 특징을 갖습니다. Laplacian matrix의 경우 node 자.. 2025. 3. 26.