Study91 [paper review] OpenVLA : An Open-Source Vision-Language-Action Model 논문리뷰 이번에 리뷰할 논문은 OpenVLA라는 VLA분야의 대표적인 오픈소스 논문입니다. 24년에 publish되었고 stanford, mit, uc berkeley, google deepmind등이 참여하였습니다. 기존의 VLA들은 보통 public하게 공개된 것이 많이 없고 있다고 하더라도 fine-tune에 많은 어려움이 존재하였습니다. 또한 가장 큰 문제는 generalization인데 unseen data를 처리하는데 많은 어려움이 있습니다.이를 해결하기 위해서 OpenVLA는 7B-params의 model로 970k의 다양한 데이터를 이용하여 학습하였고 Llama2, Dino v2(visual encoder)위에서 만들어졌다고합니다.또한 장점으로 fintune을 해서 새로운 환경에 적용한다고 할때 V.. 2025. 8. 8. [paper review] Detect Anything 3D in the Wild 논문리뷰 안녕하세요. 이번 포스팅은 Detect Anything 3D in the wild이라는 논문이고 최근에 2D detection 분야에서 zero-shot detection은 당연하게 받아드려지고있지만 3D에서는 여러가지 이유(모델, data)로 open-set 3D detector를 개발하기에는 쉽지않았습니다. 본 논문에서는 아래의 방법들을 통해서 open-set 3D detector (monocamera detector)를 소개하였습니다. overview백본(embedding encoder)로는 SAM, DINO 를 사용합니다. SAM은 promptable backbone으로 low-level feature 정보 추출용이고 DINO는 high-level의 feature로 geometry knowledg.. 2025. 7. 20. [paper review] YOLOE: Real-Time Seeing Anything 논문리뷰 안녕하세요. 이번포스팅은 YOLOE라는 논문에 대해서 다루겠습니다.기존의 object detection들은 이제 수준이 많이 올라와서 꽤 정확하고 빠르기까지합니다. 하지만 여전히 한계가 존재하는데요, predefined categories 는 inference할수없는 부분입니다. 그러니깐 학습과정에서 정의한 class이외에는 예측할 수 없다는 점입니다.YOLOE는 아래의 방법들을 사용하여 open-set의 문제도 풀수있는 model이라고 할 수 있겠습니다. 기존의 open-vocabulary object detection/segmentation method들을 살펴보면 Text Prompt기반의 방법은 보통 vision-language pretraining방법을 사용합니다. image features와 .. 2025. 7. 11. [paper review] StreamPETR : Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection 논문 리뷰 안녕하세요. 이번 포스팅은 StreamPETR이라는 Multi-cam 3D detector에 대해서 포스팅하겠습니다.StreamPETR은 PETR이라는 single frame multi-cam 3D detector에서 sparse query를 기반으로 하여 object-centric temporal mechanism을 적용한 모델입니다. online 방식으로 long-term historical 정보틀ㄹ object query를 통해 프레임단위로 전파하는 전략을 취합니다. PETR모델은 이전 포스팅을 참고하고 이번 포스팅은 memory bank위주로 살펴볼예정입니다. [paper review] PETR 논문리뷰 (3D detection w Cam)안녕하세요 이번에는 PETR 이라는 camera기반의 .. 2025. 4. 22. [paper review] LLaVa-3D : A Simple yet Effective Pathway to EmpoweringLMMs with 3D Capabilities 논문리뷰 이번 포스팅할 논문은 LLaVa-3D입니다. 최근에 LLM이 발전하면서 2D understanding task 또한 엄청난 속도도 성능이 발전하고 있습니다. 하지만 3D 쪽의 LLM task들은 large-scale 3D vision-language dataset의 부족과 새로운 3D encoder 스탠다드의 부재로 성능이 많이 부족합니다. 기존의 방법들은 대게 2D가 large scale vision-language dataset을 이용해서 학습하는 것도 유사하게 3D에서는 pointcloud로 부터 encoding된 3D feature를 language과 연결하는 식으로 접근하였는데 여기서 데이터 부족문제가 발목을 잡고있고 CLIP, ViT와 같은 강력한 Pretrained model이 없는 것 또한.. 2025. 4. 20. [paper review] BEV-SUSHI: Multi-Target Multi-Camera 3D Detection and Tracking in Bird’s-Eye View 논문리뷰 포스팅할 논문의 이름은 BEV-SUSHI입니다.BEV-SUSHI는 multi-camera 3D detection and Tracker논문으로 기존의 late association방법과는 다르게 GNN-based tracker를 사용하는데 base가 되는 GNN base의 tracker는 SUSHI로 아래 포스팅 참고하세요. [paper review] Unifying Short and Long-Term Tracking with Graph Hierarchies 논문 리뷰안녕하세요. 이번 포스팅은 Unifying Short and Long-Term Tracking with Graph Hierarchies, 줄여서 SUSHI라는 tracking 모듈을 리뷰하겠습니다.보통 tracking에서 long-term.. 2025. 4. 11. 이전 1 2 3 4 ··· 16 다음