All91 [paper review] MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors 논문리뷰 이번 포스팅은 mono camera 3D detection model인 MonoDGP모델입니다.해당 모델은 MonoDETR이라는 모델을 baseline으로하여 발전시킨 모델로 아래 포스팅 참고하세요. [paper review] MonoDETR : Depth-guided Transformer for Monocular 3D Object Detection 논문 리뷰안녕하세요. 이번에는 monocular 3D detector인 MonoDETR 이라는 논문에 대해서 리뷰하겠습니다.MMlab으로 유명한 CUHK의 mmlab에서 나온 논문으로 ICCV '23 에 publish되었습니다. 기존의 방법들은 보통 2D detectojaehoon-daddy.tistory.comIntro대부분의 multi-camera 3D.. 2025. 1. 21. LLM 훑어보기 LLM (Larget Language Model)의 약자로 그대로 해석하면 대형 언어 모델입니다. NLP에서는 이전의 처리했던 output이 현재의 input을 처리할때 사용이 되어야하기 때문에(문맥파악) RNN, LSTM, GRU 같은 recursive 모델을 사용했었습니다. 하지만 이 operator들을 사용한 모델은 Long-term Dependency, Vanishing Gradients 등의 한계가 존재했습니다. Transformer의 등장이후에 이 문제점들이 어느정도 개선되면서 LLM이 본격적으로 등장하게 되었습니다. [Transformer] Transformer & Vision안녕하세요. 이번 ML관련 포스팅에서는 Transformer관련하여 포스팅하겠습니다. 이미 나온지 꽤 오래되었고.. 2025. 1. 3. Depth Foundation model 훑어보기 최근 depth foundation model들이 많이 발표되었습니다. mono camera만으로도 depth를 상당한 퀄리티로 estimation하는데요. 몇가지 모델에 대해서 알아보겠습니다. 전통의 컴퓨터비전을 이용한 방법으로는 stereo에서 Rectification(정렬)하여 epopolar condition을 만족시킵니다. 이후 disparity를 계산하고 (동일한 feature point가 두 이미지에서 차지하는 픽셀 좌표의 차이) triangulation을 이용해서 depth를 추정합니다.$Z = \frac{f \dot baseline}{Disparity}$ 자세한 부분은 아래 포스팅 참고하세요. [SLAM] 3. 2D-2D geometry, Epipolar Geometry안녕하세요. 후니.. 2025. 1. 3. Knowledge distillation 훑어보기 Knowledge distillation의 출발이유에서부터 알아봅시다. 최근에는 몇십억개의 파라미터를 가진 모델들도 흔하지만 실제 다운스트림하여 사용하는 모델은 최대한 모델을 효율적으로 압축해야합니다. prune, weight share, knowledge distillation이 그 방법들의 대표적 예입니다. Knowledge distillation? 큰 모델(Teacher network), 작은 모델(Student network)를 사용해서 큰 모델을 모사하는 작은 모델을 만드는 것이 목적입니다. 예컨대 다음 글자를 예측하는 teacher 모델이 있다고 할 때 student 모델이 teacher모델이 생성한 psuedo label을 이용하는 것 입니다.문제는 teacher의 logit값들의 분포가 매.. 2025. 1. 3. Self-Supervised Learning 훑어보기 기본적으로 Supervised Learning을 위한 Label확보는 많은 비용을 필요로 합니다. 그렇기에 representation정도는 unlabeled data만으로도 확보할수있지 않을까?하는 시작에서 나온것이 self-supervision입니다. self-supervision즉, unlabeled data를 이용해서 훌륭한 representation(feature라고 생각해도 됩니다) 을 얻고자하는 것이 self-supervision의 목적입니다. 보통 위 그림처럼 이렇게 학습한 representation을 이용해서 downstream task에 적용하여 모델을 평가합니다. (나이브하게 ssl의 정의를 정리하면 백본 네트워크를 효율적으로 학습해서 downstream작업에서 활용할 수 있는 고품질의.. 2024. 12. 13. [paper review] PTv2, PTv3 (Point Transformer) 논문리뷰 안녕하세요. 이번 포스트는 lidar segmentation에서 높은 성능을 보이고 있는 Point Transformer관련 논문리뷰 진행하겠습니다. 간략하게 trasnformer관련 task들을 살펴보면 image 도메인에서는 ViT가 대표적입니다. 문제는 ViT는 이미지 전체에 대해 global attention을 수행하기에 메모리를 많이 잡아먹는 단점이 있어 Swin-Transformer에서 이를 해결하기 위해 grid base의 local attention을 수행하여 이를 해결합니다.Pointcloud도메인에서는 크게 prjection, voxel, point 방법들이 있는데 projection방법은 다양한 방법으로 image plane으로 projection한 후에 2D CNN기반의 model을.. 2024. 12. 12. 이전 1 2 3 4 5 ··· 16 다음