본문 바로가기

딥러닝 기초3

Knowledge distillation 훑어보기 Knowledge distillation의 출발이유에서부터 알아봅시다. 최근에는 몇십억개의 파라미터를 가진 모델들도 흔하지만 실제 다운스트림하여 사용하는 모델은 최대한 모델을 효율적으로 압축해야합니다. prune, weight share, knowledge distillation이 그 방법들의 대표적 예입니다. Knowledge distillation? 큰 모델(Teacher network), 작은 모델(Student network)를 사용해서 큰 모델을 모사하는 작은 모델을 만드는 것이 목적입니다. 예컨대 다음 글자를 예측하는 teacher 모델이 있다고 할 때 student 모델이 teacher모델이 생성한 psuedo label을 이용하는 것 입니다.문제는 teacher의 logit값들의 분포가 매.. 2025. 1. 3.
Self-Supervised Learning 훑어보기 기본적으로 Supervised Learning을 위한 Label확보는 많은 비용을 필요로 합니다. 그렇기에 representation정도는 unlabeled data만으로도 확보할수있지 않을까?하는 시작에서 나온것이 self-supervision입니다. self-supervision즉, unlabeled data를 이용해서 훌륭한 representation(feature라고 생각해도 됩니다) 을 얻고자하는 것이 self-supervision의 목적입니다. 보통 위 그림처럼 이렇게 학습한 representation을 이용해서 downstream task에 적용하여 모델을 평가합니다. (나이브하게 ssl의 정의를 정리하면 백본 네트워크를 효율적으로 학습해서 downstream작업에서 활용할 수 있는 고품질의.. 2024. 12. 13.
[ML/CV] 헷갈리는 용어정리 학습 방법에 따른 분류Supervised Learning- GT label이 있는 상태에서 모델을 학습시키는 방법- 예) 고양이, 개 사진이 있으면 각각 고양이 개라는 label이 있는 경우 Unsupervised Learning- GT label이 없는 데이터로 패턴을 학습하는 방법- 예) 클러스터링, KNN -> 이상 탐지, 추천 시스템 Self-Supervised Learning- 모델이 자체적으로 label을 생성해서 학습하는 방법- 예) GPT 모델, DINO Weakly Supervised Learning- label이 약간 부족하거나 noise가 있는 데이터로 학습하는 방법 모델의 역할에 따른 분류Foundation Model- 방대한 데이터로 학습한 대규모 모델- 예) GPT-4, CLIP.. 2024. 11. 5.