딥러닝 공부1 Knowledge distillation 훑어보기 Knowledge distillation의 출발이유에서부터 알아봅시다. 최근에는 몇십억개의 파라미터를 가진 모델들도 흔하지만 실제 다운스트림하여 사용하는 모델은 최대한 모델을 효율적으로 압축해야합니다. prune, weight share, knowledge distillation이 그 방법들의 대표적 예입니다. Knowledge distillation? 큰 모델(Teacher network), 작은 모델(Student network)를 사용해서 큰 모델을 모사하는 작은 모델을 만드는 것이 목적입니다. 예컨대 다음 글자를 예측하는 teacher 모델이 있다고 할 때 student 모델이 teacher모델이 생성한 psuedo label을 이용하는 것 입니다.문제는 teacher의 logit값들의 분포가 매.. 2025. 1. 3. 이전 1 다음