APEX1 [Optimization] 모델 경량화 이론 (ONNX, TensorRT) 안녕하세요. 이번에는 모델 경량화 관련하여 포스팅하도록 하겠습니다. 경량화의 목적 경량화를 하는 이유는 보통 edge device에서 딥러닝 모델을 inference하고 싶은데 보통의 edge device의 리소스가 매우 제한된 환경일 경우 경량화를 생각합니다. 즉, 제한된 리소스에서 latency를 줄이고 throughtput을 높이기 위해 사용합니다. 속도를 높이기위해서는 quantinization을 하게 되는데 그 과정에서 정확도를 줄어들게 됩니다. 최대한 정확도를 유지하면서 속도를 높이는 것이 경량화의 목적이라고 할 수 있습니다. [참고] FLOPs? FLOPs는 "Floating Point Operations per Second"의 약어로, 한 번의 연산에 필요한 부동 소수점 연산의 수를 나타내.. 2024. 4. 15. 이전 1 다음