딥러닝 양자화
2025. 3. 17. 21:04ㆍ인공지능/DNN
딥러닝 모델에서 사용하는 숫자의 표현 범위를 줄여서 연산 속도를 높이고 메모리 사용량을 줄이는 기술이다.
딥러닝 모델은 기본적으로 32비트 부동소수점 연산을 사용한다. (float)
32비트 부동소수점을 더 낮은 비트를 사용하여 모델이 연산할 수 있게 하는 방법이다.
예를 들어 -10 ~ 30 까지의 수가 있다고 하면
최소 값인 -20을 uint8의 최소 값인 0에 대응시키고, 20을 최대 값인 255에 적용시키면
32비트를 8비트로 바꿀 수 있다.
평균적으로 모델 크기는 1/4 감소, 추론 속도는 2~4배 상승, 메모리도 2 ~ 4 절약의 효과가 있다.
크게 3가지의 방법이 있다.
사후 양자화 (PTQ, Post-Training Quatization)
학습되어있는 모델을 양자화한다.
양자화 인식 학습 (QAT, Quantization-Aware Training)
학습 과정에서부터 양자화를 적용하여 학습
완전 정수 양자화 (Fully Integer Quantization)
모델의 가중치뿐만 아니라 연산까지 모두 정수 연산으로 변환
'인공지능 > DNN' 카테고리의 다른 글
| 딥러닝에 대하여 쉽게 알아보기 1편 (2) | 2025.09.03 |
|---|