딥러닝 모델이 점점 커지면서 이를 실제 환경에 적용할 때 계산 비용, 메모리 사용량, 추론 속도 등의 문제가 발생합니다.이러한 문제를 해결하기 위해 Qunatization, Purning, Distillation 등의 모델 경량화 기법이 사용됩니다.LLM을 효율적으로 훈련하는 방법(=경량화 기법)에 대해 알아보겠습니다.Quantization👉 Quantization은 딥러닝 모델에서 사용하는 파라미터나 연산을 더 작고 정수화된 숫자(예: float16, int8) 로 바꿔서 모델의 크기를 줄이고 연산 속도 및 메모리 효율을 높이는 기술왜 이 기술을 사용할까? GPU 메모리 사용량을 줄이기 위해느린 연산 속도를 개선하기 위해작은 기기(모바일, 임베디드 등)에서도 모델을 사용 가능하게 하기 위해Quanti..