AI VIDEO BRIEFING

LoRA·QLoRA 심층 해설: 저랭크 분해, 랭크와 알파, 메모리 절약 원리

거대 언어 모델의 효율적 미세조정 기법 LoRA와 QLoRA를 깊이 있게 풀었다. 변화량을 작은 두 행렬로 분해하는 원리, 랭크와 알파·드롭아웃, 그리고 논문이 짚은 실전 교훈을 정리한다.

출처: Mark Hennings2023년 12월 14일AI 보조 요약

LoRA와 QLoRA로 거대 모델을 저렴하게 미세조정하기 영상 대표 이미지

핵심 메시지

LoRA는 모델의 모든 가중치를 직접 바꾸는 대신, 바꾸고 싶은 '변화량'을 곱해서 원본 크기 행렬을 만드는 두 개의 작은 행렬로 추적한다.
랭크가 정밀도와 학습 파라미터 수를 정한다. 70억 파라미터 모델은 랭크를 512로 높여도 8,600만 개만 학습하면 돼, 모델이 클수록 갱신 비율은 더 작아진다.
QLoRA는 16비트 가중치를 4비트로 양자화해 메모리를 더 아끼되, 값이 정규분포를 따른다는 점을 이용해 미세조정 후 원래 정밀도를 복원한다.
논문의 실전 교훈은 '모든 선형 층을 학습해야 전체 미세조정 성능에 도달하고, 랭크는 8~256 범위에선 성능에 큰 영향이 없다'는 것이다.

쉽게 이해하기

영상은 먼저 파인튜닝이 전체 학습 과정에서 어디에 놓이는지 짚는다. 약 2조 토큰으로 다음 단어를 예측하도록 사전학습해 기반 모델을 만든 뒤, 그 이후는 대부분 파인튜닝이다. 인스트럭트 튜닝으로 챗GPT 같은 대화 모델을 만들고, 안전 튜닝으로 원치 않는 동작을 막으며, 법률·금융 같은 특정 도메인·과제로 더 다듬는다.

전체 파라미터 미세조정은 70억·130억처럼 모든 가중치를 여러 에폭에 걸쳐 갱신하는데, 그 많은 수를 저장·갱신하려면 막대한 메모리가 필요해 아주 큰 GPU나 클러스터로만 가능하다. 하드웨어에 묶이면 다양한 시도를 해 볼 수 없다는 점이 LoRA가 풀려는 문제다.

LoRA의 핵심은 두 가지다. 첫째, 가중치를 직접 바꾸지 않고 '바꾸고 싶은 변화량'을 따로 추적한다. 둘째, 그 변화량을 곱하면 원본 층 크기가 되는 두 개의 작은 행렬(행렬 분해)로 저장한다. 5×5(25개) 행렬을 랭크 1이면 10개 파라미터로 근사하는 식인데, 정밀도를 일부 희생하는 대신 큰 효율을 얻는다. 모델이 클수록 같은 랭크가 차지하는 학습 비율은 더 작아져, 70억 파라미터 모델에 랭크 512를 써도 8,600만 개만 학습된다.

랭크를 얼마로 둘지에 대해 영상은, 대부분의 다운스트림 과제는 모델이 이미 관련 지식을 갖고 있어 거친 갱신으로도 좋은 결과가 나온다고 전한다. 다만 복잡한 행동이나 기존 학습과 상충하는 행동(예: 건강 질문을 막도록 안전 튜닝된 모델을 영양 상담용으로 바꾸기)을 가르칠 때는 높은 랭크가 도움이 될 수 있다.

이어 QLoRA를 'LoRA 2.0'으로 소개한다. 16비트 부동소수점 파라미터를 4비트로 압축하되, 값들이 종 모양 정규분포를 따른다는 사실을 이용해 4비트로 위치만 표시했다가 끝에 원래 정밀도를 복원하는 영리한 방식이라 LoRA보다도 메모리를 크게 아낀다. 끝으로 논문의 교훈을 정리한다. ①모든 선형 트랜스포머 층을 학습해야 전체 미세조정 성능에 맞먹는다, ②랭크는 8~256 범위에서 성능에 유의미한 차이를 주지 않는다(논문은 64를 택함), ③알파는 '알파÷랭크'로 가중치 변화의 스케일을 정하는 까다로운 하이퍼파라미터이며 학습률과 부분적으로 중복된다, ④드롭아웃은 과적합을 막는다(7B·13B는 0.1, 33B·65B는 0.05).

주요 인사이트

LoRA에서 '학습 파라미터'는 작은 두 행렬이지만, 이들은 항상 곱해져 원본 크기 행렬로 더해진다. 즉 더 작은 집합으로 작업할 뿐 모델 전체를 조정하는 효과를 낸다.
랭크는 정밀도와 비용의 손잡이다. 모델이 커질수록 같은 랭크가 차지하는 비율이 작아져, 매우 큰 모델도 비교적 적은 파라미터로 미세조정할 수 있다.
QLoRA의 통찰은 '압축했다가 복원'이다. 파라미터가 정규분포를 따른다는 성질을 이용해 4비트로 줄여 학습하고도 원래 정밀도를 되찾아 메모리를 크게 절약한다.
실전에서는 랭크보다 '얼마나 많은 층에 LoRA를 적용하느냐'가 더 중요하다. 논문은 모든 선형 층을 학습해야 전체 미세조정에 필적한다고 강조한다.

자주 묻는 질문

LoRA는 어떻게 메모리를 절약하나요?

거대한 가중치 행렬을 통째로 갱신하는 대신, 바꾸고 싶은 변화량을 곱하면 원본 크기가 되는 두 개의 작은 행렬로 추적합니다. 이 작은 행렬만 학습하므로 저장·갱신할 파라미터가 크게 줄어듭니다.

QLoRA는 LoRA와 무엇이 다른가요?

QLoRA는 16비트 파라미터를 4비트로 양자화해 메모리를 더 아끼는 LoRA의 양자화 버전입니다. 파라미터가 정규분포를 따른다는 점을 이용해 4비트로 줄였다가 미세조정 후 원래 정밀도를 복원하는 것이 핵심입니다.

랭크는 어떤 값으로 설정해야 하나요?

영상이 인용한 논문에 따르면 8~256 범위에서는 랭크가 성능에 큰 차이를 주지 않으며, 논문은 64를 사용했습니다. 다만 복잡하거나 기존 학습과 상충하는 행동을 가르칠 때는 더 높은 랭크가 도움이 될 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗