AI VIDEO BRIEFING

LoRA 저순위 적응이란? 발명자 에드워드 후가 설명하는 LLM 효율적 미세조정

Q: LoRA는 누가 어떤 맥락에서 만들었나?

에드워드 후가 마이크로소프트 연구원이던 2021년 초에 발명을 주도했다. 마이크로소프트가 오픈AI와 협력하며 GPT-3의 수익화를 검토하던 중, 전체 미세조정 비용이 지나치게 컸고 기존의 효율적 미세조정 기법들도 한계가 있어 제품화를 염두에 두고 LoRA를 만들었다.

Q: LoRA가 체크포인트 크기를 얼마나 줄였나?

GPT-3 기준으로 체크포인트를 1TB에서 25MB로 줄였다. 전체 1750억 파라미터 대신 470만 개의 파라미터만 학습한 결과다.

Q: LoRA를 쓰면 추론 속도가 느려지나?

그렇지 않다. 추론 시에는 저순위 업데이트를 원래 가중치에 더해 펼쳐 기본 모델과 동일하게 연산하므로 정의상 추가 지연이 없다.

Q: 랭크 값은 어떻게 정하나?

전체 미세조정은 LoRA의 특수한 경우이므로, 원점에 가까운 낮은 랭크에서 시작해 성능이 부족하면 파라미터와 랭크를 늘려 코너 쪽으로 옮겨 가면 된다. 대개 원점 근처에서 충분한 성능이 나오며, 그렇지 않으면 전체 미세조정으로 넘어간다.

LoRA(저순위 적응)를 발명한 에드워드 후가 탄생 배경과 작동 원리를 직접 설명한다. 1TB 체크포인트를 25MB로 줄이면서도 전체 미세조정 성능을 유지하는 비결을 정리했다.

출처: Edward Hu2024년 1월 9일AI 보조 요약

LoRA를 발명자가 직접 설명하다: 거대 모델을 25MB로 미세조정하는 원리 영상 대표 이미지

핵심 메시지

LoRA는 사전학습된 모델의 극소수 파라미터만 학습해, 전체 미세조정에 가까운 성능을 내면서 체크포인트 크기와 학습 비용을 크게 줄인다.
GPT-3 시절 1TB에 달하던 체크포인트를 LoRA로 25MB까지 줄였고, 학습 파라미터는 1750억 개에서 470만 개로 감소했다.
LoRA는 '모든 파라미터를 조정할 필요가 있는가'와 '업데이트의 표현력(행렬 랭크)은 얼마나 필요한가'라는 두 질문으로 전체 미세조정을 일반화한 방법이다.
추론 시 저순위 업데이트를 원래 가중치에 더해 펼치면 기본 모델과 동일하게 동작하므로 추가 지연이 전혀 없다.
행렬 곱을 사용하는 모델이면 어디에나 적용 가능해, 언어 모델뿐 아니라 확산 모델에서도 널리 쓰인다.

쉽게 이해하기

저순위 적응(LoRA)은 확산 모델이나 언어 모델 같은 사전학습 신경망을 효율적으로 맞춤화하는 기법이다. 기본 모델 대비 아주 적은 파라미터만 학습해 학습 속도를 높이고 모델 체크포인트 크기를 크게 줄이면서도, 전체 미세조정의 성능을 거의 그대로 보존한다. 이 영상에서는 LoRA를 발명한 에드워드 후가 직접 그 탄생 배경과 기술적 이점을 설명한다.

발단은 2021년 초였다. 마이크로소프트는 오픈AI와 막 협력을 시작했고, 후의 팀은 'GPT-3로 실제 수익을 낼 수 있는가'라는 질문을 받았다. 그 과정에서 가장 큰 모델조차 few-shot 프롬프팅만으로는 프로덕션 수준에 못 미친다는 사실을 발견했다. 특히 학습 데이터에 거의 없는 자연어→코드 같은 작업에서는 미세조정이 필수였다. 그러나 1750억 파라미터 모델의 체크포인트 하나가 1TB에 달해 저장도 어렵고 로드에 수 분이 걸렸으며, 작업과 사용자를 빠르게 전환해야 하는 상황에는 전혀 맞지 않았다.

후는 LoRA를 '전체 미세조정의 일반화'로 본다. 두 가지 질문을 축으로 삼은 2차원 평면을 상상하면 된다. 첫째, 모든 파라미터를 미세조정해야 하는가. 둘째, 미세조정하는 가중치 행렬의 업데이트는 행렬 랭크 관점에서 얼마나 표현력이 있어야 하는가. 전체 미세조정은 이 평면의 오른쪽 위 끝, 원래 모델은 원점에 해당하며, 그 사이의 어떤 지점이든 유효한 LoRA 설정이 된다.

랭크는 업데이트의 표현력을 조절하는 손잡이다. d×d 행렬은 d차원 공간의 임의 선형변환을 표현하지만, 입력을 먼저 더 낮은 차원(R^r, r<d)으로 보냈다가 다시 d차원으로 되돌리면 표현 가능한 변환이 제한된다. 랭크가 1인 극단에서는 출력을 스칼라배 하는 것만 가능하다. 대신 저장해야 할 파라미터는 d²이 아니라 2×d×r로 줄어든다. LoRA 논문의 놀라운 결과는, 원점에 가까운 지점이 오른쪽 끝의 전체 미세조정만큼 잘 작동한다는 것이었다.

이 관점은 실무 질문에 명확한 답을 준다. 랭크를 얼마로 할지, 언제 전체 미세조정이 필요한지는 원점 근처에서 시작해 점차 코너 쪽으로 옮겨 보면 된다. 영어로만 학습한 모델을 영어와 공통점이 거의 없는 가상의 '화성어'에 적응시키는 경우처럼 사실상 처음부터 재학습해야 한다면 LoRA의 이점이 줄어 전체 미세조정이 낫다. 반면 prefix tuning이나 adapter 같은 방법은 전체 미세조정으로 되돌릴 수 있는 손잡이가 없어, 성능이 부족할 때 다음 단계가 불분명하다는 점에서 LoRA와 다르다.

주요 인사이트

LoRA의 가장 눈에 띄는 이점은 체크포인트 크기 절감이다. GPT-3에서 1TB를 25MB로 줄였는데, 이는 학습 파라미터를 1750억에서 470만으로 줄인 직접적 결과다.
추론 지연이 없다는 점이 핵심이다. 저순위 행렬은 학습 중에만 별도로 존재하고, 추론 시에는 업데이트가 가산적이라 원래 가중치에 합쳐 펼치므로 기본 모델과 똑같이 동작한다. 작업 전환은 업데이트를 빼고 다른 모듈을 더하는 방식이며 병렬 처리가 가능해 단일 순전파보다도 빠르다.
여러 LoRA 모듈을 RAM에 캐시해 두면 모델 전환이 RAM과 VRAM 사이의 데이터 전송으로 끝난다. RAM이 VRAM보다 훨씬 크므로 수천 개 모듈을 디스크 접근 없이 보관할 수 있다.
하나의 기본 모델을 공유하고 배치 내 입력을 서로 다른 LoRA 모듈로 라우팅하면, 각기 다른 작업의 LoRA 학습을 함께 묶어 GPU를 충분히 활용할 수 있다.
LoRA의 가산성을 이용하면 언어→도메인→작업→사용자로 점차 특화되는 트리 구조를 만들 수 있다. 각 노드는 조상들의 합 위에 얹힌 LoRA 모듈이고, 루트 근처는 랭크를 크게 리프 근처는 작게 두며, 모델 전환은 트리 순회가 되어 기본 모델을 한 번만 로드하면 된다.

자주 묻는 질문

LoRA는 누가 어떤 맥락에서 만들었나?

에드워드 후가 마이크로소프트 연구원이던 2021년 초에 발명을 주도했다. 마이크로소프트가 오픈AI와 협력하며 GPT-3의 수익화를 검토하던 중, 전체 미세조정 비용이 지나치게 컸고 기존의 효율적 미세조정 기법들도 한계가 있어 제품화를 염두에 두고 LoRA를 만들었다.

LoRA가 체크포인트 크기를 얼마나 줄였나?

GPT-3 기준으로 체크포인트를 1TB에서 25MB로 줄였다. 전체 1750억 파라미터 대신 470만 개의 파라미터만 학습한 결과다.

LoRA를 쓰면 추론 속도가 느려지나?