AI VIDEO BRIEFING

거대언어모델(LLM) 작동 원리 쉬운 설명 — 자동완성·신경망·역전파까지

휴대폰 자동완성이 어떻게 거대언어모델로 발전했을까. 빈도 기반 언어 모델의 한계부터 신경망이 언어를 근사하는 방식, 경사하강법과 역전파까지 LLM의 기초를 풀어 설명한다.

출처: Graphics in 5 Minutes2022년 7월 17일AI 보조 요약

스마트폰 자동완성에서 거대언어모델까지: LLM의 작동 원리를 처음부터 영상 대표 이미지

핵심 메시지

언어 모델의 목표는 모든 문장에 확률을 부여하는 것이며, 단순히 기존 문장의 빈도를 세는 방식은 한 번도 등장하지 않은 새 문장을 평가하지 못한다.
단어 10개 이상으로 이뤄진 문장의 조합은 10의 50제곱에 달해, 인류가 만들 문장 대부분은 어디에도 존재한 적이 없다.
단어가 바로 앞 단어에만 의존한다고 보는 단순 모델(바이그램·트라이그램)은 멀리 떨어진 단어 사이의 의존 관계(운율 등)를 담지 못한다.
신경망은 함수의 형태를 몰라도 입력-출력 쌍만으로 거의 모든 함수를 근사하는 '보편 근사기'다.
신경망 학습은 오차를 줄이는 방향으로 가중치를 갱신하는 경사하강법이며, 그 기울기는 역전파로 한 번의 역방향 계산에서 구한다.

쉽게 이해하기

영상은 누구나 매일 쓰는 스마트폰 자동완성에서 출발한다. 우리가 'the'를 가장 많이 쓰는 것처럼, 언어 모델의 가장 소박한 형태는 단어와 구절이 과거에 얼마나 자주 등장했는지를 세어 다음에 올 말을 추측하는 빈도 기반 방식이다. 검색창에 무언가를 입력할 때 검색엔진이 질의의 빈도로 점수를 매기는 것도 같은 원리다.

그러나 빈도만으로는 한계가 분명하다. 언어 모델의 진짜 목표는 '모든 문장'에 확률을 부여하는 것인데, 영어 단어는 10만 개가 넘고 한 문장이 10단어를 넘기면 가능한 조합은 10의 50제곱에 이른다. 이렇게 거대한 공간에서 대부분의 문장은 한 번도 사람 눈에 띈 적이 없다. 따라서 기존 문장을 세는 것을 넘어 문법과 문체 같은 구조 자체를 모델링해야 한다.

영상은 밥 딜런의 가사로 간단한 모델을 만들어 보인다. 각 단어가 앞 단어에만 의존한다고 보고 반복되는 단어를 합치면 텍스트는 확률이 붙은 그래프가 되고, 이 그래프를 따라가며 새 문장을 생성할 수 있다. 결과 일부는 그럴듯하지만 대부분은 엉뚱하다. 세 단어 묶음(트라이그램)으로 확장해도 조금 나아질 뿐, 'red'가 세 단어 앞의 'hair'와 13단어 앞의 'bed'에 동시에 얽히는 식의 장거리 의존 관계는 담지 못한다.

그래서 등장하는 것이 신경망이다. 푸리에 급수나 테일러 급수처럼 신경망도 '보편 근사기'여서 거의 모든 함수를 흉내 낼 수 있는데, 결정적 장점은 근사하려는 함수의 정체를 몰라도 입력과 출력 쌍만 있으면 된다는 점이다. 영상은 다섯 개의 노드와 여덟 개의 가중치를 가진 작은 신경망에 x를 통과시키고, 시그모이드 활성화 함수를 거쳐 나온 값을 실제 함수와 비교하며 오차를 정의한다.

학습은 이 오차를 줄이도록 가중치를 반복해 갱신하는 과정이다. 오차를 풍경에 비유하면 가장 낮은 골짜기를 찾는 일이고, 각 지점에서 내리막을 가리키는 음의 기울기를 따라 굴러 내려가는 것이 경사하강법이다. 신경망에서는 이 기울기를 역방향 한 번의 계산으로 구할 수 있는데 이를 역전파라 부르며, 신경망을 떠받치는 핵심 작업이다. 다만 함수가 복잡할수록 더 많은 가중치(용량)와 적절한 활성화 함수 선택이 필요하다.

주요 인사이트

언어 모델링을 '문장에 확률을 매기는 일'로 재정의하면, 왜 단순 통계로는 부족하고 학습 가능한 함수가 필요한지가 자연스럽게 드러난다.
n-그램의 한계(장거리 의존성)는 이후 어텐션·트랜스포머가 풀어야 했던 문제를 미리 보여주는 좋은 출발점이다.
신경망의 힘은 '함수를 몰라도 데이터로 근사한다'는 점에 있으며, 이것이 규칙을 일일이 적던 과거 방식과의 결정적 차이다.
역전파가 기울기를 단 한 번의 역방향 계산으로 구해준다는 사실이 대규모 신경망 학습을 현실적으로 만들었다.
활성화 함수와 신경망의 용량이라는 '설계 결정'이 성능을 좌우한다는 점은, 모델이 클수록 표현력이 커지는 이유와 직결된다.

자주 묻는 질문

빈도 기반 언어 모델의 가장 큰 약점은 무엇인가?

과거에 등장한 적 없는 새로운 문장에는 점수를 매길 수 없다는 점이다. 가능한 문장 조합이 10의 50제곱에 달해 대부분의 문장은 어떤 데이터에도 존재하지 않기 때문이다.

트라이그램 모델은 무엇이고 왜 충분하지 않은가?

연속한 세 단어 묶음으로 앞 두 단어를 보고 다음 단어 확률을 정하는 방식이다. 두 단어만 보는 것보다 낫지만, 운율처럼 멀리 떨어진 단어들 사이의 의존 관계는 여전히 담지 못한다.

신경망이 '보편 근사기'라는 말은 무슨 뜻인가?

함수의 구체적 형태를 몰라도 입력과 출력 예시만으로 거의 모든 함수를 근사할 수 있다는 의미다. 푸리에 급수나 테일러 급수와 같은 성질이다.

역전파(backpropagation)는 어떤 역할을 하는가?

오차 함수의 기울기, 즉 각 가중치에 대한 편미분들을 신경망을 거꾸로 한 번 통과하며 계산한다. 이 기울기를 따라 경사하강법으로 가중치를 갱신해 신경망을 학습시킨다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗