AI VIDEO BRIEFING

AI 작동 원리 쉽게 이해하기 — 학습·정렬·매개변수까지

AI가 프롬프트를 숫자로 바꿔 다음 단어를 예측하는 방식부터 수조 개의 매개변수, 학습과 정렬 과정까지를 직선 회귀에 빗대 아주 쉬운 언어로 풀어낸다.

AI는 어떻게 작동할까? 직선 하나로 이해하는 거대 언어모델의 원리 영상 대표 이미지

핵심 메시지

  • AI는 본질적으로 프롬프트를 숫자(입력값)로 바꾼 뒤 거대한 수식을 계산해 다음 단어(출력값)를 예측하는 장치다.
  • 데이터 두 개에 직선을 맞추면 기울기와 절편이라는 두 개의 매개변수가 생기는데, 진짜 AI는 같은 원리로 수조 개의 매개변수를 가진다.
  • AI를 만드는 과정은 거대한 데이터에 복잡한 모양(수식)을 조금씩 맞춰가는 학습(training)이며, 막대한 연산·전기·비용이 든다.
  • 학습이 끝난 모델은 다시 정렬(alignment)을 거쳐 일반적인 프롬프트에 자연스럽게 답하도록 조정되고, 같은 방식으로 코딩·상담 등 특정 작업에 특화될 수 있다.

쉽게 이해하기

영상은 AI가 마법처럼 보이지만 사실은 아주 단순한 예측 장치라는 점에서 출발한다. 매장 수와 매출이라는 두 데이터 점을 직선으로 잇고, 그 직선의 방정식에 새 매장 수를 넣으면 매출을 예측할 수 있다. 이때 원본 데이터가 없어도 기울기와 절편이라는 두 숫자만 있으면 예측이 가능하다.

거대 언어모델도 원리는 같다. 프롬프트를 숫자로 변환해 그래프의 가로축 좌표로 쓰고, 대응하는 세로축 좌표가 시 안의 첫 단어가 된다. 출력은 정해진 단어가 아니라 특정 단어가 선택될 확률이며, 약간의 변동이 있어 사람처럼 다양하게 답한다. 예측된 단어를 프롬프트에 더해 다시 입력하는 식으로 단어를 하나씩 이어 붙여 문장을 완성한다.

직선과 거대 AI의 차이는 규모다. 직선은 점 두 개에 맞춰 매개변수가 두 개뿐이지만, AI는 수조 개의 데이터에 훨씬 복잡한 모양을 맞추므로 수조 개의 매개변수를 가진다. 기업들이 "우리 AI는 매개변수가 2.3조 개"라고 말하는 것은 결국 그 수식이 얼마나 거대한지를 알려주는 셈이다.

AI를 만드는 첫 단계는 데이터 확보다. 위키피디아 전체, 깃허브, 인터넷의 방대한 텍스트로 "다음 단어 맞히기" 데이터를 만든다. 그다음 데이터에 복잡한 모양을 맞추는 학습이 이뤄지는데, 처음엔 무작위 매개변수로 시작해 데이터와의 거리를 재고 매개변수를 조금씩 조정하기를 반복한다. 수식이 너무 거대해 한 번에 풀 수 없어 단계적으로 맞춰 나가며, 이 과정에 막대한 연산과 전기, 비용이 든다.

학습만으로는 위키피디아식 다음 단어 예측밖에 못 하므로, 정렬 단계가 필요하다. 정렬은 일반적인 질문에 알맞게 답하도록 매개변수를 조금씩 조정하는 과정으로, 적은 데이터로 빠르고 저렴하게 가능하다. 같은 방식으로 코드 작성, 고객 상담, 수학 문제 풀이 등 특정 작업에 특화시킬 수도 있다.

주요 인사이트

  • "매개변수 수"는 모델의 지능 지표가 아니라 모델이 사용하는 수식의 크기를 나타내는 값이다.
  • AI의 출력이 매번 조금씩 다른 이유는 다음 단어를 확률적으로 고르기 때문이며, 이 변동성이 답변을 더 사람처럼 보이게 한다.
  • 학습은 비싸고 느리지만 정렬은 상대적으로 싸고 빠르기 때문에, 하나의 사전학습 모델을 여러 용도로 정렬해 재활용하는 방식이 일반적이다.
  • 거대 모델도 결국 "입력을 숫자로 바꿔 거대한 수식에 넣고 출력을 얻는다"는 직선 회귀와 동일한 골격 위에 서 있다.

자주 묻는 질문

AI는 프롬프트를 어떻게 처리하나요?

컴퓨터는 숫자만 다루기 때문에, AI는 프롬프트를 먼저 숫자로 변환해 가로축 좌표로 삼고 거대한 수식을 계산해 대응하는 세로축 좌표, 즉 다음 단어를 얻습니다. 이렇게 예측한 단어를 다시 프롬프트에 더해 다음 단어를 이어 예측합니다.

"매개변수 수조 개"라는 말은 무슨 뜻인가요?

직선은 기울기와 절편 두 개의 매개변수로 정의되는데, 매개변수는 입력에 곱하고 더하는 값입니다. 거대 AI는 이런 값을 수조 개 가지므로, 매개변수가 수조 개라는 것은 그만큼 거대하고 복잡한 수식을 쓴다는 의미입니다.

학습(training)과 정렬(alignment)은 어떻게 다른가요?

학습은 위키피디아 등 방대한 텍스트로 다음 단어를 예측하도록 수식을 맞추는 과정으로 막대한 비용과 연산이 듭니다. 정렬은 그 모델이 일반적인 질문에 적절히 답하거나 특정 작업을 하도록 매개변수를 조금씩 조정하는 단계로, 적은 데이터로 빠르고 저렴하게 할 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식