AI VIDEO BRIEFING
AI 모델 작동 원리 입문: 모델이란 무엇이고 어떻게 학습·개선되는가
AI 모델을 '현실을 단순화한 입력-출력 기계'로 정의하고, 매장 매출 예측이라는 간단한 회귀 예시로 모델을 만들고 학습시키고 개선하는 과정과 과적합 문제까지 설명한다.

핵심 메시지
쉽게 이해하기
확산 모델, 대규모 언어 모델, 신경망 모델처럼 AI를 이야기할 때 '모델'이라는 말이 끊임없이 등장한다. 영상은 그 전에 세 가지 근본 질문, 즉 모델이란 무엇이고, 어떻게 작동하며, 어떻게 개선하는지를 차례로 짚는다. 모델은 현실을 단순화해 표현한 것이다. 비용과 매출을 스프레드시트로 단순화한 재무 모델이나, 건물을 주요 특징으로 표현해 시공 전 설계를 검증하는 구조 모델처럼, 더 나은 결정과 예측을 돕기 위해 만든다. AI 모델은 문장을 쓰거나 이미지를 알아보는 등 인간 지능의 한 단면을 흉내 내며, 근본적으로는 정해진 절차에 따라 입력에서 출력을 만드는 기계다.
작동 원리는 매장 매출 예측이라는 단순한 예로 드러난다. 새 소매점의 평균 매출을 예측하려면 먼저 일반적으로 정확한 예측을 하는 모델을 '만들고', 그다음 우리 매장에 '적용'해야 한다. 만드는 단계는 세 가지를 정한다. 첫째, 어떤 입력 변수를 쓸지다. 매장 크기, 우편번호, 평균 상품 가격 등 여러 후보 중 여기서는 매장 크기 하나만 고른다. 둘째, 입력을 출력으로 바꾸는 수학적 형태다. 단순한 선형 관계일 수도, 신경망처럼 복잡할 수도 있다.
표본 데이터를 보면 큰 매장일수록 매출이 높은 관계가 보이므로, 출력 매출 y = a × 입력 크기 x + b 라는 직선으로 표현한다. 세 번째 단계는 가장 잘 맞는 직선을 만드는 a와 b, 즉 매개변수 값을 정하는 일이다. 엑셀로도 가능한 단순 회귀가 흔히 쓰이며, 표본 데이터에 모델을 맞추는 이 과정을 훈련(학습)이라 부른다. 컴퓨터 알고리즘, 곧 기계가 최적의 매개변수를 학습하면 이를 머신러닝이라 하고, 이 단순한 선형 모델 역시 AI 모델에 속한다.
모델은 세 가지 방법으로 개선할 수 있다. 더 큰 데이터로 다시 학습하거나 다른 학습 알고리즘으로 더 예측력 있는 매개변수를 찾고, 우편번호·평균 가격 같은 입력 변수를 더하고, 직선 대신 곡선처럼 수학적 형태 자체를 바꾸는 것이다. 대체로 매개변수가 많고 형태가 복잡할수록 더 미묘한 관계를 담아 예측이 좋아진다. 매개변수가 학습 단계에서 조정할 '다이얼'을 더 많이 주기 때문이다.
그러나 데이터가 적은데 매개변수만 늘리면 오히려 정확도가 떨어진다. 표본이 네 개뿐인데 매개변수 네 개짜리 곡선을 쓰면 그 네 점에는 완벽히 맞지만, 실제 입력에는 엉뚱한 결과를 낸다. 이것이 과적합이며, 몇 안 되는 데이터에서 존재하지도 않는 패턴을 찾는 음모론적 사고에 비유된다. 과적합을 피하면서 매개변수를 늘리려면 더 많은 데이터가 필요하고, 그만큼 훨씬 큰 연산 능력이 든다. 1,750억 개의 매개변수를 가진 챗GPT 기반 모델이 최근에야 가능해진 이유가 바로 이 컴퓨팅의 발전이다.
주요 인사이트
- 모델은 본질적으로 '입력을 받아 정해진 절차로 출력을 내는 기계'이며, AI 모델은 그중 인간 지능의 한 단면을 흉내 내는 것을 가리킨다.
- 모델 '만들기'는 입력 변수 선택, 수학적 형태 결정, 매개변수 최적화(학습)라는 세 단계로 명확히 나뉜다.
- 단순 선형 회귀조차 머신러닝이자 AI 모델이라는 점에서, AI는 거창한 기술이 아니라 데이터로 매개변수를 맞추는 연속선 위에 있다.
- 매개변수는 표현력을 높이는 '다이얼'이지만, 데이터가 부족하면 과적합을 불러 오히려 예측을 망친다.
- 복잡한 모델의 성능은 데이터 양과 연산 능력에 묶여 있으며, GPT 규모의 모델은 컴퓨팅 발전 덕분에 비로소 현실이 됐다.
자주 묻는 질문
영상에서 말하는 '모델'이란 무엇인가요?
모델은 현실을 단순화해 표현한 것으로, 더 나은 결정이나 예측을 위해 정해진 절차에 따라 입력에서 출력을 만들어내는 기계입니다. AI 모델은 그중 문장 쓰기나 이미지 인식처럼 인간 지능의 한 단면을 흉내 내는 모델을 말합니다.
모델을 만드는 과정은 어떤 단계로 이뤄지나요?
세 단계입니다. 첫째, 어떤 입력 변수를 쓸지 정하고, 둘째, 입력을 출력으로 바꾸는 수학적 형태(선형 관계나 신경망 등)를 정하며, 셋째, 표본 데이터에 가장 잘 맞도록 매개변수 값을 최적화합니다. 이 마지막 과정을 훈련 또는 학습이라고 합니다.
과적합(overfitting)이란 무엇인가요?
데이터는 적은데 매개변수를 너무 많이 둬서, 표본에는 완벽히 맞지만 실제 입력에는 엉뚱한 예측을 내는 문제입니다. 영상은 이를 몇 안 되는 데이터로 존재하지 않는 패턴을 찾는 음모론적 사고에 비유합니다.
GPT 같은 거대 모델이 최근에야 가능해진 이유는 무엇인가요?
매개변수를 늘리면서 과적합을 피하려면 훨씬 많은 학습 데이터가 필요하고, 그 데이터로 학습하려면 막대한 연산 능력이 듭니다. 1,750억 개의 매개변수를 가진 챗GPT 기반 모델은 이러한 컴퓨팅의 발전 덕분에 비로소 가능해졌습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗