AI VIDEO BRIEFING

AI 모델 작동 원리 입문: 모델이란 무엇이고 어떻게 학습·개선되는가

AI 모델을 '현실을 단순화한 입력-출력 기계'로 정의하고, 매장 매출 예측이라는 간단한 회귀 예시로 모델을 만들고 학습시키고 개선하는 과정과 과적합 문제까지 설명한다.

출처: Primerli2024년 4월 19일AI 보조 요약

AI 모델이란 무엇인가: 회귀에서 GPT까지, 모델의 작동 원리 영상 대표 이미지

핵심 메시지

모델은 현실을 단순화해 표현한 것으로, 더 나은 의사결정이나 예측을 위해 입력을 받아 출력을 내는 기계다.
모델을 만드는 일은 입력 변수 선택, 수학적 형태 결정, 그리고 표본 데이터로 매개변수를 맞추는 학습의 세 단계로 이뤄진다.
컴퓨터 알고리즘이 최적의 매개변수를 찾아내는 과정을 머신러닝이라 하며, 단순한 선형 회귀도 일종의 AI 모델이다.
매개변수를 늘리면 더 미묘한 관계를 담을 수 있지만, 데이터가 적으면 존재하지 않는 패턴을 좇는 과적합에 빠진다.
GPT처럼 1,750억 개의 매개변수를 가진 모델은 방대한 데이터와 그에 걸맞은 연산 능력이 갖춰진 최근에야 가능해졌다.

쉽게 이해하기

확산 모델, 대규모 언어 모델, 신경망 모델처럼 AI를 이야기할 때 '모델'이라는 말이 끊임없이 등장한다. 영상은 그 전에 세 가지 근본 질문, 즉 모델이란 무엇이고, 어떻게 작동하며, 어떻게 개선하는지를 차례로 짚는다. 모델은 현실을 단순화해 표현한 것이다. 비용과 매출을 스프레드시트로 단순화한 재무 모델이나, 건물을 주요 특징으로 표현해 시공 전 설계를 검증하는 구조 모델처럼, 더 나은 결정과 예측을 돕기 위해 만든다. AI 모델은 문장을 쓰거나 이미지를 알아보는 등 인간 지능의 한 단면을 흉내 내며, 근본적으로는 정해진 절차에 따라 입력에서 출력을 만드는 기계다.

작동 원리는 매장 매출 예측이라는 단순한 예로 드러난다. 새 소매점의 평균 매출을 예측하려면 먼저 일반적으로 정확한 예측을 하는 모델을 '만들고', 그다음 우리 매장에 '적용'해야 한다. 만드는 단계는 세 가지를 정한다. 첫째, 어떤 입력 변수를 쓸지다. 매장 크기, 우편번호, 평균 상품 가격 등 여러 후보 중 여기서는 매장 크기 하나만 고른다. 둘째, 입력을 출력으로 바꾸는 수학적 형태다. 단순한 선형 관계일 수도, 신경망처럼 복잡할 수도 있다.

표본 데이터를 보면 큰 매장일수록 매출이 높은 관계가 보이므로, 출력 매출 y = a × 입력 크기 x + b 라는 직선으로 표현한다. 세 번째 단계는 가장 잘 맞는 직선을 만드는 a와 b, 즉 매개변수 값을 정하는 일이다. 엑셀로도 가능한 단순 회귀가 흔히 쓰이며, 표본 데이터에 모델을 맞추는 이 과정을 훈련(학습)이라 부른다. 컴퓨터 알고리즘, 곧 기계가 최적의 매개변수를 학습하면 이를 머신러닝이라 하고, 이 단순한 선형 모델 역시 AI 모델에 속한다.

모델은 세 가지 방법으로 개선할 수 있다. 더 큰 데이터로 다시 학습하거나 다른 학습 알고리즘으로 더 예측력 있는 매개변수를 찾고, 우편번호·평균 가격 같은 입력 변수를 더하고, 직선 대신 곡선처럼 수학적 형태 자체를 바꾸는 것이다. 대체로 매개변수가 많고 형태가 복잡할수록 더 미묘한 관계를 담아 예측이 좋아진다. 매개변수가 학습 단계에서 조정할 '다이얼'을 더 많이 주기 때문이다.

그러나 데이터가 적은데 매개변수만 늘리면 오히려 정확도가 떨어진다. 표본이 네 개뿐인데 매개변수 네 개짜리 곡선을 쓰면 그 네 점에는 완벽히 맞지만, 실제 입력에는 엉뚱한 결과를 낸다. 이것이 과적합이며, 몇 안 되는 데이터에서 존재하지도 않는 패턴을 찾는 음모론적 사고에 비유된다. 과적합을 피하면서 매개변수를 늘리려면 더 많은 데이터가 필요하고, 그만큼 훨씬 큰 연산 능력이 든다. 1,750억 개의 매개변수를 가진 챗GPT 기반 모델이 최근에야 가능해진 이유가 바로 이 컴퓨팅의 발전이다.

주요 인사이트

모델은 본질적으로 '입력을 받아 정해진 절차로 출력을 내는 기계'이며, AI 모델은 그중 인간 지능의 한 단면을 흉내 내는 것을 가리킨다.
모델 '만들기'는 입력 변수 선택, 수학적 형태 결정, 매개변수 최적화(학습)라는 세 단계로 명확히 나뉜다.
단순 선형 회귀조차 머신러닝이자 AI 모델이라는 점에서, AI는 거창한 기술이 아니라 데이터로 매개변수를 맞추는 연속선 위에 있다.
매개변수는 표현력을 높이는 '다이얼'이지만, 데이터가 부족하면 과적합을 불러 오히려 예측을 망친다.
복잡한 모델의 성능은 데이터 양과 연산 능력에 묶여 있으며, GPT 규모의 모델은 컴퓨팅 발전 덕분에 비로소 현실이 됐다.

자주 묻는 질문

영상에서 말하는 '모델'이란 무엇인가요?

모델은 현실을 단순화해 표현한 것으로, 더 나은 결정이나 예측을 위해 정해진 절차에 따라 입력에서 출력을 만들어내는 기계입니다. AI 모델은 그중 문장 쓰기나 이미지 인식처럼 인간 지능의 한 단면을 흉내 내는 모델을 말합니다.

모델을 만드는 과정은 어떤 단계로 이뤄지나요?

세 단계입니다. 첫째, 어떤 입력 변수를 쓸지 정하고, 둘째, 입력을 출력으로 바꾸는 수학적 형태(선형 관계나 신경망 등)를 정하며, 셋째, 표본 데이터에 가장 잘 맞도록 매개변수 값을 최적화합니다. 이 마지막 과정을 훈련 또는 학습이라고 합니다.

과적합(overfitting)이란 무엇인가요?

데이터는 적은데 매개변수를 너무 많이 둬서, 표본에는 완벽히 맞지만 실제 입력에는 엉뚱한 예측을 내는 문제입니다. 영상은 이를 몇 안 되는 데이터로 존재하지 않는 패턴을 찾는 음모론적 사고에 비유합니다.

GPT 같은 거대 모델이 최근에야 가능해진 이유는 무엇인가요?

매개변수를 늘리면서 과적합을 피하려면 훨씬 많은 학습 데이터가 필요하고, 그 데이터로 학습하려면 막대한 연산 능력이 듭니다. 1,750억 개의 매개변수를 가진 챗GPT 기반 모델은 이러한 컴퓨팅의 발전 덕분에 비로소 가능해졌습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗