AI VIDEO BRIEFING
전이 학습(Transfer Learning) 쉽게 이해하기: 사전학습·미세조정과 BERT 질의응답 사례
전이 학습 입문 해설. 한 문제로 사전학습한 모델을 다른 관련 문제에 미세조정해 학습 데이터를 크게 아끼는 원리와, 번역·BERT 질의응답 사례 및 경량 모델 DistilBERT 활용까지 일반 독자 눈높이로 정리했다.

핵심 메시지
쉽게 이해하기
영상은 "쉽게 익힌 능력"이라는 비유로 전이 학습을 소개한다. 발표자는 어릴 때부터 한 대중 연설 경험 덕분에 가르치는 일이 비교적 수월했다고 말하는데, 한 분야에서 쌓은 기술이 다른 분야로 옮겨가는 것이 바로 전이 학습의 직관이다. 신경망에서도 한 문제로 배운 지식을 다른 문제의 출발점으로 삼는다.
먼저 일반적인 신경망 학습을 보자. 질문에 답하는 모델을 만들려면 약 100만 개의 질문-답변 쌍으로 학습시키고, 추론 단계에서 처음 보는 질문에도 답을 내놓게 한다. 영어를 프랑스어로 번역하는 모델도 마찬가지로 100만 개의 영-프 문장 쌍이 필요하다. 문제는 이런 100만 건 규모의 데이터셋을 만드는 일이 매우 어렵다는 점이다. 영어→스페인어처럼 새 문제를 풀려면 또다시 처음부터 100만 건을 모아야 한다.
전이 학습은 이 부담을 덜어준다. 영어→스페인어 번역기를 만들고 싶다면, 먼저 영어→프랑스어 같은 문제로 모델을 학습한 뒤 원하는 문제(영어→스페인어)에 미세조정(fine-tuning)한다. 이렇게 하면 한 문제로 학습한 모델을 출발점으로 지식을 옮길 수 있어, 영어→스페인어 데이터가 그만큼 적어도 모델이 학습할 수 있다.
구체적 사례로 영상은 BERT를 이용한 질의응답을 든다. 질의응답은 맥락(context)과 질문을 주면 답을 맥락 안에서 뽑아내는 작업으로, 출력은 답의 시작 위치와 끝 위치를 가리키는 두 숫자다. BERT는 트랜스포머의 인코더 부분을 쌓은 모델로, 사전학습과 미세조정 두 단계로 훈련된다. 사전학습에서는 가려진 단어를 맞히는 마스크 언어 모델링과, 두 번째 문장이 첫 문장에 자연스럽게 이어지는지 판단하는 다음 문장 예측을 학습한다.
사용자가 직접 사전학습할 필요는 없다. 공개된 사전학습 모델을 내려받아 자신의 용도에 맞게 미세조정하면 된다. 영상은 더 빠르고 메모리를 적게 쓰는 경량 버전인 DistilBERT를 사용해, 토큰을 768차원 임베딩으로 바꾸고 각 토큰이 답의 시작·끝일 확률을 예측하는 과정을 보여준다. 사용한 SQuAD 데이터셋은 학습 8만 7천 건, 평가 1만 건 규모로, 처음부터 학습할 때 필요했을 수백만 건보다 훨씬 적다. 이것이 전이 학습이 데이터를 절약해 주는 핵심이다.
주요 인사이트
- 전이 학습의 본질은 비슷한 문제들 사이에 공유되는 지식을 재활용해, 새 문제마다 처음부터 거대한 데이터셋을 모으는 낭비를 피하는 것이다.
- 사전학습(범용 과제)과 미세조정(특정 과제)의 분업 덕분에, 비용이 큰 사전학습은 한 번만 하고 가벼운 미세조정만 반복하면 된다.
- BERT의 마스크 언어 모델링과 다음 문장 예측처럼, 정답 라벨 없이도 대량의 텍스트로 언어의 일반 패턴을 먼저 익히게 하는 것이 사전학습의 핵심이다.
- DistilBERT처럼 더 작고 빠른 모델로도 미세조정이 가능해, 적은 데이터와 자원으로 실용적 성능을 얻을 수 있다.
자주 묻는 질문
전이 학습이란 무엇인가요?
한 문제로 학습한 모델을 출발점으로 삼아 다른 관련 문제를 풀도록 미세조정하는 기법입니다. 덕분에 새 문제에 필요한 학습 데이터를 크게 줄일 수 있습니다.
전이 학습은 왜 데이터를 절약해 주나요?
예컨대 영어→스페인어 번역기를 만들 때 영어→프랑스어로 먼저 학습한 모델을 미세조정하면, 100만 건 규모의 데이터를 처음부터 다시 모으지 않아도 됩니다.
BERT는 어떻게 전이 학습을 활용하나요?
BERT는 마스크 언어 모델링과 다음 문장 예측으로 사전학습한 뒤, 질의응답 같은 특정 작업에 미세조정합니다. 사용자는 공개된 사전학습 모델을 받아 미세조정만 하면 됩니다.
DistilBERT를 쓰는 이점은 무엇인가요?
영상에 따르면 DistilBERT는 BERT보다 더 빠르고 메모리 사용량(메모리 풋프린트)이 작은 경량 버전이어서, 적은 자원으로 미세조정에 활용하기 좋습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗