AI VIDEO BRIEFING
지식 증류란? 교사-학생 모델, 소프트 라벨과 '암흑 지식'으로 보는 LLM 압축
큰 LLM이 작은 모델을 가르치는 지식 증류의 개념을, 2006년 모델 압축부터 힌턴의 2015년 논문, 소프트 라벨과 온도, 그리고 제대로 된 증류와 행동 복제의 차이까지 정리했습니다.

핵심 메시지
쉽게 이해하기
영상은 LLM들이 서로 가르친다는 사실에서 시작한다. 구글의 젬마3는 제미나이로, 메타 라마4의 매버릭·스카우트는 더 큰 베헤모스로, 딥시크도 증류로 만들어졌다. 발표자는 이 개념이 자주 오해된다며, 지식 증류가 실제로 무엇인지 정확히 짚겠다고 말한다.
증류가 주목받는 이유는 규모의 법칙에 있다. 2020년의 한 기념비적 논문은 모델을 더 좋게 하려면 더 키워야 한다고 확인했고, 규모의 방향은 연산·데이터셋 크기·파라미터 수 세 가지다. 데이터는 이미 인터넷을 거의 다 긁어 벽에 부딪혔지만 강력한 LLM이 데이터를 생성해 이를 넘어서고, 파라미터 측면에서는 큰 모델의 느린 추론이 문제인데 증류가 학습과 추론을 분리해준다.
역사는 2006년으로 거슬러 올라간다. 코넬 연구진은 '모델 압축' 아이디어를 냈는데, 당시 모델을 저장 공간이 작은 PDA에 넣기 위해서였다. 그때 최고 성능 모델은 단일 모델이 아니라 수천 개 모델의 예측을 평균낸 앙상블이었다. 학습이 불안정해 무작위 초기화에 민감했기에, 앙상블은 일종의 복권을 수천 번 사는 방식이었다(이는 공동 학습으로 상호 보완을 익히는 전문가 혼합(MoE)과는 다르다).
2006년 논문의 영리한 발상은, 수천 개 모델의 평균 출력을 직접 예측하는 하나의 압축 모델을 학습시키는 것이었다. 먼저 1,000개의 분류기를 정답에 맞춰 학습해 얼린 뒤, 그들의 평균 출력을 '소프트 라벨'로 삼아 작은 모델을 가르친다. 이것이 바로 지식 증류이며, 다만 그 이름은 9년 뒤인 2015년 제프리 힌턴과 제프 딘의 구글 논문에서 손글씨 숫자 분류를 예로 붙여졌다. 이 논문은 앙상블이 없어도 단일 모델을 소프트 라벨로 압축하는 편이 낫다는 점을 발견하고 '교사-학생'이라는 용어를 만들었다.
소프트 라벨이 특별한 이유는 하드 라벨보다 더 많은 정보를 담기 때문이다. 지저분하게 쓴 5는 3과도 조금 닮았는데, 소프트 라벨은 3에 두 번째로 높은 확률을 부여한다. 논문은 이 추가 정보를 '암흑 지식'이라 불렀다. 한편 오늘날 창의성 조절 손잡이로 쓰이는 '온도'도 원래 증류에서 나온 것으로, 로짓을 상수로 나눠 소프트맥스에 넣어 작은 오답 확률을 키움으로써 학생이 암흑 지식을 더 잘 배우게 하려는 장치였다.
주요 인사이트
- 증류의 본질은 '합성 데이터 생성'이 아니라, 교사의 확률 분포에 담긴 미묘한 정보(암흑 지식)를 학생에게 넘겨 더 적은 파라미터로도 잘 학습하게 만드는 것이다.
- 힌턴 등은 학습과 추론의 분리를 나비의 생애에 비유했다. 애벌레와 성충이 다르듯, 모델도 학습 때는 큰 파라미터 공간이 필요하지만 추론 때는 빠르고 가벼워야 한다.
- '제대로 된 증류'와 딥시크식 방식의 차이는 라벨에 있다. 전자는 교사의 전체 확률 분포(소프트 라벨)로 가르치지만, 후자는 교사가 만든 출력을 원-핫 정답으로 모방시켜 추론 과정이 아닌 최종 결과만 베끼므로 '행동 복제'에 가깝다.
- 모두가 제대로 된 증류를 하지 못하는 이유는 두 가지다. 교사의 확률 분포에 접근하려면 교사를 '화이트박스'로 소유해야 하고(외부에서 GPT를 증류하려면 행동 복제에 그친다), 단어마다 어휘 전체에 대한 분포가 필요해 연산·저장 비용이 막대하다.
- 메타의 '코디스틸레이션'은 교사와 학생을 동시에 학습시켜 두 단계를 하나로 합치지만, 교사가 아직 덜 익은 탓에 초기에는 소프트 라벨이 부정확해 소프트 라벨과 하드 라벨을 섞어 보완한다.
자주 묻는 질문
지식 증류란 무엇인가요?
큰 '교사' 모델이 내놓는 출력(특히 확률 분포 형태의 소프트 라벨)을 작은 '학생' 모델이 따라 배우게 해, 성능은 유지하면서 더 작고 빠른 모델을 만드는 기법입니다.
소프트 라벨과 '암흑 지식'은 무엇인가요?
정답만 표시하는 하드 라벨과 달리 소프트 라벨은 전체 확률 분포를 담습니다. 예컨대 지저분한 5에 3의 확률도 일부 부여하는데, 이렇게 '입력이 무엇이 아닌지'까지 알려주는 추가 정보를 논문은 암흑 지식이라 불렀습니다.
딥시크 R1의 증류는 왜 '행동 복제'라고 부르나요?
교사의 확률 분포를 소프트 라벨로 전하는 대신, 교사가 생성한 데이터를 원-핫 정답으로 학생에게 학습시키기 때문입니다. 추론 과정이 아니라 최종 출력만 모방하므로 발표자는 이를 행동 복제로 보는 편이 정확하다고 말합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗