AI VIDEO BRIEFING
지식 증류(Knowledge Distillation) 기반 산업 이미지 이상 탐지: 4편 논문 흐름
정상 데이터만 학습한 학생-교사 모델이 결함을 탐지하는 지식 증류의 원리와, Uninformed Students·MKD·RD4AD·AST로 이어지는 발전 흐름을 DMQA 세미나로 정리했다.

핵심 메시지
쉽게 이해하기
세미나는 산업 이미지 이상 탐지에 쓰이는 지식 증류(Knowledge Distillation) 방법론을 다룬다. 산업용 이미지는 정상 데이터는 방대하지만 비정상 데이터가 극히 드문 불균형 문제가 있어, 이상치 확보 비용이 크다. 그래서 정상 데이터만 학습해 이상을 식별하는 비지도 학습이 주류이며, 특징 임베딩 기반과 재구성 기반으로 나뉜다. 이번 세미나는 특징 임베딩 기반의 교사-학생(Teacher-Student) 모델을 중심으로 한다.
지식 증류는 2015년 제프리 힌튼 교수의 논문에서 소개된 개념으로, 사전 학습된 거대한 교사 모델의 지식을 작고 효율적인 학생 모델에 전수하는 기법이다. 훈련 시에는 정상 이미지만 입력해 교사와 학생이 각각 특징 맵을 뽑고, 둘의 거리를 최소화하도록 학생만 역전파로 업데이트한다. 추론 시 비정상 이미지가 들어오면, 방대한 데이터로 학습된 교사는 특징을 잘 뽑지만 정상만 본 학생은 따라가지 못해 결함 부위에서 특징 맵 거리가 확연히 벌어진다. 이 차이로 이미지 단위와 픽셀 단위의 탐지를 수행한다.
첫 논문 'Uninformed Students'는 지식 증류를 이상 탐지에 처음 접목했고, 산업 표준인 MVTec AD 데이터셋을 만든 연구진의 작품이다. 차원 축소 없이 교사의 고품질 특징을 학생 앙상블이 직접 모방하게 하고, 학생들 사이의 예측 분산과 회귀 오차를 합쳐 이상치 점수를 산출하며, 다중 스케일 구조로 다양한 크기의 결함을 탐지한다. 정상에서는 학생들의 예측이 교사 주변에 모이지만, 처음 보는 결함에서는 제각각 흩어지는 '예측 불확실성'을 이상 신호로 쓴다.
두 번째 'MKD'는 교사의 마지막 레이어만 모방하던 한계를 지적하며, 여러 중간 레이어의 특징까지 모두 학습하는 멀티레졸루션 증류를 도입했다. 또 지식을 '값과 방향'으로 정의해, 유클리드 거리로 값의 오차를 줄이는 동시에 코사인 유사도로 벡터 방향까지 맞춘다. ReLU 특성상 방향이 조금만 틀어져도 정보가 끊길 수 있기 때문이다. 세 번째 'RD4AD'는 교사와 학생 구조가 너무 비슷해 학생이 결함까지 똑같이 따라 하는 문제를 풀기 위해, 교사는 인코더·학생은 디코더인 역방향 구조와 정상 패턴만 통과시키는 OCB 병목 모듈을 도입했다.
마지막 'AST'는 교사를 노멀라이징 플로우, 학생을 일반 CNN으로 둔 완전한 비대칭 구조를 채택한다. 노멀라이징 플로우의 전단사 특성을 활용해 이상 데이터에서 교사 출력이 크게 발산하도록 만들고, 불확실한 라이클리후드 대신 교사-학생 출력 거리를 이상 점수로 쓴다. 그 결과 MVTec AD에서 평균 99.2% AUROC를, 깊이 정보를 더한 MVTec 3D AD에서도 RGB+3D 결합 시 강건한 성능을 보였다. 발표자는 이 패러다임이 동질적 구조에서 비대칭 구조로 진화해 왔으며, 사전 학습 모델의 풍부한 시맨틱 특징 활용이 성능의 핵심 동력임을 강조하며 마무리한다.
주요 인사이트
- "정상만 가르친 학생"이라는 설정이 핵심이다. 학생이 모르는 패턴 앞에서 교사를 못 따라가는 '실패'를 역으로 탐지 신호로 활용한다.
- 발전의 큰 줄기는 교사와 학생을 점점 더 이질적으로 만드는 것이다. 구조가 비슷할수록 학생이 결함까지 모방해 탐지가 무뎌지기 때문이다.
- 지식은 값뿐 아니라 방향으로 이루어진다. 코사인 유사도로 벡터 방향을 맞추는 것이 정확한 지식 전달의 관건이다.
- AST의 교훈은 밀도 추정의 라이클리후드만으로는 이상 탐지를 100% 신뢰하기 어렵고, 교사-학생 출력 거리가 더 신뢰할 수 있는 지표라는 점이다.
자주 묻는 질문
왜 정상 데이터만으로 이상을 탐지하나요?
산업용 이미지는 정상 데이터는 방대하지만 비정상 데이터가 극히 드물어, 이상치를 확보하는 데 막대한 비용이 듭니다. 그래서 정상 데이터만 학습해 이상을 식별하는 비지도 학습이 주류를 이룹니다.
학생-교사 모델은 어떻게 결함을 찾아내나요?
훈련 시 정상 이미지만으로 학생이 교사의 특징 맵을 모방하도록 학습합니다. 추론 시 비정상 이미지가 들어오면 방대한 데이터로 학습된 교사는 특징을 잘 뽑지만, 정상만 본 학생은 처음 보는 결함 패턴을 따라가지 못해 두 모델의 특징 맵 거리가 결함 부위에서 크게 벌어집니다. 이 거리 차이로 이상을 탐지합니다.
AST가 기존 학생-교사 모델보다 나은 점은 무엇인가요?
기존 모델은 교사와 학생 구조가 비슷해 학생이 결함까지 모방하는 문제가 있었습니다. AST는 교사를 노멀라이징 플로우, 학생을 CNN으로 둔 비대칭 구조로 이를 해결하고, 불확실한 라이클리후드 대신 교사-학생 출력 거리를 이상 점수로 사용해 MVTec AD에서 평균 99.2% AUROC를 달성했습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗