AI VIDEO BRIEFING
레이블 노이즈 러닝 - ID·OOD 노이즈 구분과 RRL·DSOS 방법론 정리
현실 데이터에는 잘못 달린 레이블과 분포가 다른 OOD 데이터가 섞여 있다. ID·OOD 노이즈를 구분해 강건하게 학습하는 RRL과 DSOS 두 연구를 정리한다.

핵심 메시지
쉽게 이해하기
고려대학교 DMQA 연구실(김성범 교수 지도)의 오픈 세미나에서 이정민 발표자는 레이블 노이즈 러닝, 그중에서도 분포가 다른 OOD(Out-of-Distribution) 노이즈가 함께 존재하는 어려운 상황을 다룬다. 지도 학습은 모든 학습 데이터에 정확한 레이블이 달려 있다고 가정하지만, 웹에서 수집한 방대한 데이터에는 7을 1로 표기하는 식의 잘못된 레이블이 흔하다. 이런 노이즈는 입력과 레이블의 관계 학습을 방해해 모델의 일반화 성능을 떨어뜨린다.
발표자는 노이즈를 두 종류로 구분한다. 동물 이미지 데이터셋에서 토끼를 고양이로 잘못 표기한 것처럼 같은 분포 안에서 레이블만 틀린 경우가 'ID 노이즈'이고, 자동차처럼 아예 분포가 다른 이미지가 섞여 들어온 경우가 'OOD 노이즈'다. 특히 OOD는 들어온 이미지에 분포 내 레이블이 강제로 할당되기 때문에 학습에 큰 악영향을 줄 수 있어, 두 노이즈가 공존하는 상황에서 모델을 강건하게 학습시키는 방법이 중요하다고 설명한다.
첫 번째 연구는 2021년 ICCV에 발표된 RRL이다. 이 연구는 레이블 노이즈에 OOD가 결합된 문제 상황을 처음으로 제시했다. CNN 인코더와 선형 분류기, 선형 오토인코더를 함께 학습하며 네 가지 손실(크로스 엔트로피, 재구성, 대조 손실, 믹스업 프로토타입 대조 손실)을 사용해 노이즈에 강건한 표현을 만든다. 워밍업 이후에는 KNN 기반으로 소프트 의사 레이블을 갱신하고, 신뢰도가 높은 샘플만 모은 'weakly-supervised subset'에 대해서만 클래스 정보를 활용하는 손실을 계산한다.
두 번째 연구는 2022년 WACV에 발표된 DSOS다. 핵심 통찰은 'OOD에는 레이블 교정이 소용없다'는 점이다. 자동차 이미지의 올바른 레이블은 애초에 분포 안에 존재하지 않기 때문이다. 그래서 DSOS는 OOD라고 판단된 샘플에는 클래스 수에 따른 균등 분포를 할당하고, ID라고 판단된 샘플만 레이블 교정을 수행한다. 이 방식을 'Dynamic Softening of Out-of-distribution Samples'라 부른다.
DSOS의 관건은 클린·ID 노이즈·OOD 세 유형을 사전에 잘 구분하는 것이다. 이를 위해 실제 레이블과 모델 예측을 함께 반영한 'interpolated label' 기반의 새 지표를 정의한다. 클린 데이터는 이 지표가 낮게, ID 노이즈는 중간, OOD는 매우 높게 분포하도록 설계되어 세 유형이 뚜렷이 갈린다. 두 연구 모두 CIFAR 계열과 WebVision, Clothing1M 같은 실제 벤치마크에서 기존 방법보다 우수한 성능을 보였다.
주요 인사이트
- 현실의 노이즈 벤치마크에는 ID 노이즈뿐 아니라 분포가 다른 OOD 데이터가 함께 섞여 있어, 둘을 구분하는 일이 학습의 출발점이 된다.
- RRL의 손실 제거 실험에서 '프로토타입 대조 손실'을 뺐을 때 성능 저하가 가장 커, 이 손실이 방법론의 핵심 요소임이 드러났다.
- OOD에 균등 분포를 할당한다는 발상은, 정답이 분포 밖에 있는 샘플을 억지로 교정하지 않고 학습 방해를 최소화하는 전략이다.
- interpolated label 지표는 레이블 없이도 이미지 간 관계와 예측 분포를 결합해 노이즈 유형을 분리하는 실용적 도구로 작동한다.
- DSOS는 단일 네트워크와 코-네트워크(두 네트워크) 구조 모두에서 우수해, 구조에 관계없이 효과가 유지됨을 보였다.
자주 묻는 질문
ID 노이즈와 OOD 노이즈는 어떻게 다른가요?
ID 노이즈는 데이터가 같은 분포 안에 있지만 레이블만 잘못 달린 경우(예: 토끼를 고양이로 표기)입니다. OOD 노이즈는 자동차처럼 수집 대상과 아예 분포가 다른 이미지가 섞여 들어와 분포 내 레이블이 강제로 할당된 경우로, 학습에 더 큰 악영향을 줍니다.
DSOS는 왜 OOD에 레이블 교정을 하지 않나요?
OOD 샘플의 올바른 레이블은 애초에 학습 분포 안에 존재하지 않기 때문에 어떤 방향으로 교정해도 의미가 없기 때문입니다. 그래서 OOD에는 균등 분포를 할당하고, ID라고 판단된 샘플에 대해서만 레이블 교정을 수행합니다.
RRL에서 가장 중요한 손실 함수는 무엇이었나요?
어블레이션 실험 결과, 믹스업 기반의 프로토타입 대조 손실(prototypical contrastive loss)을 제거했을 때 성능이 가장 크게 떨어졌습니다. 따라서 이 손실이 RRL의 가장 중요한 구성 요소로 확인되었습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗