AI VIDEO BRIEFING
대조 학습과 SimCLR: 라벨 없이 이미지 표현을 배우는 자기지도 학습의 핵심 원리
인터넷에 이미지는 넘치지만 라벨을 붙이는 일은 비싸다. 자기지도 학습의 한 갈래인 대조 학습은 비슷한 이미지는 가깝게, 다른 이미지는 멀게 표현을 배우며, SimCLR는 라벨 없이도 지도학습에 근접한 성능을 낸다.

핵심 메시지
쉽게 이해하기
인터넷에는 이미지가 끝없이 쌓여 있지만, 보통 딥러닝 모델을 학습시키려면 이미지와 함께 그에 맞는 라벨(예: '개')이 필요하다. 그런데 라벨이 정말 꼭 필요할까? 사람은 개와 고양이의 이름을 몰라도 충분히 많은 사진을 보면 둘이 다르다는 것을 알아챈다.
라벨 없이 패턴을 찾는 방식이 비지도 학습(K-means, t-SNE 등)이고, 그 중간쯤에 자기지도 학습이 있다. 자기지도 학습은 데이터 자체에서 추가 라벨이 필요 없는 '가짜 과제'를 만들어 모델이 유용한 표현을 배우게 한다. 완벽하게 라벨링된 데이터셋은 드물고 만들기도 매우 비싸며, 자기지도 학습으로 배운 표현은 범용적이라 분할 모델을 복원 같은 다른 과제로 재사용하기에도 유리하다.
대조 학습의 핵심 아이디어는 직관적이다. 같은 대상을 담은 두 이미지는 각도나 조명이 달라도 신경망의 잠재 공간에서 가깝게, 서로 다른 대상의 이미지는 멀게 표현되도록 한다. 이런 관계를 특수한 손실 함수로 학습 중에 명시적으로 강제한다는 점이 대조 학습의 특징이다.
대표적 손실은 두 가지다. 대조 손실은 양성 쌍이면 거리의 제곱을 최소화하고, 음성 쌍이면 마진 m에 이를 때까지 둘을 밀어낸다. 삼중항 손실은 앵커·양성·음성 세 점을 써서 앵커-음성 거리가 앵커-양성 거리에 마진을 더한 값보다 크도록 만든다. 이는 얼굴인식 FaceNet 논문에서 알려졌고 당시 오류율을 30% 낮췄다. 두 손실 모두 이미 충분히 떨어졌거나 가까운 쌍에서는 손실이 0이 되어 학습 신호가 사라지므로, 모델이 헷갈리는 '어려운 예제'에 집중하는 어려운 예제 마이닝이 중요하다.
SimCLR('단순한 대조 학습 프레임워크')는 2020년 구글에서 제프리 힌턴이 이끄는 팀이 발표했다. 거리 대신 확률로 정의되는 InfoNCE 손실을 써서 하나의 양성 쌍과 다수의 음성 쌍을 비교하므로 어려운 예제 마이닝 부담이 줄어든다. 양성 쌍은 같은 이미지에 랜덤 크롭과 색 왜곡 같은 데이터 증강을 적용해 두 가지 다른 모습을 만들어 구성하고, 음성 쌍은 같은 배치 안의 다른 이미지에서 가져온다. 이 때문에 배치 크기가 매우 커야 해서 보통의 64~256이 아니라 4096~8192를 쓴다. 그 결과 SimCLR는 라벨 없이도 ImageNet top-1 76%로 지도학습 ResNet-50에 근접했고, 라벨 1%만으로 미세조정하면 top-5 86%에 이른다. 다만 큰 배치 의존이 확장의 걸림돌이며, 영상은 음성 쌍이 필요 없는 BYOL을 다음 편으로 예고한다.
주요 인사이트
- 완벽한 라벨 데이터셋은 드물고 만드는 비용이 매우 커서 자기지도 학습의 실용적 가치가 크다.
- 자기지도 학습으로 배운 표현은 범용적이라 다른 다운스트림 과제로 재사용하거나 미세조정하기 쉽다.
- 대조 손실과 삼중항 손실은 마진을 넘으면 손실이 0이 되므로, 어려운 예제에 집중해야 학습이 이뤄진다.
- SimCLR의 InfoNCE 손실은 음성을 많이 활용해 어려운 예제 마이닝에 대한 의존을 줄인다.
- SimCLR의 약점은 매우 큰 배치 크기가 필요해 확장이 까다롭다는 점이다.
자주 묻는 질문
자기지도 학습은 비지도 학습과 무엇이 다른가요?
비지도 학습(K-means, t-SNE 등)은 라벨 없이 데이터의 패턴을 찾는다. 자기지도 학습은 데이터 자체에서 라벨이 필요 없는 '가짜 과제'를 만들어 모델이 유용한 표현을 배우게 하는, 지도와 비지도 사이의 접근법이다.
대조 학습에서 '어려운 예제 마이닝'이 왜 필요한가요?
대조 손실과 삼중항 손실은 양성 쌍이 이미 가깝거나 음성이 이미 마진 너머로 멀면 손실이 0이 되어 학습 신호가 없다. 그래서 앵커에 가까운 음성처럼 모델이 헷갈리는 어려운 예제에 집중해야 더 강한 학습 신호를 얻는다.
SimCLR의 성능과 한계는 무엇인가요?
SimCLR는 라벨 없이도 ImageNet top-1 정확도 76%로 지도학습 ResNet-50에 근접하고, 라벨 1%만으로 미세조정하면 top-5 86%에 이른다. 다만 음성 쌍을 배치에서 뽑기 때문에 4096~8192 같은 매우 큰 배치가 필요해 확장이 어렵다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗