AI VIDEO BRIEFING

샴 네트워크(Siamese Network)와 원샷 학습: 거리 학습으로 얼굴인식 구현하기

클래스당 단 한 장의 이미지로도 분류하는 원샷 학습을 샴 네트워크로 설명한다. 가중치를 공유하는 쌍둥이 신경망 구조, 두 이미지의 거리 함수 학습, 얼굴인식 응용과 옴니글롯 벤치마크 결과까지 일반 독자 눈높이로 정리했다.

출처: Connor Shorten2019년 8월 12일AI 보조 요약

샴 네트워크: 단 한 장의 예시로 얼굴을 알아보는 ‘원샷 학습’의 원리 영상 대표 이미지

핵심 메시지

샴 네트워크는 클래스마다 라벨이 하나뿐인 상황에서 분류하는 ‘원샷 학습’을 위해 고안됐다.
동일한 가중치를 공유하는 두 개의 쌍둥이 신경망에 두 이미지를 통과시켜 특징 벡터를 만들고, 그 사이의 거리를 학습한다.
같은 클래스 쌍은 가깝게, 다른 클래스 쌍은 멀게 학습한 뒤, 거리 층을 분류 층으로 바꿔 적은 라벨로도 분류한다.
얼굴인식은 한 장의 등록 사진만으로 신원을 확인해야 하는 대표적 원샷 분류 응용이다.
옴니글롯은 원샷 분류의 표준 벤치마크로, 샴 네트워크는 데이터 증강과 함께 사람에 근접한 성능을 보였다.

쉽게 이해하기

딥러닝은 보통 클래스마다 수천 장의 이미지가 있어야 잘 작동하지만, 현실에서는 클래스당 한 장의 라벨만 가진 경우가 많다. 농구공·곰 같은 새 이미지를 단 한 장의 예시로 분류하려는 것이 원샷 학습이고, 음성 인식 등 다른 분야에도 똑같이 적용된다. 일반 지능을 향한 시스템이라면 방대한 데이터에만 의존하기보다 적은 정보로도 추론할 수 있어야 한다는 동기도 있다.

샴 네트워크의 구조는 ‘복제된 두 신경망’이다. 두 입력 이미지를 정확히 같은 합성곱 신경망에 각각 통과시켜 특징 벡터를 얻고, 두 벡터 사이의 거리 함수를 학습한다. 같은 이미지 쌍은 ‘같음’, 농구공과 곰처럼 다른 쌍은 ‘가장 다름’으로 라벨을 주어 학습시킨다.

거리 측정은 단순한 L2 거리로 시작할 수 있지만, 이 논문은 벡터의 각 성분마다 중요도를 다르게 부여하는 가중 파라미터(알파)를 학습한다. 어떤 성분은 큰 가중치를, 어떤 성분은 작은 가중치를 갖도록 해 어떤 특징이 두 이미지 비교에 중요한지를 모델이 스스로 정한다.

학습이 끝나면 거리 층을 떼어내고 분류 층으로 교체해, 클래스당 단 한 장의 라벨만으로 분류 과제를 수행한다. 저자들은 학습률, 층별 모멘텀, 정규화 페널티는 물론 3×3에서 20×20에 이르는 합성곱 필터 크기와 필터 수, 최종 벡터의 완전연결 유닛 수까지 하이퍼파라미터 최적화로 조정했다.

평가에는 원샷 분류의 표준 데이터셋인 옴니글롯이 쓰였다. 50개 알파벳, 각 알파벳의 여러 문자, 20명이 그린 손글씨로 구성되며, 샴 네트워크는 변형(왜곡) 기반 데이터 증강과 함께 이 과제를 거의 풀어낸 수준에 도달했다. 다만 생성 모델 성격의 계층적 베이즈 프로그램 학습이 합성곱 샴 네트워크보다 앞섰다.

주요 인사이트

샴 네트워크의 본질은 ‘무엇인지 분류’가 아니라 ‘두 입력이 얼마나 비슷한지’를 학습하는 거리/유사도 학습이라는 점이다.
가중치를 공유하는 쌍둥이 구조 덕분에 두 입력이 동일한 특징 공간으로 사상돼 공정한 비교가 가능하다.
학습된 거리 함수에 성분별 가중치를 두면, 비교에 결정적인 특징과 무시해도 되는 특징을 모델이 구분한다.
얼굴인식처럼 새 사용자를 추가할 때마다 재학습 없이 등록 사진 한 장만 비교하면 되는 응용에 특히 강력하다.
옴니글롯에서 사람과 견줄 성능을 냈지만, 이미지가 105×105 흑백으로 복잡도가 낮은 점은 감안해야 한다.

자주 묻는 질문

원샷 학습이 왜 필요한가?

이미지넷처럼 클래스마다 수천 장을 모으는 것은 개인 프로젝트나 얼굴인식처럼 신원당 한 장뿐인 상황에서는 불가능하다. 적은 라벨로도 분류해야 하는 현실 문제를 풀기 위해 원샷 학습이 필요하다.

샴 네트워크는 왜 ‘쌍둥이’ 구조를 쓰나?

두 이미지를 정확히 같은 가중치의 신경망에 통과시켜야 동일한 특징 공간에서 두 벡터를 얻고, 그 거리를 의미 있게 비교할 수 있기 때문이다. 그래서 한쪽은 다른 쪽의 복제본이다.

학습이 끝난 뒤 거리 층은 어떻게 쓰이나?

거리 층을 제거하고 분류 층으로 교체한 뒤, 클래스당 단 한 장의 라벨 이미지만으로 분류 과제를 학습·수행한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗