AI VIDEO BRIEFING
퓨샷 학습이란 무엇인가: 적은 데이터로 얼굴을 알아보는 샴 네트워크와 임베딩 원리
사람은 얼굴을 한두 번만 봐도 기억하지만 기계는 수천 장으로도 부족합니다. 사전지식과 유사도, 동일한 두 신경망으로 이뤄진 샴 네트워크와 임베딩으로 적은 데이터 문제를 푸는 퓨샷 학습의 원리를 한국어로 설명합니다.

핵심 메시지
쉽게 이해하기
사람과 기계의 학습 방식 차이는 얼굴 인식 실험에서 극명하게 드러난다. 사람은 어떤 얼굴을 한 번, 길어야 두어 번만 봐도 그 얼굴을 알아보거나 모른다고 분명히 판단한다. 이것이 원샷 학습과 퓨샷 학습의 직관적 출발점이다. 반면 기계는 한 사람당 수천 장의 사진을 줘도 두 사람을 잘 구분하지 못하는 경우가 있다.
이 격차의 근본 원인은 사전지식이다. 사람은 사람이 어떻게 생겼는지, 어떻게 구별하는지, 옷차림이 달라도 같은 사람임을 어떻게 아는지 등 세상에 대한 지식을 갖고 문제에 들어간다. 그러나 기계는 아무런 사전지식 없이 백지 상태에서 시작한다. 사전지식은 유사성에 대한 지식, 학습 방법에 대한 지식, 데이터에 대한 지식 등 여러 형태로 줄 수 있는데, 이 영상은 그중 유사성에 기반한 사전지식에 초점을 맞춘다.
기존 방식의 문제는 두 가지다. 첫째, 모델의 파라미터를 학습하려면 예시가 지나치게 많이 필요하다. 둘째, 새로운 얼굴을 인식시키려면 소프트맥스 층에 노드를 하나 추가해야 하고, 이는 신경망 구조를 바꾸는 일이라 네트워크를 다시 학습시켜야 한다.
해법은 모델이 푸는 문제 자체를 바꾸는 것이다. '이 이미지가 누구인가?'를 묻는 대신 '이 두 이미지가 같은 사람인가, 다른 사람인가?'를 묻는 이진 분류로 전환한다. 그러면 적은 수의 이미지로도 서로 짝지어 학습 쌍을 쉽게 많이 만들 수 있어 데이터가 덜 필요하고, 새 얼굴을 추가해도 구조를 바꿀 필요가 없어 확장성이 좋아진다.
이 구조가 바로 샴 네트워크다. 모델은 하나의 네트워크가 아니라 동일한 두 개의 네트워크 쌍으로 이루어지며(이미지 입력이라 합성곱 신경망), 마지막 소프트맥스 층을 떼어내 각 이미지를 압축한 임베딩 벡터(예: 64차원)를 출력한다. 유사도 함수가 두 벡터의 차이를 계산해, 비슷하면 작고 다르면 큰 값을 내고, 이를 시그모이드로 확률로 변환해 임계값을 기준으로 같음/다름을 판별한다.
주요 인사이트
- 핵심 발상의 전환은 '누구인지 맞히기'를 '같은 사람인지 판별하기'로 바꾼 것이다. 이 재구성이 적은 데이터와 확장성이라는 두 문제를 동시에 해결한다.
- 샴 네트워크의 유사도 판별 부분은 학습으로 배우는 것이 아니라 사전지식이다. 네트워크는 첫 이미지를 보기도 전에 두 임베딩이 비슷한지 판단하는 법을 이미 알고 있다.
- 임베딩은 소프트맥스 분류기에서 마지막 층을 제거해 얻는, 이미지를 압축 표현한 벡터다. 두 임베딩의 제곱 차이(또는 절댓값) 합이 유사도의 척도가 된다.
- 학습은 시그모이드 출력에 대한 이진 교차엔트로피 손실의 역전파로 이뤄지며, 같은 사람이면 예측값이 1에 가깝도록 파라미터를 조정한다.
- 입력이 원시 픽셀뿐인 얼굴 인식은 한 사람당 한 장만으로는 여전히 어렵지만, 입력 특징이 더 풍부한 문제에서는 퓨샷·원샷 학습이 훨씬 현실적으로 작동한다.
자주 묻는 질문
원샷 학습과 퓨샷 학습은 무엇인가요?
클래스마다 단 한 개(원샷) 또는 몇 개(퓨샷)의 예시만으로 대상을 인식하도록 학습시키는 방법입니다. 사람이 얼굴을 한두 번 보고 기억하는 능력에서 착안한 접근입니다.
왜 '같은 사람인지'를 묻는 이진 분류로 바꾸나요?
적은 이미지로도 짝을 다양하게 조합해 학습 쌍을 많이 만들 수 있어 데이터 요구가 줄고, 새 얼굴을 추가할 때 소프트맥스 층을 바꿔 재학습할 필요가 없어 확장성이 좋아지기 때문입니다.
샴 네트워크에서 두 얼굴의 유사도는 어떻게 계산하나요?
동일한 두 합성곱 신경망이 각 이미지를 64차원 같은 임베딩 벡터로 바꾸고, 유사도 함수가 두 벡터의 (제곱) 차이를 모두 더해 하나의 수로 만든 뒤, 시그모이드로 확률화해 임계값으로 같음/다름을 판별합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗