AI VIDEO BRIEFING
캡슐 네트워크(CapsNet) 작동 원리: 동적 라우팅과 등변성으로 CNN 한계 넘기
제프리 힌튼이 제안한 캡슐 네트워크(CapsNet)의 작동 원리를 정리한다. 벡터로 객체의 자세를 담는 캡슐, 합의 기반 동적 라우팅, 등변성 개념으로 풀링에 의존하는 CNN의 한계를 어떻게 극복하는지 쉽고 자세히 설명한다.

핵심 메시지
쉽게 이해하기
제프리 힌튼은 2011년부터 캡슐 네트워크의 핵심 아이디어를 제시했지만 제대로 작동시키기 어려웠고, 2017년 10월 “Dynamic Routing Between Capsules” 논문에서 사라 사부르, 니컬러스 프로스트와 함께 MNIST 최첨단 성능을 달성하며 다시 주목받았다. 특히 서로 겹친 숫자를 구분하는 데서 합성곱 신경망보다 뚜렷이 앞섰다.
발상의 출발점은 컴퓨터 그래픽스다. 그래픽스는 ‘위치 x=20, y=30, 16도 회전’ 같은 추상적 표현에서 이미지를 렌더링한다. 캡슐 네트워크는 그 반대인 ‘역그래픽스’, 즉 이미지로부터 어떤 객체가 어떤 자세로 들어 있는지를 되찾으려 한다. 이를 위해 수많은 캡슐이 각 위치에서 특정 객체의 존재와 자세를 예측한다.
캡슐의 출력은 벡터다. 벡터의 길이는 그 객체가 실제로 있을 확률을, 방향은 회전·두께·기울기·정확한 위치 같은 자세 매개변수를 담는다. 먼저 합성곱 층으로 특징 맵을 만든 뒤 이를 여러 벡터로 재구성하고, 길이가 1을 넘지 않도록 ‘스쿼시(squash)’ 함수로 압축한다. 이미지를 약간 회전시키면 벡터도 함께 변하는 등변성이 이렇게 보존된다.
부분-전체 관계는 합의 기반 라우팅으로 풀린다. 사각형 캡슐과 삼각형 캡슐이 각자 ‘보트’와 ‘집’ 캡슐의 출력을 예측하면, 두 예측이 강하게 일치하는 보트 쪽으로 출력을 보낸다. 변환 행렬을 학습해 예측을 만들고, 예측 벡터와 가중 평균의 일치도(스칼라곱)에 따라 라우팅 가중치를 소프트맥스로 갱신하는 과정을 3~5회 반복하면 k-평균 군집화처럼 합의가 수렴한다.
활용 측면에서는 클래스마다 최상위 캡슐을 두고 벡터 길이로 확률을 계산해 분류기로 쓸 수 있다. 논문은 다중 클래스 검출을 위한 마진 손실과, 입력을 복원하는 디코더의 재구성 손실을 함께 써 과적합을 줄였다. 활성화 벡터의 각 차원이 크기·기울기·너비처럼 해석 가능한 의미를 갖는 점도 장점이다.
주요 인사이트
- 캡슐 네트워크의 핵심은 ‘스칼라 활성화’ 대신 ‘벡터 활성화’를 써서 존재 확률과 자세를 한 표현에 담는다는 점이다.
- 합의 기반 라우팅은 깔끔한 입력 신호 전달, 부분-전체 계층 파악, 겹친 객체가 많은 복잡한 장면 해석이라는 세 가지 이점을 준다.
- 풀링 없이 등변성을 유지하기 때문에 정밀한 위치·자세가 필요한 이미지 분할과 객체 탐지에 유망하다.
- 재구성 손실은 정규화처럼 작동해 최상위 층까지 정보를 보존하도록 강제하고 일반화를 돕는다.
- 같은 위치에 같은 종류의 캡슐이 하나뿐이라 너무 가까운 동종 객체 둘은 구분하지 못하는 ‘크라우딩’ 한계가 있는데, 이는 사람 시각에서도 관찰된다.
자주 묻는 질문
캡슐 네트워크와 일반 CNN의 가장 큰 차이는 무엇인가?
CNN은 풀링 층에서 정밀한 위치·자세 정보를 잃는 반면, 캡슐 네트워크는 벡터 출력과 등변성으로 그 정보를 신경망 전체에 걸쳐 보존한다. 그래서 분할·탐지에 더 유리하다.
‘합의 기반 라우팅’은 어떻게 작동하나?
하위 캡슐들이 상위 캡슐의 출력을 각각 예측하고, 예측들이 가장 잘 일치(스칼라곱이 큼)하는 상위 캡슐로 출력을 집중시킨다. 라우팅 가중치를 소프트맥스로 3~5회 갱신하면 합의가 수렴한다.
캡슐 네트워크의 한계는 무엇인가?
CIFAR10에서는 아직 최첨단에 못 미치고, ImageNet 같은 대형 이미지로의 확장성이 불확실하다. 또 내부 반복 루프 때문에 학습이 느리고, 가까운 동종 객체를 구분 못 하는 크라우딩 문제가 있다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗