AI VIDEO BRIEFING
CNN 합성곱 신경망이 이미지를 인식하는 원리 쉽게 이해하기
합성곱 신경망(CNN)은 사람이 특징을 일일이 골라주지 않아도 이미지에서 모서리·코너 같은 특징을 스스로 학습한다. 컴퓨터필레 강연을 토대로 CNN의 작동 원리를 풀어본다.

핵심 메시지
쉽게 이해하기
합성곱 신경망(CNN)은 깊은 신경망과 커널 합성곱이라는 두 아이디어를 합친 모델이다. 커널 합성곱은 소벨 에지 검출이나 가우시안 블러처럼 작은 필터를 이미지 위로 훑어 특정 패턴을 강조하는 영상처리 기법으로, CNN은 이 연산을 신경망의 학습 단위로 끌어들인다.
일반적인 완전연결 신경망은 집값 예측처럼 방 개수·수영장 유무 같은 입력을 받아 복잡한 비선형 조합으로 결과를 만든다. 하지만 이미지를 다룰 때 700만 화소를 픽셀 단위로 그대로 입력하면 다음 층까지의 연결 수가 감당할 수 없을 만큼 커진다. 그래서 전통적 방식은 이미지에서 일부 특징만 계산해 넣었다.
CNN의 핵심은 이 특징을 사람이 고르지 않고 학습으로 찾는다는 점이다. 첫 층에서 60여 개의 서로 다른 커널을 적용하면 어떤 것은 에지를, 어떤 것은 코너를 강조하는 식으로 다양한 특징 지도가 만들어진다. 강연자는 자신이 그 필터를 직접 정한 것이 아니라 신경망이 스스로 학습했다고 강조한다.
깊은 신경망답게 이 특징들 위에 다시 특징을 쌓아 에지와 코너의 조합 같은 더 복잡한 패턴을 만든다. 커널 창이 이미지를 미끄러지며 새 출력 이미지를 만들고, 메모리를 아끼려 크기를 줄이기도 한다. 결국 공간 정보는 모두 사라지고 “무엇이 있는가”만 남은 특징들이 마지막 신경들로 이어진다.
출력층은 예를 들어 “이것이 마이크의 얼굴인가”에 1 또는 0을 내놓고, 라이브러리에 구현된 역전파로 가중치를 거꾸로 조정하며 학습한다. CNN은 2012년 이미지넷 대회에 적용되며 뛰어난 성능을 보인 뒤 폭발적으로 발전했다.
주요 인사이트
- 전통적 기계학습이 “사람이 특징을 설계해 넣는” 방식이라면, CNN은 “어떤 특징이 유용한지까지 학습하는” 방식이라는 점이 결정적 차이다.
- 합성곱 층을 거듭 쌓으면 단순한 에지·코너에서 시작해 점점 추상적인 패턴의 조합으로 올라가며, 사람은 그 중간 표현이 무엇을 뜻하는지 정확히 알기 어렵다.
- 강연자의 뿌리 끝(root tip) 검출 사례에서 직접 설계한 저수준 특징 방식은 약 70% 정확도였지만, 학습시킨 CNN은 98% 정확도를 보였다.
- CNN이 만능은 아니며, 신경망을 설계·학습시키고 이미지를 준비하는 전문성이 필요하고, 문제에 따라 다른 도구와 함께 쓰는 편이 낫다.
자주 묻는 질문
CNN은 어떤 두 가지 아이디어를 결합한 것인가요?
깊은 신경망과, 소벨 에지 검출이나 가우시안 블러 같은 커널 합성곱을 결합한 것입니다. 합성곱으로 특징을 강조하되 어떤 특징이 유용한지는 학습으로 찾습니다.
왜 이미지를 픽셀 그대로 일반 신경망에 넣지 않나요?
700만 화소 이미지를 픽셀 단위로 넣으면 입력 노드가 700만 개가 되고 다음 층과의 연결 수가 폭발해 계산이 사실상 불가능하기 때문입니다. 그래서 전통적으로는 특징을 미리 뽑아 넣었습니다.
CNN의 학습은 어떻게 이뤄지나요?
예측값과 정답의 차이를 줄이도록 가중치를 조금씩 옮기는데, 뒤쪽 값이 앞쪽 값에 의존하므로 역전파를 통해 출력에서 입력 방향으로 거꾸로 가중치를 조정합니다. 보통 라이브러리에 구현된 기능을 사용합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗