AI VIDEO BRIEFING

합성곱 신경망(CNN) 쉽게 이해하기: 필터로 이미지를 인식하는 딥러닝의 원리

사람에겐 쉬운 사물 인식이 컴퓨터에겐 왜 어려울까. IBM 엔지니어가 합성곱 신경망(CNN)이 필터와 계층으로 이미지를 단계별로 이해하는 방식을 집을 예로 풀어 설명한다.

합성곱 신경망(CNN)이란? 컴퓨터가 이미지를 알아보는 원리 영상 대표 이미지

핵심 메시지

  • 집 그림을 한눈에 알아보는 일은 사람에겐 쉽지만 컴퓨터에겐 어려운 과제이며, 합성곱 신경망(CNN)은 바로 이 패턴 인식 문제를 푸는 딥러닝 기법이다.
  • CNN은 여러 계층이 연결된 신경망 안에 '필터'를 두고, 이미지를 작은 픽셀 블록 단위로 훑으며 특정 패턴과 얼마나 비슷한지를 점수로 매긴다.
  • 여러 필터의 결과를 풀링(pooling) 과정으로 합치면 이미지에 무엇이 들어 있는지 훨씬 더 잘 파악할 수 있다.
  • 신경망 깊이가 깊어질수록 필터는 더 추상적인 일을 맡아, 직선·모서리에서 시작해 창문·문·지붕을 거쳐 집인지 아파트인지 고층빌딩인지까지 구분하게 된다.
  • CNN은 문자 인식(OCR), 안면 인식, 시각 검색, 의료 영상 판독 등 폭넓은 분야에 활용된다.

쉽게 이해하기

우리는 단순한 도형 몇 개로 그린 그림을 보고도 '집'이라고 단번에 알아챈다. 그것도 거의 힘을 들이지 않고 말이다. 하지만 사람에게 너무나 쉬운 이 사물 인식 능력은 컴퓨터에게는 결코 쉽지 않다. IBM의 마틴 킨은 바로 이 간극을 메우는 기술이 합성곱 신경망, 즉 CNN이라고 소개한다.

CNN이라는 이름은 '합성곱(Convolutional)'과 '신경망(Neural Network)'으로 나눠 볼 수 있다. 신경망은 여러 계층이 서로 연결되어, 각 계층이 입력을 받아 다른 형태로 변환한 뒤 다음 계층으로 전달하는 구조다. CNN은 그중 특정 계층 묶음을 가리키며, 이 계층들 안에 패턴 인식을 담당하는 '필터'가 들어 있다.

이미지는 결국 픽셀의 집합이다. 집 그림의 한 부분을 확대하면 창문이 보이는데, 창문은 거의 곧은 직선들로 이뤄져 있다. 그런데 창문 모양이 조금 달라도 우리는 여전히 창문이라고 부른다. CNN의 매력은 필터를 이용해 서로 다르게 생긴 두 대상을 같은 것으로 인식할 수 있다는 점이다.

필터는 보통 3×3 크기의 작은 블록으로, 그 안에 찾고자 하는 패턴(예: 직각 모양)을 지정한다. 이 필터를 이미지의 3×3 픽셀 영역에 차례로 겹쳐 가며 얼마나 닮았는지 점수를 매기고, 한 칸씩 옆으로 밀며 전체를 훑는다. 필터를 여러 개 두어 각기 다른 모양을 찾게 한 뒤, 그 결과 수치들을 풀링으로 합치면 이미지 내용을 더 정확히 파악할 수 있다.

이것은 CNN의 첫 계층일 뿐이다. 신경망이 깊어질수록 필터는 점점 추상적인 작업을 수행한다. 처음에는 직선과 모서리를 찾던 필터가, 다음 계층에서는 창문·문·지붕 같은 부품을, 더 깊은 계층에서는 그것이 집인지 아파트인지 고층빌딩인지를 판단한다. 이런 단계적 추상화 덕분에 CNN은 OCR, 안면 인식, 시각 검색, 의료 영상 분석 등 다양한 실제 업무에 쓰인다.

주요 인사이트

  • CNN의 핵심은 '필터를 이미지 위로 미끄러뜨리며 패턴과의 유사도를 점수화한다'는 단순한 아이디어에 있다. 복잡해 보이는 이미지 인식이 작은 3×3 블록 비교의 반복으로 환원된다.
  • 여러 필터의 결과를 풀링으로 결합하기 때문에, 한 가지 패턴만 보는 것보다 이미지에 담긴 내용을 훨씬 풍부하게 이해할 수 있다.
  • 계층이 깊어지며 필터가 다루는 개념이 '직선 → 부품 → 사물 전체'로 추상화되는 구조가, CNN이 같은 사물의 다양한 변형을 같은 것으로 인식하게 만드는 비결이다.
  • CNN은 학술적 개념에 그치지 않고 손글씨 문서 판독, 안면 검출, 의료 영상 진단 등 일상과 산업 전반에 이미 깊이 들어와 있다.

자주 묻는 질문

왜 사람에겐 쉬운 사물 인식이 컴퓨터에겐 어려운가요?

사람은 단순한 도형 조합을 보고도 즉시 '집'이라고 알아채지만, 컴퓨터는 이미지를 픽셀의 나열로만 받아들이기 때문에 그 안의 패턴을 스스로 인식하기 어렵습니다. CNN은 이 패턴 인식 문제를 풀기 위한 딥러닝 기법입니다.

CNN의 '필터'는 무엇을 하나요?

필터는 보통 3×3 크기의 작은 블록으로, 그 안에 직각 같은 특정 패턴을 지정해 둡니다. 이 필터를 이미지의 픽셀 블록에 차례로 겹쳐 가며 얼마나 닮았는지 점수를 매기고, 전체 이미지를 훑어 패턴이 어디에 있는지 찾아냅니다.

신경망의 계층이 깊어지면 무엇이 달라지나요?

첫 계층의 필터는 직선이나 모서리 같은 단순한 특징을 찾지만, 깊은 계층으로 갈수록 창문·문·지붕 같은 부품, 나아가 집·아파트·고층빌딩 같은 전체 사물을 구분하는 더 추상적인 작업을 수행합니다.

CNN은 실제로 어디에 쓰이나요?

영상에서는 손글씨 문서를 읽는 문자 인식(OCR), 안면 검출, 시각 검색, 의료 영상 판독 등을 예로 들었습니다. 이미지 속 내용을 식별해야 하는 다양한 분야에 폭넓게 활용됩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식