AI VIDEO BRIEFING

합성곱 신경망(CNN) 쉽게 이해하기: 필터로 이미지를 인식하는 딥러닝의 원리

사람에겐 쉬운 사물 인식이 컴퓨터에겐 왜 어려울까. IBM 엔지니어가 합성곱 신경망(CNN)이 필터와 계층으로 이미지를 단계별로 이해하는 방식을 집을 예로 풀어 설명한다.

출처: IBM Technology2021년 10월 6일AI 보조 요약

합성곱 신경망(CNN)이란? 컴퓨터가 이미지를 알아보는 원리 영상 대표 이미지

핵심 메시지

집 그림을 한눈에 알아보는 일은 사람에겐 쉽지만 컴퓨터에겐 어려운 과제이며, 합성곱 신경망(CNN)은 바로 이 패턴 인식 문제를 푸는 딥러닝 기법이다.
CNN은 여러 계층이 연결된 신경망 안에 '필터'를 두고, 이미지를 작은 픽셀 블록 단위로 훑으며 특정 패턴과 얼마나 비슷한지를 점수로 매긴다.
여러 필터의 결과를 풀링(pooling) 과정으로 합치면 이미지에 무엇이 들어 있는지 훨씬 더 잘 파악할 수 있다.
신경망 깊이가 깊어질수록 필터는 더 추상적인 일을 맡아, 직선·모서리에서 시작해 창문·문·지붕을 거쳐 집인지 아파트인지 고층빌딩인지까지 구분하게 된다.
CNN은 문자 인식(OCR), 안면 인식, 시각 검색, 의료 영상 판독 등 폭넓은 분야에 활용된다.

쉽게 이해하기

우리는 단순한 도형 몇 개로 그린 그림을 보고도 '집'이라고 단번에 알아챈다. 그것도 거의 힘을 들이지 않고 말이다. 하지만 사람에게 너무나 쉬운 이 사물 인식 능력은 컴퓨터에게는 결코 쉽지 않다. IBM의 마틴 킨은 바로 이 간극을 메우는 기술이 합성곱 신경망, 즉 CNN이라고 소개한다.

CNN이라는 이름은 '합성곱(Convolutional)'과 '신경망(Neural Network)'으로 나눠 볼 수 있다. 신경망은 여러 계층이 서로 연결되어, 각 계층이 입력을 받아 다른 형태로 변환한 뒤 다음 계층으로 전달하는 구조다. CNN은 그중 특정 계층 묶음을 가리키며, 이 계층들 안에 패턴 인식을 담당하는 '필터'가 들어 있다.

이미지는 결국 픽셀의 집합이다. 집 그림의 한 부분을 확대하면 창문이 보이는데, 창문은 거의 곧은 직선들로 이뤄져 있다. 그런데 창문 모양이 조금 달라도 우리는 여전히 창문이라고 부른다. CNN의 매력은 필터를 이용해 서로 다르게 생긴 두 대상을 같은 것으로 인식할 수 있다는 점이다.

필터는 보통 3×3 크기의 작은 블록으로, 그 안에 찾고자 하는 패턴(예: 직각 모양)을 지정한다. 이 필터를 이미지의 3×3 픽셀 영역에 차례로 겹쳐 가며 얼마나 닮았는지 점수를 매기고, 한 칸씩 옆으로 밀며 전체를 훑는다. 필터를 여러 개 두어 각기 다른 모양을 찾게 한 뒤, 그 결과 수치들을 풀링으로 합치면 이미지 내용을 더 정확히 파악할 수 있다.

이것은 CNN의 첫 계층일 뿐이다. 신경망이 깊어질수록 필터는 점점 추상적인 작업을 수행한다. 처음에는 직선과 모서리를 찾던 필터가, 다음 계층에서는 창문·문·지붕 같은 부품을, 더 깊은 계층에서는 그것이 집인지 아파트인지 고층빌딩인지를 판단한다. 이런 단계적 추상화 덕분에 CNN은 OCR, 안면 인식, 시각 검색, 의료 영상 분석 등 다양한 실제 업무에 쓰인다.

주요 인사이트

CNN의 핵심은 '필터를 이미지 위로 미끄러뜨리며 패턴과의 유사도를 점수화한다'는 단순한 아이디어에 있다. 복잡해 보이는 이미지 인식이 작은 3×3 블록 비교의 반복으로 환원된다.
여러 필터의 결과를 풀링으로 결합하기 때문에, 한 가지 패턴만 보는 것보다 이미지에 담긴 내용을 훨씬 풍부하게 이해할 수 있다.
계층이 깊어지며 필터가 다루는 개념이 '직선 → 부품 → 사물 전체'로 추상화되는 구조가, CNN이 같은 사물의 다양한 변형을 같은 것으로 인식하게 만드는 비결이다.
CNN은 학술적 개념에 그치지 않고 손글씨 문서 판독, 안면 검출, 의료 영상 진단 등 일상과 산업 전반에 이미 깊이 들어와 있다.

자주 묻는 질문

왜 사람에겐 쉬운 사물 인식이 컴퓨터에겐 어려운가요?

사람은 단순한 도형 조합을 보고도 즉시 '집'이라고 알아채지만, 컴퓨터는 이미지를 픽셀의 나열로만 받아들이기 때문에 그 안의 패턴을 스스로 인식하기 어렵습니다. CNN은 이 패턴 인식 문제를 풀기 위한 딥러닝 기법입니다.

CNN의 '필터'는 무엇을 하나요?

필터는 보통 3×3 크기의 작은 블록으로, 그 안에 직각 같은 특정 패턴을 지정해 둡니다. 이 필터를 이미지의 픽셀 블록에 차례로 겹쳐 가며 얼마나 닮았는지 점수를 매기고, 전체 이미지를 훑어 패턴이 어디에 있는지 찾아냅니다.

신경망의 계층이 깊어지면 무엇이 달라지나요?

첫 계층의 필터는 직선이나 모서리 같은 단순한 특징을 찾지만, 깊은 계층으로 갈수록 창문·문·지붕 같은 부품, 나아가 집·아파트·고층빌딩 같은 전체 사물을 구분하는 더 추상적인 작업을 수행합니다.

CNN은 실제로 어디에 쓰이나요?

영상에서는 손글씨 문서를 읽는 문자 인식(OCR), 안면 검출, 시각 검색, 의료 영상 판독 등을 예로 들었습니다. 이미지 속 내용을 식별해야 하는 다양한 분야에 폭넓게 활용됩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗