AI VIDEO BRIEFING

컴퓨터 비전 작동 원리: 픽셀·커널·합성곱 신경망 쉽게 이해하기

컴퓨터 비전이 색 추적, 커널을 이용한 엣지 검출, 얼굴 인식, 합성곱 신경망에 이르기까지 이미지에서 의미를 끌어내는 원리를 단계별로 풀어낸다.

출처: CrashCourse2017년 11월 15일AI 보조 요약

컴퓨터는 어떻게 '보는가': 색 추적부터 합성곱 신경망까지 영상 대표 이미지

핵심 메시지

컴퓨터 비전의 목표는 디지털 이미지·영상에서 높은 수준의 이해를 끌어내는 것이다.
가장 단순한 알고리즘은 픽셀의 RGB 값을 비교해 특정 색의 물체를 추적하는 것이지만, 조명 변화에 약하다.
엣지처럼 여러 픽셀에 걸친 특징은 '커널(필터)'을 픽셀 영역에 적용하는 합성곱으로 찾아낸다.
여러 약한 특징 검출기를 조합하면 얼굴 같은 복잡한 패턴을 비교적 정확히 찾을 수 있다.
합성곱 신경망은 커널을 직접 학습하고 층을 쌓아, 엣지에서 형태, 사물로 이해를 키워가는 딥러닝이다.

쉽게 이해하기

영상은 시각이 정보량이 가장 많은 감각이라는 점에서 출발한다. 컴퓨터 비전은 반세기 동안 컴퓨터에 '보는 능력'을 주려는 시도로, 디지털 이미지와 영상에서 높은 수준의 이해를 끌어내는 것을 목표로 한다. 강연자는 페이페이 리의 말을 빌려 '사진을 찍는 것과 보는 것은 다르다'고 강조한다. 컴퓨터는 이미 사람보다 정교하게 촬영하지만, 그 이미지를 이해하는 것은 별개의 문제다.

이미지는 보통 픽셀의 격자로 저장되며, 각 픽셀은 빨강·초록·파랑의 조합(RGB 값)으로 색을 표현한다. 가장 단순한 컴퓨터 비전 알고리즘은 밝은 분홍 공처럼 특정 색의 물체를 추적하는 것이다. 기준 색의 RGB 값을 저장한 뒤 이미지의 모든 픽셀을 훑어 가장 가까운 색을 찾고, 영상의 매 프레임에 적용하면 물체를 시간에 따라 추적할 수 있다. 그러나 조명·그림자, 같은 색 유니폼 같은 변수에 쉽게 흔들려 통제된 환경이 아니면 잘 쓰이지 않는다.

단일 픽셀을 넘어서는 특징, 예컨대 사물의 경계(엣지)를 찾으려면 '패치'라 불리는 작은 픽셀 영역을 함께 봐야 한다. 세로 엣지는 어떤 픽셀의 왼쪽과 오른쪽 픽셀들의 색 차이가 클수록 엣지일 가능성이 높다는 규칙으로 정의된다. 이 연산은 '커널(또는 필터)'이라는 수식으로 표현되는데, 픽셀별 곱을 더해 중앙 픽셀 값으로 저장한다. 커널을 모든 픽셀에 적용하는 과정이 바로 '합성곱(convolution)'이며, 강연에서는 세로 엣지를 강조하는 프레윗 연산자(Prewitt Operator)를 예로 든다.

커널은 종류에 따라 이미지를 선명하게 하거나 흐리게 하고, 특정 형태만 골라내는 '쿠키 커터'처럼 작동한다. 선, 주변과 대비되는 픽셀 섬 등을 찾는 커널을 조합하면 단순한 형태를 특징지을 수 있다. 얼굴에서 콧대는 양옆보다 밝고 눈은 밝은 픽셀에 둘러싸인 어두운 원이라는 식의 특징을, 검색 창을 이미지 위로 미끄러뜨리며 찾는다. 커널 하나하나는 약한 얼굴 검출기지만 합치면 꽤 정확해지는데, 이것이 초기의 영향력 있는 비올라-존스 얼굴 검출 알고리즘의 기반이다.

오늘날 각광받는 기법은 합성곱 신경망(CNN)이다. 인공 뉴런이 입력에 가중치를 곱해 합산하는 방식은 합성곱과 매우 닮았고, 2D 픽셀 데이터를 넣으면 사실상 합성곱이 된다. 차이는 미리 정해둔 커널이 아니라 신경망이 유용한 커널을 스스로 학습한다는 점이다. CNN은 층을 쌓아 첫 층은 엣지를, 다음 층은 모서리 같은 단순한 형태를, 그다음은 입·눈썹 같은 부분을 인식하며 결국 '얼굴이다'라고 판단한다. 이렇게 깊은 층을 쌓기에 딥러닝이라 불린다. 강연은 얼굴 인식 이후 표정·감정 인식, 생체 정보 기반 얼굴 인식, 손·신체 추적으로 확장되는 흐름과, 바코드·자율주행·스냅챗 필터 등 일상 속 컴퓨터 비전을 짚으며 마무리한다.

주요 인사이트

'촬영'과 '이해'의 분리가 컴퓨터 비전의 출발점이다. 고화질 카메라가 곧 시각 지능은 아니며, 픽셀에서 의미를 끌어내는 별도의 알고리즘이 필요하다.
색 추적처럼 단순한 방법은 조명·그림자·유사 색에 취약해, 통제된 환경이 아니면 실제로는 거의 쓰이지 않는다는 현실적 한계가 분명하다.
커널과 합성곱이라는 하나의 개념이 엣지 검출, 선명화, 흐림, 형태 매칭까지 다양한 이미지 변환을 관통한다는 점이 컴퓨터 비전 이해의 열쇠다.
약한 검출기를 모아 강한 인식기를 만드는 발상(비올라-존스)은 '여러 단순한 특징이 우연히 얼굴처럼 모이긴 어렵다'는 통계적 직관에 기댄다.
CNN의 핵심 진보는 사람이 커널을 설계하지 않고 신경망이 데이터로부터 직접 커널을 학습한다는 점이며, 층을 쌓아 단순 특징에서 복잡한 사물로 이해를 키운다.

자주 묻는 질문

컴퓨터 비전이란 무엇인가요?

디지털 이미지와 영상에서 높은 수준의 이해를 끌어내는 능력을 컴퓨터에 주려는 분야입니다. 컴퓨터가 사진을 정교하게 찍는 것과, 그 사진의 내용을 '보고 이해하는' 것은 서로 다른 문제입니다.

커널(필터)과 합성곱은 무엇인가요?

커널은 픽셀 영역에 적용하는 작은 수식으로, 픽셀별 곱을 모두 더해 중앙 픽셀의 새 값으로 저장합니다. 이 커널을 이미지의 모든 픽셀에 적용하는 과정이 합성곱이며, 이를 통해 엣지·선명화·흐림 등 다양한 이미지 변환을 수행합니다.

색으로 물체를 추적하는 방법의 한계는 무엇인가요?

조명 변화, 그림자, 야간 경기 같은 환경, 그리고 공과 같은 색의 유니폼 등에 쉽게 혼동됩니다. 그래서 색 마커 추적류 알고리즘은 환경을 엄격히 통제할 수 있을 때가 아니면 거의 사용되지 않습니다.

합성곱 신경망(CNN)이 기존 커널 방식과 다른 점은 무엇인가요?

미리 정해둔 커널을 쓰는 대신, 신경망이 데이터로부터 유용한 커널을 스스로 학습한다는 점입니다. 또 층을 깊게 쌓아 엣지에서 모서리, 부분, 사물로 이해를 단계적으로 키우기 때문에 딥러닝으로 분류됩니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗