AI VIDEO BRIEFING
객체 탐지와 YOLO 원리 — 컴퓨터가 실시간으로 사물을 인식하는 법
이미지 분류를 넘어 사진 속 모든 사물의 위치와 종류를 한 번에 찾아내는 객체 탐지 기술과, 영상을 실시간으로 처리하는 YOLO 방식의 원리를 TED 강연을 바탕으로 풀어 설명합니다.

핵심 메시지
쉽게 이해하기
강연자는 워싱턴대 대학원생으로, 컴퓨터 비전 모델을 학습·시험하는 신경망 프레임워크 '다크넷(Darknet)'을 개발한다. 그는 먼저 이미지 분류를 보여 주는데, 단순히 '개'가 아니라 견종(말라뮤트)까지 맞힐 만큼 정밀해졌다고 설명한다.
하지만 이미지 분류는 사진에 하나의 이름표만 붙일 뿐, 그 안에서 무슨 일이 벌어지는지는 알려 주지 못한다. 그래서 그는 사진 속 모든 사물을 찾아 경계 상자를 그리고 종류를 말해 주는 '객체 탐지' 문제를 연구한다. 이렇게 하면 사물의 상대적 위치와 크기, 배경 정보까지 얻을 수 있다.
이 분야에서는 속도가 매우 중요하다. 처음에는 한 장을 처리하는 데 20초가 걸렸고, 2초·초당 5프레임을 거쳐 마침내 노트북에서 실시간으로 동작하게 됐다. 몇 년 사이 한 장에 20초에서 20밀리초로, 약 1000배 빨라진 것이다.
속도의 비결은 접근 방식의 전환이다. 과거에는 이미지를 여러 영역으로 쪼개 각 영역마다 분류기를 수천 번 돌렸지만, 연구진은 단 하나의 신경망이 모든 경계 상자와 분류 확률을 한 번에 내놓도록 학습시켰다. 이미지를 '한 번만 본다'는 뜻에서 이 방식을 YOLO(You Only Look Once)라 부른다.
이 속도 덕분에 영상도 실시간으로 처리할 수 있고, 마이크로소프트의 COCO 데이터셋에 있는 80가지 사물(숟가락, 그릇, 동물, 자동차 등)을 인식한다. 같은 코드로 정지 표지판·보행자뿐 아니라 조직 검사의 암세포까지 찾을 수 있으며, 모델 최적화와 이진화·근사를 거쳐 휴대폰에서도 객체 탐지가 돌아간다.
주요 인사이트
- 이미지 분류와 객체 탐지는 다르다. 전자는 '무엇이 있는가'를, 후자는 '무엇이 어디에 얼마나 큰가'를 알려 준다.
- 자율주행처럼 빠르게 움직이는 상황에서는 처리 속도가 안전과 직결된다. 한 장에 2초가 걸리면 이미 세상은 바뀌어 있다.
- YOLO의 핵심 혁신은 분류기를 수천 번 돌리는 대신 단일 신경망이 탐지를 한 번에 끝내도록 한 점이다.
- 범용 객체 탐지 시스템이므로 학습 데이터만 바꾸면 표지판 인식부터 암세포 탐지까지 같은 코드로 응용할 수 있다.
- 다크넷이 오픈소스로 공개돼 누구나 활용할 수 있다는 점이 의료·로봇 등으로의 확산을 앞당겼다.
자주 묻는 질문
이미지 분류와 객체 탐지는 어떻게 다른가요?
이미지 분류는 사진 전체에 하나의 이름표를 붙이는 일이고, 객체 탐지는 사진 속 여러 사물을 각각 찾아 경계 상자를 그리고 무엇인지 알려 줍니다. 객체 탐지는 위치·크기 같은 추가 정보까지 제공합니다.
YOLO라는 이름은 무슨 뜻인가요?
'You Only Look Once'의 약자로, 이미지를 여러 번 나눠 분류기를 반복 실행하는 대신 단일 신경망이 한 번에 모든 경계 상자와 분류 확률을 산출하는 방식을 가리킵니다. 그래서 '한 번만 본다'고 부릅니다.
객체 탐지에서 속도가 왜 중요한가요?
자율주행 차량이나 로봇처럼 움직이는 환경에서는 처리하는 사이에 상황이 바뀌기 때문입니다. 강연에서는 한 장에 20초가 걸리던 것을 20밀리초로 약 1000배 빠르게 만들어 노트북에서 실시간 처리가 가능해졌다고 설명합니다.
이 기술은 어디에 쓰일 수 있나요?
범용 객체 탐지 시스템이라 학습만 바꾸면 다양한 영역에 적용됩니다. 자율주행의 표지판·보행자·자전거 인식은 물론, 조직 검사의 암세포 탐지, 국립공원의 동물 개체수 조사 등에 활용되고 있으며 휴대폰에서도 동작합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗