AI VIDEO BRIEFING

컴퓨터 비전이 어려운 이유 — 데이터, 자기지도학습, 그리고 일반화의 벽

인간에겐 너무 자연스러운 '보기'가 컴퓨터에겐 왜 난제인가. 데이터의 중요성, 지도학습과 자기지도학습, 그리고 새로운 상황에 적응하는 문제까지 정리했다.

출처: Quanta Magazine2023년 10월 24일AI 보조 요약

눈을 뜨면 그냥 보이는데, 컴퓨터에겐 왜 이렇게 어려울까 — 컴퓨터 비전의 난제 영상 대표 이미지

핵심 메시지

인간은 눈만 뜨면 보고 이해하지만, '보기'는 대부분 무의식적으로 처리되는 매우 복잡한 과정이라 컴퓨터에겐 오히려 어려운 문제다.
우리는 눈만으로 보는 것이 아니라 '눈과 기억'으로 본다 — 과거에 본 것의 프리즘을 통해 지금을 해석한다.
컴퓨터 비전에서 화려한 알고리즘보다 실제로 무거운 일을 해내는 것은 대규모 데이터다.
주류인 지도학습은 사람이 붙인 라벨에 의존해 편향이 끼어들 수 있고, 자기지도학습은 라벨 없이 원데이터 자체에서 세상을 이해하려 한다.
고정된 데이터로 학습한 모델은 새로운 환경에 약하다 — 그래서 매 순간 새 데이터로 모델을 갱신하는 '테스트 시점 학습'이 시도되고 있다.

쉽게 이해하기

영상은 '시각은 인간에게 너무 자연스러워서, 왜 그것이 컴퓨터에겐 어려운 문제인지조차 깨닫기 어렵다'는 역설에서 출발한다. 보기는 매우 복잡한 과정이지만 우리는 그 대부분을 의식하지 못한 채 처리한다. 연구자는 레드우드 나무를 볼 때도 그냥 나무를 보는 게 아니라, 예전에 본 것의 프리즘을 통해 본다고 말한다.

핵심 통찰은 '우리는 눈만으로 보지 않는다'는 것이다. 연구자는 자신의 시력이 좋지 않지만 뛰어난 시각 기억으로 보완해 왔다고 밝히며, 이 경험이 대규모 시각 데이터의 중요성을 일찍 깨닫게 했다고 말한다. 즉 우리는 눈과 기억으로 함께 본다.

1960년대 초 MIT에서 인공지능을 연구하던 이들은 로봇의 시각을 '여름방학 프로젝트' 정도로 여겼다. 충분히 똑똑한 알고리즘만 짜면 컴퓨터가 보게 되리라 생각했지만, 훨씬 뒤에야 컴퓨터에 정말 필요한 것은 지금 감지하는 것을 과거에 본 것과 연결하는 능력임을 알게 됐다.

그래서 데이터가 근본이다. 나무껍질 무늬는 유전자·날씨 등 수많은 요인으로 결정돼 정확한 공식으로 적을 수 없지만, 다양한 나무와 껍질 사례를 많이 모으면 그 모습을 모델링할 수 있다. 영상은 '모두가 알고리즘에 열광하지만 실제로 무거운 일을 하는 것은 데이터'라고 강조한다.

현대 컴퓨터 비전에는 두 패러다임이 있다. 오래되고 여전히 주류인 지도학습은 사람이 이미지마다 라벨을 붙여 신경망이 이미지와 라벨의 연관을 배우게 하는데, 이 라벨이 편향을 들여올 수 있다. 반면 연구실이 하는 자기지도학습은 이미지에 구멍을 내 채우게 하거나 영상의 다음 장면을 예측하게 하는 식으로, 라벨 없이 원데이터에서 세상을 이해하게 해 라벨에 박힌 편향을 줄인다.

마지막 난제는 일반화다. 사람은 처음 가 본 공항에서도 길을 찾지만, 고정된 데이터로 학습한 뒤 얼어붙은(frozen) 모델은 새 환경에 약하다. 연구실은 새 이미지를 만날 때마다 그 이미지로 모델을 갱신하는 '테스트 시점 학습(test-time training)'을 시도한다. 눈이 거의 오지 않는 캘리포니아에서 학습한 자율주행차가 미네소타에 갔을 때 적응해야 하는 문제가 대표적 예다.

주요 인사이트

'보기'가 쉬워 보이는 것은 뇌가 무의식적으로, 그리고 기억을 동원해 빈 곳을 채워주기 때문이다. 이 무의식성이 문제의 난이도를 가린다.
알고리즘이 아니라 데이터가 성능의 상당 부분을 떠받친다 — 연구자는 '데이터에 마땅한 대우를 해 주는 것'이 연구의 한 방향이라고 표현한다.
라벨은 지식이자 편향의 통로다. 자기지도학습은 라벨을 없앰으로써 성능뿐 아니라 편향 완화라는 이점을 함께 노린다.
생물학적 지능은 끝없는 학습 루프 속에서 연속적으로 적응하지만, 대부분의 기계학습은 학습 후 모델이 얼어붙어 일반화에 취약하다. 테스트 시점 학습은 이 간극을 메우려는 시도다.
충분한 데이터가 주는 '거의 마법 같은' 일반화 능력은 챗GPT 같은 텍스트 생성 모델에서도 확인됐고, 이는 로봇공학과 컴퓨터 비전의 연결로 이어지고 있다.

자주 묻는 질문

인간에겐 쉬운 '보기'가 왜 컴퓨터에겐 어려운가?

보기는 매우 복잡한 과정이지만 인간은 그 대부분을 의식하지 못한 채 처리한다. 게다가 우리는 눈만으로 보는 게 아니라 과거에 본 것을 기억으로 끌어와 함께 해석한다. 컴퓨터가 지금 감지하는 것을 과거 경험과 연결하도록 만드는 일이 바로 어려운 지점이다.

지도학습과 자기지도학습은 어떻게 다른가?

지도학습은 사람이 이미지마다 라벨을 붙이고 신경망이 이미지와 라벨의 연관을 배우는 방식으로, 라벨을 통해 편향이 들어올 수 있다. 자기지도학습은 이미지에 구멍을 내 채우거나 다음 장면을 예측하게 하는 식으로 라벨 없이 원데이터 자체에서 세상을 이해하게 해, 라벨에 박힌 편향을 줄인다.

테스트 시점 학습(test-time training)이란 무엇인가?

학습이 끝난 뒤 모델을 고정하지 않고, 새로운 이미지 같은 데이터를 만날 때마다 그 데이터로 모델을 갱신해 계속 적응시키는 접근이다. 예를 들어 눈이 거의 오지 않는 캘리포니아에서 학습한 자율주행차가 미네소타의 눈길에 적응해야 하는 문제를 다루기 위한 것이다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗