AI VIDEO BRIEFING

액티브 러닝 완벽 입문: 적은 라벨링으로 AI 모델 성능을 높이는 능동 학습과 쿼리 전략

액티브 러닝은 가장 적은 학습 데이터로 전체 데이터 라벨링을 최적화하고 최고의 모델을 만드는 지도학습 방식입니다. 불확실성 샘플링과 위원회 질의 같은 쿼리 전략, 사람이 개입하는 라벨링 루프를 쉽게 설명합니다.

출처: What's AI by Louis-François Bouchard2023년 6월 17일AI 보조 요약

액티브 러닝이란? 가장 적은 라벨로 최고의 AI 모델 만들기 영상 대표 이미지

핵심 메시지

액티브 러닝의 목표는 가장 적은 학습 데이터로 전체 데이터셋의 라벨링을 최적화하고 최고의 모델을 만드는 것이다.
작은 라벨 데이터로 모델을 학습시킨 뒤, 라벨 없는 데이터에 적용하고 사람이 라벨을 다는 과정을 오가며 반복한다.
모델이 확신이 낮은 예측에 대해서만 추가 라벨링을 요청해 라벨링 비용과 시간을 크게 줄인다.
라벨링할 데이터를 고르는 쿼리 전략에는 불확실성 샘플링과 위원회 질의(QBC)가 있다.
사람이 학습 루프 안에 계속 남아 모델 품질을 직접 통제하므로 거대한 블랙박스가 아니다.

쉽게 이해하기

거대 모델의 성능은 방대한 데이터뿐 아니라 그 데이터의 품질에서 나온다. 그러나 균형 잡히고 다양한 양질의 데이터셋을 빠르고 대규모로, 그것도 제한된 예산으로 만드는 일은 데이터 과학자에게 늘 고된 작업이다. 액티브 러닝은 바로 이 라벨링 과정을 효율화하기 위한 접근이다.

한 문장으로 요약하면, 액티브 러닝의 목표는 가장 적은 학습 데이터로 전체 데이터셋의 라벨링을 최적화하고 가능한 한 최고의 모델을 만드는 것이다. 이는 모델의 예측과 데이터 사이를 오가는 지도학습 방식이다. 수백만 장이 다 준비되기를 기다릴 필요 없이, 작게 선별해 라벨링한 데이터로 먼저 모델을 학습시킨 뒤 라벨이 없는 데이터에 적용한다.

핵심은 모델의 예측 확신도를 활용하는 것이다. 확신이 낮은 예측에는 해당 유형의 데이터를 추가로 라벨링하도록 자동으로 요청하고, 확신이 높은 예측에는 추가 데이터가 필요 없다. 결과적으로 더 적은 양만 라벨링하고도 최적화된 모델을 얻어 시간과 비용을 크게 아낄 수 있다.

어떤 데이터를 라벨링할지 고르는 방법이 쿼리 전략이며, 이는 모든 액티브 러닝 알고리즘의 핵심이다. 대표적으로 현재 모델이 가장 확신하지 못한 예시를 고르는 불확실성 샘플링이 있다. 또 다른 방법인 위원회 질의(QBC)는 서로 다른 데이터 부분집합으로 학습한 여러 모델을 두고, 이들이 가장 많이 의견을 달리하는 데이터를 골라 전문가에게 라벨링을 맡긴다.

액티브 러닝에서 가장 중요한 점은 사람이 가운데에 남는다는 것이다. 사람이 라벨링에 계속 참여하므로 수백만 장으로 한 번에 학습하는 블랙박스가 아니라, 모델이 실패하는 지점을 반복적으로 짚어 가며 품질을 직접 통제할 수 있다. 비지도 방식보다 비용은 늘지만, 필요한 곳에만 학습을 집중해 비용을 제한하고 모델 배포 시간을 줄이는 이점이 이를 상쇄한다. 구글의 캡차(CAPTCHA)도 여러 사람을 위원회처럼 활용해 저렴하게 데이터셋을 만드는 액티브 러닝의 한 사례다.

주요 인사이트

액티브 러닝은 "데이터를 무조건 많이"가 아니라 "필요한 곳에만" 라벨링한다는 발상의 전환으로, 제한된 예산에서 효율을 끌어올린다.
모델의 예측 확신도를 신호로 삼아 라벨링 우선순위를 정하는 것이 핵심 메커니즘이다.
위원회 질의는 여러 모델이 의견을 달리하는 데이터가 곧 가장 어렵고 정보량이 많은 데이터라는 직관에 기반한다.
우리가 캡차를 풀 때마다 사실은 AI 모델의 데이터셋 구축을 돕고 있는 셈이며, 이는 일상 속 액티브 러닝의 사례다.

자주 묻는 질문

액티브 러닝이란 무엇인가요?

가장 적은 학습 데이터로 전체 데이터셋의 라벨링을 최적화하고 최고의 모델을 만드는 지도학습 방식입니다. 모델의 예측과 데이터 사이를 오가며, 작은 라벨 데이터로 학습한 뒤 라벨 없는 데이터에 적용하고 사람이 라벨을 추가합니다.

쿼리 전략에는 어떤 것이 있나요?

현재 모델이 가장 확신하지 못한 예시를 고르는 불확실성 샘플링과, 서로 다르게 학습한 여러 모델이 가장 의견을 달리하는 데이터를 고르는 위원회 질의(QBC)가 대표적입니다.

액티브 러닝의 장단점은 무엇인가요?

사람이 라벨링에 참여해 모델 품질을 직접 통제할 수 있고 적은 라벨로 최적의 모델을 얻습니다. 비지도 방식보다 비용은 늘지만, 필요한 곳에만 학습을 집중해 비용과 배포 시간을 줄이는 이점이 이를 상쇄합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗