AI VIDEO BRIEFING

VLM 기반 테스트 타임 어댑테이션(TTA) 정리: 제로샷·프롬프트 튜닝·인코더 튜닝

학습이 끝난 모델이 처음 보는 데이터를 만나는 테스트 시점에 스스로 적응하는 TTA를, 비전·언어 모델 기반의 제로샷·프롬프트 튜닝·인코더 튜닝 세 갈래로 풀어 설명합니다.

출처: ‍김성범[ 교수 / 산업경영공학부 ]2026년 6월 1일AI 보조 요약

비전·언어 모델로 푸는 테스트 시점 적응(TTA): 학습 없이도 분포 변화에 버티는 세 가지 방법 영상 대표 이미지

핵심 메시지

도메인 적응이 학습 단계에서 분포 차이를 줄이는 것이라면, 테스트 타임 어댑테이션(TTA)은 학습이 끝난 뒤 추론 시점에 들어오는 라벨 없는 새 데이터에 맞춰 모델을 업데이트하는 방법이다.
비전·언어 모델(VLM)은 이미지 인코더에 더해 텍스트 프롬프트(텍스트 인코더) 정보를 함께 활용해 분류 정확도를 높이는데, 이 구조를 TTA에 접목한 것이 VLM 기반 TTA다.
발표는 VLM 기반 TTA를 제로샷, 테스트 타임 프롬프트 튜닝, 인코더 튜닝의 세 가지 방향으로 나누고 각 대표 논문을 소개한다.
제로샷 방식(ECALP)은 모델을 학습하지 않고 추론 방식만 바꿔 적응 효과를 내며, 샘플 간 그래프와 라벨 전파(label propagation)를 활용한다.
프롬프트 튜닝(RTPT)은 적대적 공격에 대한 강건성을, 인코더 튜닝(BAT-CLIP)은 텍스트·비전 두 모달리티를 함께 고려하는 데 초점을 둔다.

쉽게 이해하기

발표는 먼저 도메인 적응과 테스트 타임 어댑테이션의 차이를 정리한다. 도메인 적응은 실제 동물 사진(소스)으로 학습한 분류기가 캐릭터 그림처럼 분포가 달라진 데이터(타깃)를 잘 못 맞히는 “도메인 시프트”를 학습 단계에서 줄이는 방법론이다. 반면 TTA는 모델 학습이 끝난 뒤, 테스트 시점에 한 번도 보지 못한 라벨 없는 데이터가 온라인으로 들어올 때 그 자리에서 모델을 갱신한다. 예컨대 어떤 공정에서 학습 때는 제품 A·B만 나오다가 테스트 때 갑자기 C가 등장하는 상황이 TTA가 다루는 전형적인 사례다.

비전·언어 모델(VLM)은 이미지만 인코딩하던 분류기에 텍스트 프롬프트 정보를 더해, 이미지와 텍스트 두 정보를 함께 써서 더 정확히 분류한다는 가정에서 출발한다. 발표는 이 VLM을 기반으로 한 TTA를 (1) 파라미터를 전혀 튜닝하지 않는 제로샷, (2) 텍스트 프롬프트에 학습 가능한 토큰을 두어 조정하는 테스트 타임 프롬프트 튜닝, (3) 인코더의 특정 레이어를 조정하는 인코더 튜닝의 세 갈래로 구분한다.

첫 번째 제로샷 사례는 ECALP다. 핵심 아이디어는 모델 가중치를 바꾸지 않고 추론 방식만 바꿔 학습한 듯한 효과를 내는 것이다. 일반적인 코사인 유사도 대신, 텍스트 프로토타입의 차원별 분산을 이용해 “중요한 차원”에 가중치를 주는 컨텍스트 인식 유사도를 쓴다. 배경·스타일 같은 노이즈가 코사인 유사도에 잘 반영되지 않는다는 문제의식에서다. 이렇게 만든 샘플 간 그래프를 정규화한 뒤, 이전 라벨과 현재 라벨을 잇는 라벨 전파로 추론을 정교화한다. 학습이 없는데도 세부 분류·스타일 변화·여러 손상(corruption)에 대한 강건성 실험에서 비교 기법들보다 좋은 성능을 보였다고 한다.

두 번째는 테스트 타임 프롬프트 튜닝의 RTPT다. 텍스트 프롬프트에 학습 가능한 컨텍스트 토큰을 두고 샘플마다 맞춘다. 한 샘플마다 토큰을 초기화해 새로 찾는 “에피소딕” 방식과, 초기화 없이 과거 정보를 누적하는 “온라인” 방식이 있다. RTPT가 겨냥하는 문제는 적대적 강건성이다. 사람 눈엔 같아 보이는 노이즈가 더해지면 판다를 높은 확신으로 긴팔원숭이로 오인하듯, VLM은 적대적 공격에 민감하다. RTPT는 이미지를 여러 번 증강해 예측한 뒤 엔트로피가 낮은(확신이 큰) 예측만 고르고, 기존 KL 발산 최소화의 약점을 지적하며 샘플별 엔트로피를 줄이는 포인트와이즈 방식을 쓴다. 또 증강된 뷰들 사이의 유사도로 신뢰도를 매겨, 다른 뷰와 동떨어진(적대적일 가능성이 큰) 뷰의 영향을 낮춘다.

세 번째는 인코더 튜닝의 BAT-CLIP이다. 기존 연구들이 텍스트나 비전 한쪽 모달리티에만 치우쳐 최적이 아닌 정렬에 머문다고 보고, 두 모달리티를 함께 고려한다. 무거운 인코더 전체가 아니라 분포 변화를 직접 다루는 레이어 정규화(layer norm) 층만 튜닝하는데, 그래디언트 흐름이 안정적이라는 실험적 근거를 든다. 학습에는 엔트로피 최소화, 이미지·텍스트를 같은 클래스끼리 가깝게 만드는 프로젝션 매칭, 서로 다른 클래스를 멀리 떼어 놓는 인터클래스 분리 손실의 세 가지를 함께 사용한다.

주요 인사이트

TTA의 가치는 현실성에 있다. 공정·서비스처럼 시간이 지나며 데이터 분포가 변하는 환경에서, 재학습 없이 추론 시점에 적응하는 능력은 실용적 의미가 크다.
“학습 없이 적응”은 모순이 아니다. ECALP처럼 모델은 그대로 두고 추론 절차(유사도 정의·라벨 전파)를 바꾸는 것만으로도 적응 효과를 낼 수 있다.
강건성은 흔들리지 않음으로 측정된다. RTPT는 프롬프트 템플릿, 이웃 개수, 어떤 파라미터를 갱신하는지를 바꿔도 성능이 크게 출렁이지 않는다는 점을 강점으로 내세운다.
엔트로피 최소화만 쓰면 오버컨피던스 위험이 있어, BAT-CLIP은 프로젝션 매칭·클래스 분리 손실을 함께 묶어 보완한다. 손실 설계가 곧 안전장치인 셈이다.

자주 묻는 질문

도메인 적응과 테스트 타임 어댑테이션(TTA)은 어떻게 다른가요?

도메인 적응은 학습 단계에서 소스·타깃 도메인 간 분포 차이를 줄여 일반화 성능을 높이는 방법입니다. TTA는 학습이 끝난 뒤 테스트 시점에, 라벨이 없는 처음 보는 데이터가 온라인으로 들어올 때 그 자리에서 모델을 업데이트하는 방법입니다.

발표에서 소개한 VLM 기반 TTA의 세 가지 방향은 무엇인가요?

파라미터를 튜닝하지 않는 제로샷(ECALP), 텍스트 프롬프트에 학습 가능한 토큰을 두어 조정하는 테스트 타임 프롬프트 튜닝(RTPT), 인코더의 특정 레이어를 조정하는 인코더 튜닝(BAT-CLIP)입니다.

RTPT는 어떤 문제를 해결하려고 하나요?

적대적 공격에 대한 강건성입니다. 사람 눈엔 거의 같아 보이는 노이즈가 더해져도 VLM이 엉뚱한 클래스를 높은 확신으로 예측하는 문제를, 증강 뷰의 엔트로피 선택과 신뢰도 가중으로 완화합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗