AI VIDEO BRIEFING

비디오 객체 분할(VOS)의 진화 — 언어로 객체를 찾는 ReferFormer·VISA·BRS-HQ 정리

고려대 김성범 교수 연구실 세미나가 비디오 객체 분할(VOS)이 마스크 입력에서 자연어 입력으로, 다시 추론 기반으로 발전한 흐름을 ReferFormer·VISA·BRS-HQ 세 논문으로 짚는다.

비디오 객체 분할의 진화: '지칭'에서 '추론'으로 — ReferFormer부터 BRS-HQ까지 영상 대표 이미지

핵심 메시지

  • 비디오 객체 분할(VOS)은 영상에서 특정 객체를 프레임 단위로 분리·추적하는 컴퓨터 비전의 핵심 과제다.
  • 첫 프레임 마스크 대신 자연어로 객체를 지정하는 방향으로 패러다임이 바뀌었고, 다시 세계 지식·인과 추론이 필요한 '추론형'으로 확장됐다.
  • ReferFormer는 언어 단서를 객체 쿼리에 직접 주입해, 100개였던 쿼리를 5개로 줄이면서도 탐지·분할·추적을 엔드투엔드로 통합했다.
  • VISA는 멀티모달 LLM의 추론을 SEG 토큰으로 분할에 연결했지만, 단일 토큰의 시공간 표현 한계와 분리된 모듈 구조가 약점이었다.
  • BRS-HQ는 공간 정보(SEG)와 시간 정보(TAK) 토큰을 분리하고 SAM2로 분할·전파를 통합해 VISA의 한계를 극복했다.

쉽게 이해하기

비디오 객체 분할(Video Object Segmentation, VOS)은 영상 안에서 원하는 객체를 프레임마다 분리하고 끝까지 추적하는 기술로, 자율주행·보안·의료·영상 편집에 두루 쓰인다. 전통적 VOS는 첫 프레임에 객체의 마스크를 직접 그려 주면 모델이 이후 프레임에서 같은 객체를 따라가는 방식이었다. 세미나는 이 마스크 입력을 자연어로 바꾸려는 흐름에서 출발한다.

자연어로 객체를 지정하는 방식은 두 갈래다. '왼쪽 고양이'처럼 외형·위치를 명시적으로 기술하는 지칭형(Referring) VOS와, '비를 막아 줄 물건'처럼 세계 지식과 인과·시공간 추론이 필요한 추론형(Reasoning) VOS다. 후자는 시각과 언어 두 모달리티를 함께 다뤄야 하고, 추가적인 추론 능력까지 요구돼 난도가 높다.

지칭형의 대표작 ReferFormer(2022, CVPR)는 'language as queries'라는 발상을 제시한다. 기존 DETR의 객체 쿼리가 '임무를 받지 않은 탐정'이라면, ReferFormer는 처음부터 언어 단서를 받은 탐정만 투입한다. 문장 단위 특징을 객체 쿼리의 초기값으로 쓰고, 단어 단위 특징은 다중 스케일에서 시각 특징과 정교하게 융합(CMFPN)해 마스크를 만든다. 같은 모양의 쿼리가 프레임 간 가중치를 공유해 별도 추적기 없이도 같은 객체를 따라간다.

추론형의 첫 모델 VISA(2024, CVPR)는 멀티모달 LLM의 추론 능력을 분할에 끌어온다. LLM이 응답에 특수 토큰 SEG를 만들면 그 은닉 임베딩에 객체의 정체·맥락·위치가 담기고, 이를 SAM 디코더의 프롬프트로 넣어 마스크를 생성한 뒤 트래커로 전파한다. 다만 단일 SEG 토큰 하나로 공간·시간 정보를 모두 담으려다 보니 시공간 표현이 부족하고, 분할과 전파 모듈이 분리돼 엔드투엔드 학습이 어렵다는 한계가 있었다.

2025년 CVPR의 BRS-HQ는 이 약점을 정면으로 다룬다. 각 프레임의 공간 정보를 담는 SEG 토큰과 영상 전체의 시간 정보를 담는 TAK 토큰을 분리하고, 둘의 코사인 유사도로 시간 정보를 통합(TDA)한 뒤 키프레임을 고른다. 분할과 전파를 한 번에 처리하는 SAM2를 써서 전체를 하나의 엔드투엔드 파이프라인으로 묶었고, 추론형 벤치마크에서 VISA 대비 큰 폭의 성능 향상을 보였다. 세미나는 최근 파인튜닝 없이 동작하는 제로샷·트레이닝프리 연구로 흐름이 이어진다고 정리한다.

주요 인사이트

  • 마스크라는 시각적 가이드에서 자연어 가이드로의 전환이 VOS의 결정적 패러다임 변화였다.
  • 언어 단서를 객체 쿼리에 미리 주입하면 필요한 쿼리 수가 크게 줄어(100→5) 효율이 오른다.
  • 멀티모달 LLM을 끌어오면 추론형뿐 아니라 지칭형 과제에서도 전용 모델을 능가할 수 있다.
  • 단일 토큰에 공간·시간을 모두 욱여넣기보다, 역할별로 토큰을 나누는 편이 시공간 표현에 유리하다.
  • 분할과 전파를 한 모델(SAM2)로 통합하면 단계 간 오차 전파를 막고 엔드투엔드 학습이 가능해진다.

자주 묻는 질문

지칭형(Referring)과 추론형(Reasoning) 비디오 객체 분할은 어떻게 다른가?

지칭형은 '왼쪽 고양이'처럼 객체의 외형·위치를 명시적으로 기술한 표현으로 객체를 찾는다. 추론형은 '비를 막아 줄 물건'처럼 세계 지식과 인과·시공간 추론이 있어야 답할 수 있는 함축적 표현을 다룬다.

ReferFormer의 핵심 기여는 무엇인가?

언어 단서를 객체 쿼리의 초기값으로 직접 주입한 'language as queries'다. 이를 통해 탐지·분할·추적을 엔드투엔드로 통합하고, 기존 100개 수준이던 객체 쿼리를 5개로 줄였다.

BRS-HQ가 VISA의 한계를 어떻게 극복했나?

공간 정보를 담는 SEG 토큰과 시간 정보를 담는 TAK 토큰을 분리하고, SAM2로 분할과 전파를 통합했다. 이로써 시공간 표현 부족과 분리된 모듈로 인한 엔드투엔드 학습 불가 문제를 해결했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식