AI VIDEO BRIEFING

연합학습(Federated Learning)에 VLM 프롬프트 튜닝 — PromptFL·FedOTP·FedMGP 정리

고려대 김성범 교수 연구실 세미나가 데이터를 공유하지 않는 연합학습에 비전-언어 모델(VLM) 프롬프트 튜닝을 접목한 세 연구 PromptFL·FedOTP·FedMGP로 데이터 이질성 문제를 짚는다.

데이터를 모으지 않고도 강한 모델을: 연합학습에 비전-언어 모델 프롬프트 튜닝 더하기 영상 대표 이미지

핵심 메시지

  • 연합학습은 원본 데이터를 공유하지 않고도, 한곳에 모은 것에 준하는 강한 모델을 만드는 학습 방식이다.
  • 작은 백본 대신 CLIP 같은 대형 VLM을 쓰되, 일부 파라미터만 학습하는 '프롬프트 튜닝'으로 비용과 과적합을 줄인다.
  • 클라이언트마다 데이터 분포가 다른 '데이터 이질성'은 연합학습이 반드시 풀어야 할 핵심 문제다.
  • FedOTP는 글로벌·로컬 두 프롬프트와 불균형 최적수송(Unbalanced OT)으로 중요한 패치만 정렬해 이질성을 완화한다.
  • FedMGP는 텍스트·비주얼 프롬프트를 그룹으로 묶고 다양성 손실과 동적 집계로 일반화와 개인화를 함께 달성한다.

쉽게 이해하기

연합학습(Federated Learning)은 자율주행, 병원처럼 데이터 프라이버시가 중요한 환경을 가정한다. 각 클라이언트가 원본 데이터를 서로 공유하지 않은 채, 로컬에서 학습한 모델 파라미터만 서버로 올려 글로벌 모델을 갱신하는 라운드를 반복한다. 문제는 각 클라이언트가 작은 백본만 쓸 수밖에 없어 성능이 제한된다는 점이었다.

세미나는 그 대안으로 CLIP 같은 대형 비전-언어 모델(VLM)을 붙이는 아이디어를 제시한다. 다만 큰 모델 전체를 매 라운드 학습·업로드·다운로드하면 비용과 과적합 위험이 커진다. 그래서 VLM은 얼린 채 소수의 프롬프트 파라미터만 학습하는 '프롬프트 튜닝'이 등장한다. 비용을 크게 낮추면서, VLM의 사전 학습 덕에 클라이언트 간 데이터 이질성도 완화된다.

데이터 이질성은 클라이언트마다 데이터 분포가 다른 현상으로, 도메인이 다른 피처 시프트와 보유 레이블이 다른 레이블 시프트로 나뉜다. 예컨대 한 클라이언트는 0·1 클래스만, 다른 클라이언트는 2·3 클래스만 가지면 파라미터를 단순 평균할 때 의미가 무너진다. 세미나는 이 문제를 다루는 세 연구를 차례로 소개한다.

PromptFL(2024)은 연합학습에 프롬프트 튜닝을 처음 접목한 연구로, 텍스트 프롬프트라는 소수 파라미터만 학습·집계해 풀 파인튜닝에 준하는 성능을 훨씬 적은 비용으로 낸다. FedOTP(2024, CVPR)는 집계 대상인 글로벌 프롬프트와 로컬에만 남는 로컬 프롬프트를 함께 두고, '불균형 최적수송(Unbalanced OT)'으로 모든 패치가 아니라 중요한 비주얼 패치만 텍스트에 정렬시켜 배경·노이즈를 자연히 걸러 내고 이질성을 극복한다.

가장 최근인 FedMGP(2025, NeurIPS)는 텍스트와 비주얼 프롬프트를 함께, 그것도 여러 개를 그룹으로 묶어 쓴다. 다양성 손실(diversity loss)로 각 프롬프트가 배경·색상·질감처럼 서로 다른 부분에 집중하게 하고, 동적 집계로 이전 라운드 글로벌 프롬프트와 유사한 상위 프롬프트만 골라 비슷한 클라이언트끼리 집계한다. 실험에서 프롬프트 길이는 짧을수록, 그룹은 다섯 개, 집계 선택은 상위 2개가 가장 좋았고, 텍스트 프롬프트만으로도 꽤 좋은 성능이 나와 텍스트의 기여가 크다는 점이 확인됐다.

주요 인사이트

  • 작은 백본 대신 대형 VLM을 얼린 채 프롬프트만 학습하면 비용·과적합을 줄이면서 데이터 이질성까지 완화한다.
  • 데이터 이질성은 피처 시프트와 레이블 시프트로 나뉘며, 연합학습 성능을 좌우하는 가장 현실적인 난제다.
  • 불균형 최적수송은 모든 패치를 강제로 정렬하지 않고 중요한 패치만 선택적으로 매칭해 배경·노이즈를 걸러 낸다.
  • 글로벌 프롬프트는 전역 지식을, 로컬 프롬프트는 도메인 특화 지식을 맡는 역할 분담이 개인화에 효과적이다.
  • 여러 프롬프트를 다양성 손실로 분화시키고 유사한 것끼리만 동적으로 집계하면 일반화와 개인화를 함께 얻는다.

자주 묻는 질문

연합학습에 프롬프트 튜닝을 접목하면 무엇이 좋아지나?

CLIP 같은 대형 VLM 전체를 학습·전송하는 대신 소수의 프롬프트 파라미터만 다루므로 통신·연산 비용과 과적합 위험이 크게 준다. 동시에 VLM의 사전 학습 덕분에 클라이언트 간 데이터 이질성도 완화된다.

FedOTP의 불균형 최적수송(Unbalanced OT)은 일반 최적수송과 무엇이 다른가?

일반 OT는 모든 비주얼 패치를 텍스트에 정렬하도록 제약하지만, 불균형 OT는 그 제약을 부등식으로 완화해 중요한 패치만 선택적으로 매칭한다. 덕분에 배경·노이즈가 자연스럽게 배제돼 데이터 이질성에 강해진다.

FedMGP는 앞선 연구들과 어떻게 다른가?

단일 프롬프트에 의존하던 방식과 달리, 텍스트·비주얼 프롬프트를 여러 개 그룹으로 묶고 다양성 손실로 서로 다른 특징에 집중하게 한다. 또 이전 라운드와 유사한 상위 프롬프트만 동적으로 집계해 일반화와 개인화를 함께 달성한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식