AI VIDEO BRIEFING
연합학습(Federated Learning) 쉽게 이해하기: 프라이버시를 지키는 분산 머신러닝
사용자 데이터를 서버로 보내지 않고 기기 안에서 학습해 모델만 모으는 연합학습. 키보드 예측·Gboard 사례와 보안 집계까지 구글 클라우드 설명으로 정리했다.

핵심 메시지
쉽게 이해하기
맛집 리뷰나 크라우드펀딩처럼 여러 사람의 분산된 기여가 모여 유용한 도구를 만드는 경험은 익숙하다. 연합학습은 바로 이 크라우드소싱 개념을 머신러닝 모델 구축에 적용한 접근이다. 표준 머신러닝은 훈련 데이터를 한곳에 모으는 것을 전제로 한다. 예컨대 키보드 예측 모델을 만들려면 모든 데이터를 서버에 수집해 모델을 만들고 배포하며, 클라이언트는 서버와 통신해 예측을 받는다. 모델과 데이터가 한곳에 있어 단순하지만, 잦은 양방향 통신이 네트워크 지연·연결 불안정·배터리 소모 등으로 사용자 경험을 해친다.
그렇다면 각 기기가 자기 데이터로 직접 모델을 학습하면 어떨까. 통신이 필요 없어 좋아 보이지만, 개별 기기 하나의 데이터만으로는 좋은 모델을 만들 수 없다는 문제가 있다. 서버에서 미리 학습한 모델을 배포하는 방법도 있으나, 오늘 모두가 새로운 유행어를 쓰기 시작했다면 어제 데이터로 학습한 모델은 그만큼 쓸모가 떨어진다. 분산된 데이터의 장점은 살리면서 사용자 프라이버시는 지키는 길, 그것이 연합학습이다.
동작 방식은 이렇다. 서버의 모델을 클라이언트에 배포하되, 모든 기기에 무작정 배포하지 않는다. 먼저 사용 가능한 기기(충전 중이고 사용하지 않는 상태)와 적합한 기기(충분한 데이터를 가진 기기)를 식별한다. 선별된 기기에 모델을 배포하면, 각 클라이언트가 자기 로컬 데이터로 모델을 학습해 새 모델을 만들어 서버로 보낸다. 이때 학습에 쓰인 데이터는 기기를 절대 떠나지 않고, 모델이 학습한 가중치·편향 같은 파라미터만 전송된다.
서버는 로컬에서 학습된 모델들을 모아 평균을 내어 새로운 마스터 모델을 만든다. 한 번으로는 부족해 이 과정을 거듭 반복하며, 결합된 모델이 다음 라운드의 초기 모델이 된다. 매 라운드마다 수많은 클라이언트의 데이터 덕분에 모델이 조금씩 좋아지고, 여러 라운드 뒤 스마트 키보드가 똑똑해지기 시작한다. 추가 프라이버시를 위해 보안 집계 기법을 쓸 수 있는데, 서버가 기기들을 짝(버디 시스템)으로 묶고 각 기기 데이터에 무작위 값을 더해 보낸 뒤 서버가 그 값을 상쇄해 실제 내용만 얻는 식으로 전송 중 데이터를 가린다.
구글 키보드 Gboard를 써봤다면 이미 연합학습을 경험한 셈이다. Gboard가 추천 검색어를 보여줄 때, 휴대폰은 현재 맥락과 사용자가 추천을 클릭했는지 여부를 로컬에 저장하고, 연합학습이 그 기록을 기기 안에서 처리해 다음 버전의 추천 모델 개선에 반영한다. 정리하면 연합학습은 협력적이고 탈중앙적인 머신러닝 방식으로, 사용자 프라이버시를 보장하면서도 더 똑똑한 모델, 낮은 지연, 적은 전력 소비를 가능하게 한다. 아직 비교적 새로운 개념인 만큼 앞으로의 발전 여지도 크다.
주요 인사이트
- 연합학습의 본질은 "데이터를 모으는 대신 모델을 모은다"는 발상 전환이다. 원본 데이터는 기기에 남고 학습된 파라미터만 오간다.
- 중앙집중 학습의 사용자 경험 저하(지연·배터리)와, 기기 단독 학습의 데이터 부족 문제를 동시에 우회하는 절충안이 연합학습이다.
- 한 번의 학습이 아니라 라운드를 반복하며 결합 모델을 점진적으로 개선하는 구조가 핵심이며, 유행어 변화처럼 빠르게 바뀌는 데이터에도 대응한다.
- 보안 집계의 버디 시스템은 전송 중 개별 기여를 무작위 값으로 가려, 서버조차 개별 데이터를 들여다보지 못하게 하는 추가 방어선이다.
자주 묻는 질문
연합학습에서 서버로 전송되는 것은 무엇인가요?
학습에 사용된 원본 데이터는 기기를 절대 떠나지 않습니다. 서버로는 모델이 학습한 가중치·편향 등 파라미터만 전송되며, 서버는 이를 평균 내어 새 마스터 모델을 만듭니다.
왜 모든 기기에 모델을 배포하지 않나요?
사용자 경험을 해치지 않기 위해 충전 중이고 사용하지 않는 "사용 가능한" 기기와, 충분한 데이터를 가진 "적합한" 기기를 먼저 식별한 뒤 그 기기들에만 배포합니다.
연합학습의 실제 사용 사례가 있나요?
구글 키보드 Gboard가 대표적입니다. 휴대폰이 추천어 맥락과 클릭 여부를 로컬에 저장하고, 연합학습이 이를 기기 안에서 처리해 다음 추천 모델 개선에 반영합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗