AI VIDEO BRIEFING

머신러닝 시스템 설계와 프로덕션 준비: 칩 후옌이 말하는 모델 운영·반복·실시간 ML의 원칙

칩 후옌이 슈퍼 데이터 사이언스 팟캐스트에서 머신러닝 시스템 설계를 이야기한다. 왜 모델이 프로덕션에 가지 못하는지, 모델 노후화와 실시간 ML, 데이터·피처 설계, 비즈니스 정렬까지 실전 원칙을 정리했다.

출처: Super Data Science: ML & AI Podcast with Jon Krohn2023년 3월 14일AI 보조 요약

머신러닝 시스템 설계의 핵심: 왜 대부분의 모델은 프로덕션에 가지 못하나 영상 대표 이미지

핵심 메시지

많은 머신러닝 모델이 프로덕션에 도달하지 못하거나, 도달해도 오래 유지되지 못한다. 처음부터 배포와 지속 운영을 염두에 두고 설계해야 한다.
세상은 계속 바뀌므로 모델도 계속 갱신돼야 한다. 갱신 주기를 얼마나 늦출 때 성능이 얼마나 떨어지는지 측정하는 것이 중요하다.
기술이 아니라 문제에서 출발하라. 전환율 개선 같은 과제는 UI 수정으로 풀리는 경우도 많고, 머신러닝은 마지막 수단일 때가 많다.
더 많은 연산과 데이터가 지난 10년의 발전을 이끌었다는 "쓰라린 교훈"은 여전히 유효하며, 학습 데이터 확보가 기업의 경쟁력이 된다.
거대 모델의 확률적 출력은 정답이 아니라 근사치다. 완전 자동화보다 여러 후보를 사람이 고르는 "증강" 방식이 실용적이다.

쉽게 이해하기

칩 후옌(Chip Huyen)은 베스트셀러 『머신러닝 시스템 설계(Designing Machine Learning Systems)』의 저자로, 스탠퍼드 강의를 바탕으로 이 책을 썼다. 그는 엔비디아에서 딥러닝 엔지니어로 일하며 고객들이 프로토타입을 프로덕션으로 옮기는 데 겪는 어려움을 보았고, 그 경험과 반복되는 질문들이 책의 출발점이 됐다. 책의 부제 "프로덕션 준비가 된 애플리케이션을 위한 반복적 과정"에는 그의 문제의식이 담겨 있다.

그는 "프로덕션 준비"라는 말이 언젠가 불필요해지길 바란다고 말한다. 먹을 준비가 안 된 음식을 만들지 않듯, 애플리케이션은 기본적으로 배포 가능해야 한다는 것이다. 그러나 현실에서는 많은 사람이 모델을 만들 때 운영을 고려하지 않는다. 넷플릭스 프라이즈 우승 모델이 앙상블이 너무 복잡해 실제로 배포되지 못한 일화, 컨설턴트가 만든 재고 예측 모델이 몇 달 뒤 환경 변화로 무용지물이 된 사례가 이를 보여준다.

핵심 주제 중 하나는 모델 노후화다. 변화 속도는 애플리케이션마다 다르지만, 페이스북은 클릭률 예측 모델을 매일 갱신했고, 링크드인은 피처 신선도가 1분에서 1시간으로 늦어지면 추천 성능이 3% 넘게 떨어졌다고 한다. 후옌은 그래서 갱신을 미룰 때 성능이 얼마나 손실되는지 측정하는 것이 중요하다고 강조한다.

학습 데이터에 관해 그는 2012년 알렉스넷 논문의 한 줄, 즉 더 많은 연산과 데이터가 발전을 이끈다는 관찰이 이후 10년의 방향을 정했다고 짚는다. 리처드 서튼의 "쓰라린 교훈"처럼, 사람의 영리한 설계보다 규모 확장이 더 큰 성과를 냈다는 것이다. 다만 규모 확장 자체가 엄청난 엔지니어링 도전이며, 이제는 누구나 파운데이션 모델을 처음부터 학습시킬 수 없으므로 남들이 못 얻는 학습 데이터 확보가 경쟁력이 된다고 본다.

그는 데이터 라벨링을 "똑똑한 학생을 가르치는 교사"에 비유한다. 좋은 AI를 원하면 똑똑한 사람이 라벨을 달아야 하며, 방사선 영상처럼 전문성이 필요한 데이터는 전문가에게 비용을 치러야 값진 데이터셋이 된다. 스노클(Snorkel) 같은 약지도 학습 도구로 도메인 전문성을 규칙으로 인코딩해 재사용하는 방법도 소개한다. 마지막으로 그의 스타트업 클레이팟 AI가 다루는 실시간 머신러닝, 즉 온라인 예측과 배치 예측의 차이와 비용·사용성 문제를 이야기한다.

주요 인사이트

머신러닝은 본질적으로 실험이다. 여러 모델을 시도하므로 상당수가 프로덕션에 가지 못하는 것은 당연하지만, 몇 달~몇 년을 들이는 만큼 그 시간이 헛되지 않도록 배포 가능성을 먼저 따져야 한다.
설명 가능성은 신뢰 수준에 따라 달라진다. 전자레인지의 원리를 몰라도 쓰듯, AI에 대한 신뢰가 쌓이면 성능 높은 복잡한 모델을 설명 없이도 쓸 수 있는 영역이 넓어진다.
거대 언어 모델은 모든 토큰을 확률적으로 생성하므로 정확도를 걱정하지 않아도 되는 시점은 한참 멀었다. 대신 여러 후보를 제시해 사람이 고르게 하는 UX가 현실적 해법이다.
실시간 예측은 비용도 아낀다. 배달 앱에서 하루 사용자의 2%만 주문한다면 모든 사용자에게 미리 예측하는 것은 98%가 낭비다. 필요할 때 예측하면 연산을 크게 절약한다.
피처 계산이 비용의 대부분을 차지하는 기업도 많다. 실시간 스트리밍 피처는 투자 대비 효과가 크지만, 실험·배포가 어려워 개발자들이 회피하는 경향이 있어 사용성 개선이 중요한 과제다.

자주 묻는 질문

왜 그렇게 많은 머신러닝 모델이 프로덕션에 도달하지 못하나?

머신러닝은 여러 모델을 시도하는 실험이라 일부만 배포되는 것이 자연스럽다. 그러나 배포하기 어려운 구조로 만들거나 운영을 고려하지 않아 실패하는 경우도 많아, 처음부터 배포와 지속 운영을 설계에 넣어야 한다.

모델은 왜 시간이 지나면 성능이 떨어지나?

비즈니스 환경, 사용자 행동, 시장 상황이 계속 바뀌기 때문이다. 재고 예측 모델이 신상품과 수요 변화로 맞지 않게 되거나, 팬데믹 같은 사건으로 집값을 좌우하는 요인이 바뀌는 것이 예다. 그래서 지속적인 갱신이 필요하다.

"쓰라린 교훈"이란 무엇을 뜻하나?

지난 수십 년의 AI 발전 대부분이 사람의 영리한 설계가 아니라 더 많은 연산과 데이터, 즉 규모 확장에서 나왔다는 관찰이다. 트랜스포머를 대규모로 키우자 예상 못한 능력이 나타난 것이 대표 사례다.

온라인 예측과 배치 예측은 어떻게 다른가?

배치 예측은 하루나 한 시간 단위로 예약 실행되고, 온라인 예측은 지금 벌어지는 상황을 반영해 즉시 예측한다. 추천, 이상거래 탐지, 동적 가격처럼 최신 정보가 중요한 경우 온라인 예측이 더 적합하다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗