AI VIDEO BRIEFING
제프 딘 인터뷰 — 학습 데이터 고갈·추론 하드웨어·연속 학습 전망
구글 수석 과학자 제프 딘이 학습 데이터 고갈 우려, 추론 중심으로 옮겨가는 하드웨어, FP4 저정밀 연산, 연속 학습, 100만 배 연산 도약 이후의 가능성을 이야기한다.

핵심 메시지
쉽게 이해하기
이 영상은 맵리듀스와 텐서플로 개발에 참여하고 구글 브레인을 이끈 구글 수석 과학자 제프 딘과의 인터뷰다. 진행자는 정치·세금 같은 주제 대신 제프 딘만이 답할 수 있는 연구·시스템의 깊은 질문에 집중한다.
먼저 '학습 데이터 고갈' 우려에 대해 제프 딘은 크게 걱정하지 않는다고 답한다. 공개 텍스트는 상당히 소진했지만 아직 학습에 쓰지 않은 영상 데이터가 많고, 합성 데이터 생성과 기존 데이터를 여러 번 활용하는 방식, 데이터 한 조각에서 더 많은 정보를 끌어내는 알고리즘 기법이 남아 있다는 것이다. 예컨대 코딩 문제는 수백~수천 가지 해법을 생성한 뒤 컴파일 여부, 단위 테스트 통과, 성능 같은 필터로 걸러 가장 좋은 해법만 학습 데이터로 되돌릴 수 있고, 파이썬 해법을 Go로 바꾸는 식의 증강도 가능하다.
하드웨어 이야기로 넘어가, 빌 댈리의 말을 인용해 데이터센터 머신러닝 작업의 상당 부분이 이제 학습이 아니라 추론이라는 점을 짚는다. 추론은 가중치가 변하지 않고 대량의 요청을 낮은 정밀도로 처리하는 등 특성이 달라, 추론에 특화한 하드웨어로 더 큰 에너지 효율을 얻을 수 있다. 구글의 TPU 신형 칩이 그 예이며 앞으로 특화가 더 심화될 것이라고 본다. FP4 같은 극단적 저정밀 연산이 실제로 고품질 결과를 낸다는 점도 놀랍다고 말하며, 일부 가중치마다 스케일링 팩터를 두는 방식으로 더 낮은 정밀도까지 시도되고 있다고 덧붙인다.
학습 방식에 대해서는 사전학습과 사후학습을 별개 단계로 나누는 현재 구조가 개념적으로 만족스럽지 않다고 말한다. 데이터를 관찰하는 시기와 그 지식을 활용해 환경에서 행동하고 결과로부터 배우는 시기를 번갈아 두는 '연속 학습'이 더 옳다는 것이다. 다만 사용자에게 서비스되는 모델은 안전성 검증과 레드팀을 거쳐야 하므로, 뒤에서 계속 학습하되 새 버전을 내보내기 전에 최종 안전 점검을 다시 하는 식의 절충이 필요하다고 본다.
젠슨 황이 말한 '지난 10년간 연산 100만 배 향상'을 받아, 다음 10년에 또 100만 배가 온다면 무엇이 가능할지를 묻는다. 제프 딘은 발전 속도가 둔화되지 않을 것이라며, 간단한 프롬프트로 운영체제를 자율 작성하는 다중 에이전트 워크플로를 예로 든다. 또 과학·공학에서 여러 해 걸리던 일(예: 항공기 설계나 새 칩 설계)을 며칠로 줄이는 가능성에 기대를 보인다.
오픈 모델에 대해서는 상당한 발전이 증류에서 비롯됐다고 말한다. 구글의 젬마(Gemma)도 더 크고 우수한 모델에서 증류됐고, 플래시 모델이 프로 모델로부터 지식을 전수받아 작은 크기에도 높은 성능을 낸다. 따라서 작고 강력한 모델을 원할수록 더 큰 모델을 계속 만들어 증류해야 한다고 본다. 마지막으로 연속 학습, 다중 에이전트, 모델·하드웨어 공동 설계, 그리고 검색을 단계적으로 연결해 사실상 무한한 맥락을 다루는 듯한 착각을 주는 기법을 흥미로운 트렌드로 꼽는다. 우주선(cosmic ray)이 메모리 비트를 뒤집는 현상처럼 대규모 운영에서 마주치는 신뢰성 문제와, 불안정한 부품으로 안정적인 시스템을 만드는 구글의 오랜 원칙도 일화로 전한다.
주요 인사이트
- 데이터 고갈은 절대적 한계라기보다, 영상·합성 데이터와 데이터당 정보 추출 기법으로 상당히 미룰 수 있는 문제로 본다.
- 이미 작동하는 프로그램을 다른 언어로 옮기는 작업은 프롬프트 자체가 완전한 명세이므로, 성능·안전성을 높인 변형을 자동 생성하는 강력한 데이터 증강이 된다.
- 학습보다 추론 비중이 커지면서, 가중치가 고정된 대량 요청을 낮은 정밀도로 처리하는 추론 특화 하드웨어가 에너지 효율의 핵심 축이 된다.
- 거대 모델→증류→소형 모델의 반복이 핵심 전략이며, 플래시급 모델이 프런티어에 근접하는 비결도 여기에 있다.
- 이차(n²) 어텐션의 비용을 줄이려는 100편 이상의 연구가 있으며, 검색을 단계적으로 연결하면 사실상 평생치 데이터를 맥락에 둔 듯한 효과를 노릴 수 있다.
자주 묻는 질문
제프 딘은 학습 데이터 고갈을 걱정하나요?
크게 걱정하지 않습니다. 아직 학습에 쓰지 않은 영상 데이터, 합성 데이터 생성, 기존 데이터를 여러 번 활용하기, 데이터 한 조각에서 더 많은 정보를 끌어내는 알고리즘 기법이 많이 남아 있다고 봅니다.
왜 하드웨어가 추론에 특화되고 있나요?
데이터센터 머신러닝 작업에서 추론 비중이 커지고 있기 때문입니다. 추론은 가중치가 변하지 않고 대량 요청을 낮은 정밀도로 처리하는 등 특성이 달라, 추론 특화 하드웨어로 더 큰 에너지 효율을 얻을 수 있습니다.
증류(distillation)는 어떤 역할을 하나요?
크고 우수한 모델의 지식을 작고 빠른 모델로 옮겨, 작은 모델도 프런티어 모델에 가까운 성능을 내게 합니다. 젬마와 플래시 모델이 그 예이며, 그래서 더 큰 모델을 계속 만들어 증류하는 흐름이 중요합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗