AI VIDEO BRIEFING

링크드인 AI 인프라 전략: 에이전트·GPU 효율·라이거 커널·포스트트레이닝

링크드인 AI 플랫폼 책임자 인터뷰 — 내일의 사용자는 에이전트라는 전제 아래 평가 플랫폼, GPU 효율, 라이거 커널과 포스트트레이닝 전환을 정리했다.

출처: Aishwarya Srinivasan2026년 5월 26일AI 보조 요약

링크드인 AI 책임자가 말하는 에이전트 시대의 ML 인프라와 GPU 전략 영상 대표 이미지

핵심 메시지

링크드인은 '내일의 플랫폼 사용자는 사람이 아니라 에이전트'라는 전제로 ML 인프라를 다시 설계하고 있다.
세 가지 핵심 축은 에이전트 주도의 모델 실험·생애주기, 견고한 평가 플랫폼 투자, 그리고 GPU 효율이다.
오픈소스 '라이거 커널'은 커널 융합으로 메모리 60%·학습 시간 3~4배를 줄였고, 이제 에이전트가 커널을 직접 생성한다.
LLM의 무게중심이 사전학습에서 포스트트레이닝(강화학습·증류·양자화)으로 옮겨갔고, 추론 단계는 용도별 엔진 선택과 GPU 분할이 관건이다.
모델 아키텍처의 돌파구 같은 '취향·판단'의 영역은 여전히 사람의 몫으로 남는다.

쉽게 이해하기

'Control Alt AI' 에피소드에서 진행자 Aishwarya Srinivasan이 링크드인에서 머신러닝·AI 플랫폼을 이끄는 시니어 디렉터 Animesh를 만났다. 그는 12월 Claude를 중심으로 한 AI 코딩이 'AI의 두 번째 변곡점'이었다고 보고, 1월 복귀 후 플랫폼을 바라보는 관점을 바꿨다고 말한다. 모델 작성·분산 학습·평가에서 플랫폼과 상호작용하는 내일의 사용자는 사람이 아니라 에이전트라는 것이다.

그는 인프라 전략의 세 축을 제시한다. 첫째, 에이전트가 모델 실험과 ML 생애주기를 주도하게 하고, 둘째, 그 결과를 진실값과 품질 기준에 맞춰 검증할 견고한 평가 플랫폼에 투자하며, 셋째, 24시간 병렬로 도는 에이전트의 작업량을 감당할 GPU 효율을 확보하는 것이다. 실제로 1월 이후 같은 수의 GPU로 실험량을 두 배로 늘렸다고 한다.

AI 개발 도구의 변천도 짚는다. 고전 머신러닝(파이썬·사이킷런·XGBoost·주피터), 딥러닝(PyTorch·텐서플로·GPU·추천·랭킹), 그리고 지금의 에이전트 시대로 이어지며 상수는 파이썬뿐이고 langchain·langgraph·에이전트 하네스·다중 에이전트 오케스트레이션·메모리 서브시스템이 더해졌다고 설명한다. MLOps가 'AgentOps'로 진화하며, 결정론적 코딩에 익숙하던 엔지니어가 환각과 비결정성을 다루는 데 익숙해져야 한다고 본다.

링크드인이 2년 전 오픈소스로 공개한 '라이거 커널'은 HBM과 메모리 사이 데이터 이동을 줄이는 커널 융합으로 메모리를 60% 줄이고 학습 시간을 3~4배 단축했다. 약 800만 다운로드와 140~150명의 글로벌 기여자를 모았고, Karpathy의 트윗으로 확산됐다. 이제는 에이전트가 커널을 직접 생성·융합·최적화하고 PyTorch 컴파일러까지 확장해, 최적화 속도가 5~6배 빨라졌다고 한다.

인터뷰는 사전학습에서 포스트트레이닝(강화학습·다단계 증류·양자화·지도 미세조정)으로의 전환, 의미 기반 직무 검색을 위한 다중 교사 증류, 용도별 추론 엔진 선택(생성형엔 vLLM, 랭킹·검색엔 SGLang), 표준 하이퍼바이저가 없는 GPU 가상화·분할, 경계가 허물어지는 풀스택 엔지니어, 사람이 쥐고 있어야 할 판단의 영역, 그리고 가정용 로봇이라는 다음 도약까지 폭넓게 다룬다.

주요 인사이트

'에이전트가 주 사용자'라는 전제는 모니터링·권한이 아니라 플랫폼 아키텍처 자체를 다시 설계하게 만든다.
에이전트가 모델 생성을 대신할수록, 그 결과를 진실값에 비추어 책임지게 할 평가 플랫폼 투자가 함께 커져야 한다.
오픈소스(라이거 커널)는 사람 손에 묶인 커널 작성을 커뮤니티와 에이전트로 확장하는 전략적 지렛대였다.
추론 비용 최적화의 핵심은 용도에 맞는 추론 엔진 선택과, 표준이 없는 GPU 분할·가상화에 있다.
코딩 에이전트가 보일러플레이트를 처리하며 프런트·백·ML 경계가 허물어지지만, 운영 시 책임 소재를 가르는 '계약'은 새 과제로 남는다.

자주 묻는 질문

링크드인이 말하는 '내일의 사용자'는 누구인가요?

모델 작성·분산 학습·평가 등에서 플랫폼과 상호작용하는 주체가 사람이 아니라 에이전트라는 의미다. 이 전제로 플랫폼을 처음부터 다시 설계하고 있다고 한다.

라이거 커널은 어떤 효과가 있었나요?

커널 융합으로 일부 사례에서 메모리를 60% 줄이고 학습 실행 시간을 3~4배 단축했으며, 약 800만 다운로드와 140~150명의 기여자를 모았다고 밝힌다.

추론 엔진은 어떻게 선택하나요?

생성형 AI 용도에는 vLLM이, 랭킹·검색 같은 작업에는 SGLang이 더 나은 성능을 보여 용도와 수요에 따라 엔진을 바꿔 쓴다고 설명한다.

여전히 사람이 맡아야 하는 영역은 무엇인가요?

모델 아키텍처의 돌파구를 만들고 특정 용도에 맞는 구조를 고르는 취향과 판단은 여전히 사람의 몫이며, 새로운 모델 구조의 혁신도 사람에게서 나올 것으로 본다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗