AI VIDEO BRIEFING
확산 언어모델(Diffusion LLM)이란? 자기회귀 한계를 넘는 텍스트 생성
대부분의 LLM은 토큰을 한 개씩 예측하는 자기회귀 방식이다. 확산 언어모델은 마스킹을 점진적으로 되돌려 텍스트를 생성하며, 병렬성·제어성·데이터 효율에서 강점을 보인다.

핵심 메시지
쉽게 이해하기
영상은 오늘날 대부분의 선도 LLM이 '자기회귀(auto-regressive)' 모델이라는 점에서 출발한다. 이들은 토큰을 한 번에 하나씩 예측하고, 새 토큰이 다시 다음 토큰 예측에 쓰인다. 이 방식은 크게 성공했지만 세 가지 한계가 있다. 첫째, 현재 토큰 예측에서 실수하면 이후 모든 예측으로 오류가 전파된다. 둘째, 생성 과정을 제어하기 어렵다. 셋째, 이전 토큰이 다 정해져야 다음을 예측할 수 있어 느리다.
확산 모델은 이에 대비해 점진적 정제, 명시적 제어, 더 빠른 샘플링을 제공한다. 최근의 확산 언어모델 Mercury는 초당 약 1,000토큰이라는 빠른 생성을 보여준다. 원리를 이해하기 위해 영상은 먼저 이미지 확산을 복습한다. 깨끗한 이미지에 가우시안 노이즈를 점점 더해 순수 노이즈로 만드는 '순방향 확산'을 정의하고, 이를 되돌리는 디노이징 네트워크를 학습하면 무작위 노이즈에서 새 샘플을 만들 수 있다.
텍스트에 적용할 때의 난점은 토큰이 사전상의 이산 ID라 가우시안 노이즈를 직접 더하는 것이 의미가 없다는 점이다. 한 방법은 이산 토큰을 연속적인 단어 임베딩으로 바꿔 노이즈를 더하고 디노이징한 뒤 가장 가까운 토큰으로 반올림하는 것인데, 반올림에 작은 오차만 생겨도 문장이 무너진다. 이를 보완하려고 문장·문단 전체를 고정 크기 잠재 표현으로 압축하고 그 잠재공간에서 확산을 적용한 뒤 디코더로 텍스트를 복원하는 잠재 확산 방식이 제안됐다.
더 나아가 이산 공간에서 직접 확산하는 방법도 있다. 토큰을 원-핫 벡터로 보고, 순수 노이즈는 특수한 '마스크 토큰'으로 표현한다. 마스크 토큰은 한 번 마스킹되면 이후 단계에서도 마스크로 남는 '흡수 상태'로 작동한다. 순방향 과정에서 토큰들이 확률적으로 마스크로 바뀌어 마지막엔 전부 마스킹되고, 역방향에서는 완전히 가려진 문장에서 시작해 각 마스크 위치의 어휘 분포를 예측·샘플링하며 하나씩 복원한다. 한 번 푼 토큰은 고정되며, 최근 연구는 이미 예측한 토큰을 다시 마스킹해 반복 정제하는 전략으로 오류 누적을 줄였다.
핵심 질문은 확산 모델이 자기회귀와 경쟁할 수 있느냐다. 처음부터 학습된 마스크 확산 모델 LLaDA는 인컨텍스트 학습에서 라마 3와 대등했고, 지도 미세조정 후 강한 지시 이행 능력을 보였으며 '역전 저주'를 극복해 역방향 완성 벤치마크에서 GPT-4를 능가했다. 스케일링 측면에서 확산 모델은 같은 검증 손실을 맞추는 데 약 16배 더 많은 연산이 필요하지만, 이는 데이터를 한 번만 보는 단일 에폭 실험 기준이다. 데이터가 제한된 현실적 다중 에폭 환경에서는 자기회귀가 빠르게 정체·과적합되는 반면 확산 모델은 연산을 늘릴수록 계속 향상돼, 반복 데이터를 더 잘 활용하는 데이터 효율을 보였다.
주요 인사이트
- 자기회귀의 '한 토큰씩 왼쪽에서 오른쪽으로' 생성은 첫 실수가 끝까지 전파되지만, 마스크 확산은 가려진 문장을 통째로 보며 임의 순서로 복원해 더 큰 유연성·병렬성·제어성을 갖는다.
- 텍스트는 이산값이라 이미지처럼 노이즈를 직접 더할 수 없어, 연속 임베딩·잠재공간·마스크 토큰(흡수 상태)이라는 우회로가 핵심 아이디어가 됐다.
- 확산 모델의 약점인 '한 번 푼 토큰의 오류 정정 불가'는 이미 예측한 토큰을 다시 마스킹해 반복 정제하는 리마스킹 전략으로 보완된다.
- 확산 모델은 데이터가 충분할 때는 자기회귀 대비 약 16배 연산이 더 들지만, 데이터가 제한된 환경에서는 과적합 없이 반복 데이터를 더 잘 활용해 오히려 앞선다.
- 마스크 확산은 같은 텍스트의 다양한 마스킹 버전에서 학습할 수 있어, 고정된 좌→우 예측만 배우는 자기회귀보다 데이터를 더 효율적으로 쓴다.
자주 묻는 질문
확산 언어모델은 자기회귀 모델과 어떻게 다른가요?
자기회귀 모델은 토큰을 왼쪽에서 오른쪽으로 한 개씩 순차 예측합니다. 마스크 확산 모델은 완전히 가려진 문장에서 시작해 마스크 토큰을 점진적으로 풀어가며, 고정된 순서 없이 병렬적으로 텍스트를 복원합니다.
텍스트에 확산을 적용하기 어려운 이유는 무엇인가요?
토큰은 사전상의 이산 ID라 이미지 픽셀처럼 가우시안 노이즈를 직접 더할 수 없습니다. 그래서 연속 단어 임베딩으로 바꾸거나 문장을 잠재공간으로 압축하거나, 마스크 토큰을 노이즈로 쓰는 이산 확산 같은 방식이 사용됩니다.
확산 언어모델이 자기회귀 모델보다 유리한 상황은 언제인가요?
영상에 따르면 데이터가 제한된 다중 에폭 환경입니다. 자기회귀 모델이 빠르게 과적합되는 반면, 확산 모델은 연산을 늘릴수록 과적합 징후 없이 계속 개선되며 반복 데이터를 더 잘 활용했습니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗