AI VIDEO BRIEFING
LLM 디코딩 전략 완전 정리: 그리디·랜덤·탑K·탑P·온도·민P 샘플링과 빔서치까지
ChatGPT 같은 대규모 언어모델이 매 단계 확률에서 실제 토큰을 골라내는 디코딩 전략을 그리디·랜덤·탑K·탑P·온도·민P·반복 페널티·빔서치로 나눠, 일관성과 창의성의 균형 관점에서 쉽게 풀이한다.

핵심 메시지
쉽게 이해하기
대규모 언어모델은 한 문장을 한꺼번에 만들지 않는다. 토큰 단위로 한 걸음씩 나아가는데, 토큰은 보통 한 단어이거나 단어의 일부다. 그리고 모델은 '다음 토큰은 이것'이라고 곧장 내놓도록 훈련된 적이 없다. 대신 어휘에 있는 모든 가능한 토큰에 확률을 매기도록 학습된다. 손실 함수가 학습 데이터의 정답 다음 토큰은 확률 1에, 나머지는 0에 가깝게 만들도록 유도하기 때문이다.
그렇다면 매번 확률이 가장 높은 토큰만 고르면 되지 않을까? 그것이 그리디 디코딩이다. 단순하고 빠르며, 같은 입력에는 늘 같은 확률이 나오므로 항상 같은 토큰을 골라 결정적이다. 그러나 가장 확률 높은 토큰이 늘 가장 흥미로운 토큰은 아니다. 가장 안전한 선택만 이어 가면 출력은 밋밋해지고 'I'm sorry, I'm sorry'처럼 같은 말을 반복하는 고리에 빠지기 쉽다. 좋은 글과 대화는 익숙함과 의외성 사이의 균형이 필요하다.
그 균형을 주는 것이 샘플링이다. 가장 기본적인 형태인 랜덤 샘플링은 확률에 따라 토큰 하나를 무작위로 뽑는다. 다만 낮은 확률 토큰이 일찍 뽑히면 출력이 엉뚱하게 굴러갈 수 있어 실제 시스템은 통제된 샘플링을 쓴다. 탑K 샘플링은 확률 순으로 정렬해 상위 K개만 남기고 나머지를 잘라낸다. 단 K가 고정이라 상황 적응력이 떨어진다. 탑P(뉴클리어스) 샘플링은 누적 확률이 임계값(예 90%)을 넘을 때까지만 모아, 불확실성에 따라 후보 수가 자동으로 늘고 줄어 많은 LLM의 기본값이 됐다.
온도는 로짓을 확률로 바꾸는 소프트맥스 단계에 적용돼 분포의 모양 자체를 바꾼다. 1보다 낮으면(예 0.5) 분포가 뾰족해져 모델이 더 확신에 차고 보수적이 되며, 1보다 높으면(예 2) 평평해져 드문 토큰도 잘 뽑혀 무작위성이 커진다. 더 새로운 민P(min-p) 샘플링은 가장 확률 높은 토큰을 기준으로 동적 컷오프를 정한다. 모델이 확신할 땐 후보를 좁히고 불확실할 땐 넓혀, 높은 온도에서 특히 안정적이라 허깅페이스·vLLM에서 빠르게 채택됐다. 또 반복 페널티·빈도 페널티로 이미 쓴 토큰의 선택 확률을 낮춰 반복을 줄일 수 있다.
마지막으로 빔서치는 샘플링과 달리 결정적이며, 한 번에 토큰 하나만 고르지 않고 가장 유망한 여러 시퀀스(빔)를 동시에 추적한다. 가지치기 나무처럼 각 빔을 확장해 점수를 매기고 좋은 후보만 남겨, 초반에 나쁜 길에 갇히는 것을 피한다. 다만 안전한 고확률 출력을 선호해 창의성은 떨어지므로 기계번역·요약처럼 정확성이 중요한 곳에 주로 쓰인다. 결국 정답은 하나가 아니다. 일관성을 원하면 낮은 온도를, 창의성을 원하면 탑P나 민P에 높은 온도를 쓰면 된다.
주요 인사이트
- 모델 자체를 바꾸지 않고 샘플링을 켜는 것만으로도 GPT-2 같은 옛 모델조차 훨씬 흥미롭게 들린다. 좋은 출력은 절반은 예측 가능하고 절반은 의외여야 하기 때문이다.
- 탑K는 고정된 개수만 남겨 단순하지만, 같은 K라도 어떤 때는 상위 토큰이 확률의 95%를 덮고 어떤 때는 거의 못 덮어 상황 적응력이 약하다. 탑P는 누적 확률 기준이라 문맥에 맞춰 후보 수가 변한다.
- 민P는 '최상위 토큰 확률의 일정 비율 이상'만 남기는 동적 컷오프라, 모델이 확신할 땐 좁히고 불확실할 땐 넓혀 일관성과 다양성을 자동으로 조절한다.
- 온도·탑P·탑K는 서로 조합해 쓸 수 있다. 정밀한 답이 필요하면 온도를 낮추고, 장난스럽고 의외인 답을 원하면 온도를 높이면 된다.
자주 묻는 질문
그리디 디코딩과 샘플링의 차이는 무엇인가?
그리디는 매 단계 가장 확률 높은 토큰만 골라 빠르고 결정적이지만 출력이 단조롭고 반복적이다. 샘플링은 확률에 따라 가끔 조금 덜 확률적인 토큰도 골라 다양성과 창의성을 더한다.
온도(temperature)는 무엇을 바꾸나?
로짓을 확률로 바꾸는 소프트맥스 단계에 적용돼 분포의 모양을 바꾼다. 1보다 낮으면(예 0.5) 분포가 뾰족해져 보수적이고, 1보다 높으면(예 2) 평평해져 드문 토큰도 잘 뽑혀 무작위성이 커진다.
탑P(뉴클리어스) 샘플링이 탑K보다 나은 점은?
탑K는 고정된 개수의 토큰만 남기지만, 탑P는 누적 확률이 임계값(예 90%)을 넘을 때까지만 모아 상황에 따라 후보 수가 자동으로 늘고 줄어 문맥 적응적이다.
빔서치는 언제 쓰나?
여러 유망한 시퀀스를 동시에 추적하는 결정적 방법으로 안전한 고확률 출력을 선호한다. 창의성보다 정확성이 중요한 기계번역·요약 시스템에 주로 쓰인다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗