AI VIDEO BRIEFING

LLM 하이퍼파라미터 — 온도, Top-p, 빈도·존재 페널티 쉽게 이해하기

LLM이 다음 토큰을 고르는 소프트맥스 확률을 온도, Top-p, 빈도·존재 페널티가 어떻게 바꾸는지 직관과 수식으로 풀었다. 결정성과 창의성을 조절하는 실전 감각을 정리했다.

출처: ritvikmath2025년 4월 8일AI 보조 요약

LLM 출력을 다스리는 4가지 손잡이: 온도·Top-p·빈도/존재 페널티의 직관과 수학 영상 대표 이미지

핵심 메시지

LLM은 마지막에 로짓(logit)을 소프트맥스로 확률화해 다음 토큰을 고르며, 주요 하이퍼파라미터는 모두 이 로짓 또는 확률 분포를 변형한다.
온도(0~2)는 분포의 모양을 바꾼다. 0에 가까우면 가장 확률 높은 토큰에 쏠려 결정적이 되고, 2에 가까우면 분포가 평탄해져 창의적·다양해진다(순위는 유지).
Top-p(누적확률 예산)는 분포 모양이 아니라 후보 자체를 잘라낸다. 누적 확률이 p를 넘기 직전까지의 토큰만 샘플링 대상으로 남긴다.
빈도·존재 페널티(-2~2)는 반복을 제어한다. 존재 페널티는 등장 여부(0/1)에, 빈도 페널티는 등장 횟수에 비례해 로짓을 깎거나(양수) 오히려 키운다(음수).

쉽게 이해하기

이 영상은 LLM을 호출할 때 지정할 수 있는 하이퍼파라미터들이 모델의 토큰 선택을 어떻게 바꾸는지 직관과 수식으로 설명한다. 출발점은 소프트맥스다. LLM은 마지막 단계에서 각 토큰의 로짓 Z를 지수화한 뒤 전체 합으로 나눠 확률을 만들고, 그 분포에서 다음 토큰을 고른다. 오늘 다루는 장치들은 모두 이 로짓을 어떤 식으로든 손본다.

첫 번째는 가장 익숙한 '온도(temperature)'다. 0과 2 사이 값을 로짓의 분모에 넣어 Z/T로 만든다. T가 0에 가까우면 분수가 매우 커져 확률이 첫 번째(가장 유력한) 토큰으로 쏠리고, 결국 같은 프롬프트에 항상 같은 답을 내는 결정적 출력이 된다. 점수 매기기처럼 매번 같은 결과가 필요한 작업에 유용하다. 반대로 T가 2에 가까우면 분포가 평탄해져 여러 토큰이 비슷한 확률로 뽑히며 출력이 다양·창의적이 된다. 중요한 점은 어떤 T를 골라도 토큰 간 확률의 '순서'는 그대로 유지되고, 균형만 달라진다는 것이다.

두 번째는 'Top-p'(뉴클리어스 샘플링)다. 0~1 사이 값을 '누적 확률 예산'으로 삼는다. 확률이 높은 토큰부터 차례로 더해 가다가, 다음 토큰을 더하면 예산 p를 넘는 순간 그 뒤의 토큰들은 후보에서 완전히 제외한다. p를 1에 가깝게 두면 사실상 전부 허용해 변화가 거의 없고, 0에 가깝게 두면 매우 제한적인 선택만 남는다. 온도와의 결정적 차이는, 온도는 분포의 '모양'을 바꿀 뿐 명시적으로 자르지 않는 반면 Top-p는 양의 확률을 가진 토큰이라도 아예 '선택 불가'로 만든다는 점이다.

발표자는 온도와 Top-p가 비슷해 보이지만 근본적으로 다른 일을 한다고 강조한다. 같은 Top-p(0.85)에서 온도만 올리면, 분포가 평탄해지면서 예산 안에 들어오는 토큰 수가 달라지는 상호작용을 시각적으로 보여 준다. 그래서 OpenAI 문서도 둘 중 하나만 설정하길 권한다. 두 값을 함께 건드리면 서로 얽혀 예측하기 어려운 모순된 결과가 나올 수 있기 때문이다.

마지막은 '빈도 페널티'와 '존재 페널티'다. 둘 다 -2~2 범위이며 응답 안에 이미 나온 단어의 '새로움'을 다룬다. 존재 페널티는 단어가 한 번이라도 등장했는지(0/1)에 따라 로짓을 조정하는 흑백 방식이고, 빈도 페널티는 등장 횟수가 많아질수록 더 큰 페널티를 주는 점진적 방식이다. 값이 양수면 해당 토큰의 로짓을 깎아 반복을 억제(새로움 장려)하고, 음수면 오히려 로짓을 키워 반복을 보상한다. 시(詩)처럼 반복을 원할 때와, 같은 단어를 피하고 싶을 때를 각각 떠올리면 된다.

주요 인사이트

온도와 Top-p는 둘 다 '다양성'을 조절하지만 메커니즘이 다르다. 온도는 분포의 모양을 바꾸고, Top-p는 후보 집합 자체를 자른다. 그래서 OpenAI는 둘 중 하나만 설정하라고 권한다.
온도를 0에 가깝게 두면 출력이 결정적이 되어, 같은 프롬프트를 여러 번 돌려도 동일한 답을 얻는다. 점수·분류처럼 재현성이 중요한 작업에 적합하다.
Q&A 같은 추출형이 아니라 생성형 LLM에서도, 빈도/존재 페널티를 음수로 주면 '페널티'가 아니라 '보상'이 되어 의도적으로 반복을 유도할 수 있다.
이 손잡이들은 모두 마지막 소프트맥스의 로짓을 건드리는 동일한 뿌리를 공유한다. 수식을 한 번 이해하면 각 파라미터의 효과를 직관적으로 예측할 수 있다.

자주 묻는 질문

온도(temperature)는 결과를 어떻게 바꾸나요?

온도는 0~2 값을 로짓의 분모에 넣어 확률 분포의 모양을 바꾼다. 0에 가까우면 가장 유력한 토큰에 확률이 쏠려 출력이 결정적이 되고, 2에 가까우면 분포가 평탄해져 더 다양하고 창의적인 출력이 나온다. 단, 토큰 간 확률의 순서 자체는 유지된다.

온도와 Top-p는 무엇이 다른가요?

온도는 분포의 모양을 바꿀 뿐 어떤 토큰도 명시적으로 제거하지 않는다. 반면 Top-p는 누적 확률이 정한 예산을 넘는 순간 그 뒤 토큰을 후보에서 완전히 제외해, 양의 확률을 가진 토큰이라도 선택 불가능하게 만든다. 둘은 얽혀 있어 OpenAI는 하나만 설정하길 권한다.

빈도 페널티와 존재 페널티의 차이는 무엇인가요?

존재 페널티는 단어가 한 번이라도 나왔는지(0/1)에 따라 작동하는 흑백 방식이고, 빈도 페널티는 등장 횟수가 많을수록 페널티가 커지는 점진적 방식이다. 둘 다 양수면 반복을 억제하고 음수면 오히려 반복을 보상한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗