AI VIDEO BRIEFING

압축은 곧 지능이다: 섀넌 정보이론·엔트로피와 거대언어모델 사전학습의 숨은 연결 고리

텍스트 압축의 한계는 어디일까? 1940년대 클로드 섀넌의 정보이론은 '예측과 압축은 수학적으로 같다'는 통찰을 낳았고, 이는 오늘날 거대언어모델 사전학습과 교차엔트로피 손실의 뿌리가 됐다. 정보와 엔트로피의 정의를 직접 따라가 본다.

출처: 3Blue1Brown2026년 6월 7일AI 보조 요약

압축이 곧 지능이다 — 섀넌의 정보이론으로 다시 보는 AI의 토대 영상 대표 이미지

핵심 메시지

ASCII는 문자당 8비트를 쓰지만, 자주 나오는 문자에 짧은 비트열을 주면 평균 비트 수를 크게 줄일 수 있다.
접두사 없는 코드(prefix-free code)에서 완벽한 압축의 결과물은 무작위 잡음과 구별할 수 없는 비트열이 된다.
어떤 사건의 정보량은 -log₂(p)로 정의되며, 확률이 낮을수록 정보량이 크다.
엔트로피는 기호당 평균 정보량으로, 메시지를 압축할 수 있는 이론적 하한을 알려준다(섀넌의 무손실 부호화 정리).
예측과 압축은 수학적으로 동치이며, 그래서 거대언어모델의 사전학습은 '가장 효율적인 텍스트 압축기 만들기'로 다시 해석할 수 있다.

쉽게 이해하기

텍스트를 이진수로 부호화할 때 데이터를 얼마나 줄일 수 있는지에는 근본적인 한계가 있을까? ASCII는 문자마다 8비트를 그대로 쓰는 비효율적인 방식이고, 흔한 문자에 짧은 비트열을 배정하는 약간의 기교만으로도 평균을 4비트 안팎까지 낮출 수 있다. 이 '압축의 한계'라는 질문은 1940년대 클로드 섀넌이 정보이론을 연 기념비적 연구로 거슬러 올라간다.

영상은 먼저 간단한 예제로 직관을 쌓는다. 먼 달에 보낸 로봇에게 위·아래·왼쪽·오른쪽 네 가지 명령을 보내는데, 그 빈도가 각각 1/2, 1/4, 1/8, 1/8로 치우쳐 있다. 모든 명령에 2비트를 쓰는 단순한 방식 대신, 가장 흔한 '위로'에 1비트, '아래로'에 2비트, 나머지에 3비트를 주면 평균이 1.75비트로 떨어진다. 단, 코드워드가 서로의 접두사가 되지 않아야(접두사 없는 코드) 로봇이 모호함 없이 해독할 수 있다.

'구름 위에 머리를 둔' 세 번째 학생은 완벽한 압축이라면 그 결과가 무작위 잡음과 구별되지 않아야 한다고 논증한다. 잡음은 더 압축할 수 없기 때문이다. 이 단순한 발상에서, n비트로 표현되는 메시지는 확률이 1/2ⁿ이어야 한다는 관계가 나오고, 양변에 로그를 취하면 정보량 -log₂(p)라는 정보이론의 근본 공식이 자연스럽게 유도된다.

기호당 평균 정보량을 합치면 엔트로피 H = Σ p·(-log₂ p)가 된다. 섀넌의 무손실 부호화 정리는 어떤 부호화도 이 한계보다 효율적일 수 없으며, 동시에 이 한계에 얼마든지 가까워질 수 있음을 보인다. 폰 노이만이 섀넌에게 그 이름을 권했다는 일화도 소개된다.

언어는 문맥 의존성이 강해 깔끔한 계산이 불가능하다. 섀넌은 아내 베티에게 다음 글자를 맞히게 하는 실험 등으로 영어의 엔트로피를 추정했고, 100자 이상의 맥락이 있을 때 그 값은 문자당 약 1비트였다. 다음 토큰 예측과 교차엔트로피 손실이 곧 압축이라는 점에서, '압축은 곧 지능'이라는 도발적 명제가 등장한다.

주요 인사이트

완벽한 압축의 결과물이 무작위 잡음처럼 보여야 한다는 단순한 발상에서 정보량 공식 -log₂(p)가 자연스럽게 유도된다.
코드워드가 다른 코드워드의 접두사가 되지 않아야 한다는 '접두사 없는 코드' 조건이 모호함 없는 해독을 보장한다.
섀넌은 언어의 엔트로피를 추정할 때 단순한 데이터 분석이 아니라 사람의 뇌(아내 베티, 인터뷰 대상자)를 탐침으로 사용했다.
100자 이상의 맥락이 주어지면 영어의 엔트로피는 문자당 약 1비트로, 사실상 글자마다 예/아니오 하나로 압축될 수 있다는 의미다.
오늘날 우리는 언어를 예측하는 '블랙박스'를 단지 심문하는 단계를 넘어 직접 설계(거대언어모델)하는 단계에 와 있다.

자주 묻는 질문

로봇 예제에서 '영리한 학생'의 부호화는 명령당 평균 몇 비트를 쓰나요?

평균 1.75비트입니다. 가장 흔한 '위로'에 1비트, '아래로'에 2비트, '왼쪽'·'오른쪽'에 각각 3비트를 배정하고 빈도로 가중합하면 1.75비트가 나오며, 단순한 2비트 방식보다 효율적입니다.

어떤 사건의 '정보량'은 어떻게 정의되나요?

사건의 확률을 p라 할 때 -log₂(p)로 정의합니다. 확률이 낮은(드문) 메시지일수록 정보량이 크고, 거의 확실한 메시지일수록 정보량은 0에 가깝습니다.

영상에서 추정한 영어의 엔트로피는 얼마인가요?

앞선 100자 이상의 맥락이 있을 때 문자당 약 1비트로 추정됩니다. 이는 영어가 글자마다 사실상 예/아니오 하나 수준까지 압축될 수 있다는 뜻입니다.

예측과 압축이 같다는 말은 무슨 뜻인가요?

정보이론의 결론 중 하나로, 다음 토큰을 잘 예측하는 것과 데이터를 효율적으로 압축하는 것이 수학적으로 동치라는 의미입니다. 그래서 거대언어모델의 사전학습(교차엔트로피 손실 최소화)은 '가장 효율적인 압축기 만들기'로 볼 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗