AI VIDEO BRIEFING

LLM 환각(hallucination) 완전 해설: 원인·5가지 유형·탐지 방법

대규모 언어모델이 사실이 아닌 내용을 자신 있게 지어내는 '환각' 현상을 5가지 유형으로 나누고, 발생 원인과 최신 탐지 기술인 불확실성 헤드(UQ head)까지 쉽게 풀어 설명한다.

출처: Binary Verse AI2025년 5월 16일AI 보조 요약

AI는 왜 자신 있게 거짓말을 할까: LLM '환각'의 5가지 유형과 탐지 기술 영상 대표 이미지

핵심 메시지

LLM의 목표는 '진실'이 아니라 통계적으로 가장 그럴듯한 다음 단어를 고르는 것이라, 빈틈을 만나면 자신 있게 지어낸다.
환각은 자기모순(intrinsic), 무에서 창작(extrinsic), 시점 오류(temporal), 가짜 출처(confabulated citations), 정보 뒤섞기(entity stitching)의 5가지로 나눌 수 있다.
지식 공백, 답을 선호하는 인간 피드백(RLHF)의 부작용, 높은 temperature, 애매한 프롬프트가 환각을 키운다.
2025년 등장한 불확실성 정량화 헤드(UQ head)는 모델의 주의(attention) 패턴을 읽어 환각 가능성을 탐지 정확도를 크게 끌어올렸다.
탐지 기술이 좋아져도 환각은 모델의 확률적 본질에서 비롯되므로 완전히 사라지지 않으며, 사용자는 늘 출처를 요구해야 한다.

쉽게 이해하기

대규모 언어모델(LLM)은 놀라운 능력을 보이면서도 때때로 사실이 아닌 내용을 완전히 확신에 찬 어조로 말한다. 이를 '환각(hallucination)'이라 부른다. 영상은 즉흥 연기에 비유한다. 베이킹 프로그램 심사위원에게 '사워도우 우주선'을 평가해 달라고 농담으로 물으면, 심사위원은 빵의 재진입 시 단면 구조 운운하며 그럴듯하게 받아친다. LLM도 다음 단어를 예측할 뿐이어서, 빈칸을 만나면 비슷한 방식으로 그럴듯한 말을 만들어 채운다.

핵심은 모델의 목표가 '진실'이 아니라는 점이다. 모델은 학습한 패턴에 비추어 통계적으로 가장 그럴듯한 단어를 고를 뿐이다. 그래서 아직 일어나지 않은 일도 문맥상 패턴에 맞으면 사실인 듯 단언할 수 있다.

영상은 환각을 다섯 가지로 분류한다. (1) 자기모순형은 주어진 문서나 프롬프트의 내용과 어긋나게 답하는 경우다. 이익이 줄었다는 기사를 요약하라 했는데 늘었다고 뒤집는 식이다. (2) 창작형은 검증 불가능한 내용을 완전히 새로 지어낸다. 존재하지 않는 연구를 만들어내는 식이다. (3) 시점 오류형은 학습 데이터 시점에 갇혀 옛 사실을 현재처럼 말한다. (4) 가짜 출처형은 없는 논문·URL·판례를 인용한다. (5) 정보 뒤섞기형은 실제 인물과 실제 사건을 잘못 짝지어 섞는다.

원인도 여러 가지다. 학습 데이터에 없는 지식의 공백을 메우려 그럴듯한 말을 지어내고, 사람 피드백 학습(RLHF) 과정에서 '모른다'보다 자신 있는 답을 선호하는 경향이 강화되며, 창의성을 높이는 temperature 설정을 올리면 사실에서 벗어날 확률이 커진다. 실재하지 않는 대상을 묻는 애매한 프롬프트 자체가 날조를 부르기도 한다.

탐지 기술은 발전해 왔다. 초기에는 모델이 자기 출력에 얼마나 '놀라는지' 보는 perplexity나 토큰 엔트로피, 두 번째 AI로 사실 확인을 시키는 방법이 있었지만, 매끄러운 거짓말은 잘 걸러지지 않았다. 2025년 등장한 불확실성 정량화 헤드(UQ head)는 본 모델에 작은 보조 장치를 붙여 주의 맵과 토큰 신뢰도를 분석한다. 모델이 사용자의 원래 질문 대신 자기가 방금 만든 말에 더 주목하기 시작하면 이를 '몽상 경보'로 잡아낸다.

주요 인사이트

환각을 '틀렸다' 한마디로 뭉뚱그리지 말고 5가지 유형으로 구분하면, 어떤 상황에서 어떤 오류가 나오는지 예측하고 대비하기 쉬워진다.
RLHF가 모델을 더 유용하게 만들지만, '확신에 찬 답'을 보상하는 부작용으로 오히려 거짓을 부추길 수 있다는 점은 정렬(alignment)의 역설을 보여준다.
UQ head는 약 1천만 개 파라미터로 본 모델(수십억 개)에 비해 매우 가볍고 지연도 10% 미만이라, 실서비스에 붙이기 쉽다는 점이 실용적 강점이다.
영어로 학습한 탐지기가 독일어·중국어 환각도 어느 정도 잡아낸다는 점은, 불확실성의 '신호'가 언어를 초월할 수 있음을 시사한다.
의료 용량 안내, 법률 서면 검토, 교육용 튜터, 기업 재무 수치 확인, 허위정보 선별 등 정확성이 생명인 분야일수록 '불확실성 표시'의 가치가 크다.

자주 묻는 질문

AI가 쓴 창작 소설도 환각인가요?

아닙니다. 허구임을 의도했고 그렇게 표시했다면 문제가 없습니다. 환각은 허구를 사실인 것처럼 제시할 때를 가리킵니다.

temperature를 0으로 두면 환각이 사라지나요?

아닙니다. temperature 0은 출력을 덜 무작위하게 만들 뿐, 지식 공백이나 잘못된 학습 데이터를 고치지 못합니다. 일관되게, 그러나 여전히 자신 있게 틀릴 수 있습니다.

모델이 클수록 환각이 줄어드나요?

평균적으로는 다소 줄 수 있지만, 큰 모델이 환각을 일으킬 때는 거짓이 더 정교하고 설득력 있어 알아채기 더 어려워질 수 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗