AI VIDEO BRIEFING

AI 용어 완벽 정리 — LLM·트랜스포머·토큰·RAG·파인튜닝 개념 쉽게 이해하기

신경망, LLM, 트랜스포머, 토큰, 컨텍스트 윈도우, 온도, 환각, 임베딩·벡터DB·RAG, 파인튜닝, RLHF, 에이전트 등 핵심 AI 용어를 메커니즘 중심으로 풀어 설명한다.

출처: LearnThatStack2026년 6월 1일AI 보조 요약

개발자를 위한 AI 용어 정리: 신경망부터 RAG·에이전트까지 한 번에 영상 대표 이미지

핵심 메시지

우리가 매일 쓰는 LLM, 이미지 생성기, 음성 인식은 모두 '숫자를 가중치로 곱해 변환하는' 같은 신경망 원리의 변주이며, 핵심 메커니즘은 '다음 토큰 예측' 하나로 수렴한다.
LLM은 지금까지의 텍스트를 보고 가능한 다음 토큰의 확률 분포를 계산해 하나를 뽑는 일을 반복할 뿐이며, 이 단순한 원리가 코드·번역·추론 결과를 만들어 낸다.
환각(hallucination)은 모델이 사실을 찾아보는 게 아니라 '그럴듯한 토큰'을 생성하기 때문에 생기는 구조적 위험이므로, 사실 정보는 사용자에게 닿기 전에 반드시 검증해야 한다.
임베딩·벡터 데이터베이스·RAG는 한 묶음으로 작동하며, RAG는 외부 데이터를 검색해 모델에 함께 넘겨 답을 근거에 묶음으로써 환각을 줄인다.
RAG는 '지식'을, 파인튜닝은 '행동(말투·형식·스타일)'을 다루는 서로 다른 도구이며, 실제로는 둘을 함께 쓰는 경우가 많다.

쉽게 이해하기

이 영상은 직장에서 자신 있게, 그러나 종종 부정확하게 뒤섞여 쓰이는 AI 용어들을 개발자 관점에서 하나씩 정리한다. 출발점은 신경망이다. 신경망은 생물학이 아니라 '숫자를 입력해 가중치로 곱하고 비선형 변환을 거쳐 숫자를 내보내는' 수학 함수이며, 수백만 개의 작은 숫자(가중치)를 경사하강법으로 조금씩 조정해 원하는 출력에 맞춰 가는 과정이 곧 '훈련'이다.

가장 중요한 변주가 LLM(대규모 언어 모델)이다. 방대한 텍스트로 학습한 신경망으로, '대규모'는 파라미터(조정 가능한 숫자) 수를 가리킨다. 규모를 키우면 기존 과제를 잘하는 데 그치지 않고, 명시적으로 배우지 않은 번역·코딩·다단계 추론 같은 일도 해내기 시작한다. 그럼에도 핵심은 단순하다. LLM은 '다음 토큰 예측기'로, 모든 맥락을 보고 다음 토큰의 확률 분포를 계산해 하나를 뽑고 이어 붙이기를 반복한다.

이 모든 것을 가능하게 한 구조가 2017년 등장한 트랜스포머다. 이전의 RNN은 텍스트를 한 단어씩 순차 처리하며 앞 내용을 흐릿하게만 기억했지만, 트랜스포머는 '자기 주의(self-attention)'로 모든 단어를 한꺼번에 보고 각 단어가 다른 단어와 얼마나 관련 있는지를 계산한다. 덕분에 장거리 관계에 강하고 GPU로 병렬 학습이 가능하다. GPT의 'T'가 바로 트랜스포머다.

토큰은 모델이 한 단위로 다루는 텍스트 덩어리로 단어보다 작을 수도 있고, 컨텍스트 윈도우·API 요금·생성 속도가 모두 토큰으로 측정된다. 영어는 한 토큰이 대략 단어의 4분의 3이며, 한국어·중국어·일본어 같은 비라틴 문자는 같은 분량에 더 많은 토큰을 쓴다. 컨텍스트 윈도우는 입력과 출력을 합쳐 모델이 한 번에 볼 수 있는 '작업 기억'이며, 모델이 처음과 끝에 더 집중하고 중간을 덜 보는 '중간 손실' 문제가 있어 중요한 정보의 위치가 품질에 영향을 준다.

프롬프트 엔지니어링은 새 능력을 주는 게 아니라 모델이 이미 아는 것 중 적절한 부분을 활성화하는 일이다. 온도(temperature)는 확률 분포를 얼마나 뾰족하게/평평하게 만들지 정하는 무작위성 조절기로, 0이면 항상 최고 확률 토큰을 골라 결과가 일정하고 값이 커질수록 다양해진다. 코드는 낮게, 창작은 1 안팎이 권장되며 대개 0.7이 기본값이다.

주요 인사이트

제로샷은 예시 없이 지시만으로, 퓨샷은 프롬프트에 예시 몇 개를 넣어 시키는 것이다. 둘 다 가중치를 바꾸지 않고 맥락만 제공하지만, 같은 과제에서 '불안정함'과 '실서비스 가능' 사이를 가를 만큼 결과 품질이 달라진다.
임베딩은 단어·문장·문서의 '의미'를 고차원 공간의 한 점(숫자 목록)으로 표현한 것으로, 의미가 비슷하면 가까이 모인다. 그래서 키워드가 겹치지 않아도 '인증 오류'와 '로그인 실패'가 가까워지는 의미 기반 검색이 가능하다.
RAG는 모델이 기억한 것에 의존하는 대신 자신의 데이터를 먼저 검색해 질문과 함께 넘겨 주는 방식이다. 문서를 청크로 나눠 임베딩해 벡터DB에 저장하고, 질문이 오면 관련 청크를 찾아 프롬프트에 주입한다. 다만 검색이 틀리면 자신 있게 틀린 답이 나오므로, 실제 작업의 대부분은 LLM이 아니라 '검색을 제대로 맞추는 일'이다.
RLHF(인간 피드백 기반 강화학습)는 원시 사전학습 모델을 '비서'처럼 행동하게 만든다. 사람이 좋은 응답 예시를 쓰고, 응답 쌍 중 더 나은 것을 골라 보상 모델을 학습시킨 뒤, 그 점수를 높이도록 LLM을 훈련한다. 다만 지나치게 조심스러워지거나 듣기 좋은 말만 하게 되는 부작용도 있다.
에이전트는 'LLM이 든 while 루프'다. 과제를 추론하고 도구를 써서 결과를 관찰하며 다음 단계를 정해 완료까지 반복한다. 다만 오늘날 '에이전트'로 불리는 제품 대부분은 도구 접근과 분기 로직을 갖춘 몇 번의 LLM 호출에 가깝고, 진정한 자율 시스템은 아직 연구 영역이다.

자주 묻는 질문

토큰은 단어와 같은 말인가?

아니다. 토큰은 모델이 한 단위로 처리하는 텍스트 덩어리로, 단어 전체일 수도, 단어의 일부나 한 글자일 수도 있다. 영어 기준 한 토큰은 대략 단어의 4분의 3이며, 한국어 같은 비라틴 문자는 같은 분량에 더 많은 토큰을 사용한다.

환각(hallucination)은 왜 생기나?

모델이 사실을 조회하는 게 아니라 학습한 패턴에 따라 '그럴듯한 토큰'을 생성하기 때문이다. 근거가 약하면 형식만 맞고 내용은 꾸며 낸 가짜 라이브러리명·논문·URL을 자신 있게 만들어 낼 수 있어, 사실 정보는 검증이 필요하다.

RAG와 파인튜닝은 어떻게 다른가?

RAG는 외부 데이터를 검색해 모델에 넘겨 '지식'을 다루고, 파인튜닝은 사전학습 모델을 특정 데이터로 더 학습시켜 말투·형식·행동을 바꾼다. 파인튜닝은 사실 지식을 안정적으로 추가하지 못하므로 둘은 서로 다른 문제를 풀며, 보통 함께 쓴다.

온도(temperature) 값은 어떻게 정해야 하나?

온도는 다음 토큰 확률 분포의 뾰족함을 조절한다. 0이면 항상 최고 확률 토큰을 골라 결과가 일정하고, 값이 오를수록 다양해진다. 코드·구조화 출력은 낮게, 창작은 1 안팎으로 두며 보통 0.7이 기본값이고 운영에서는 1.5 미만을 권한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗