AI VIDEO BRIEFING

AI 핵심 용어 20가지 정리: LLM·토큰화·어텐션부터 RAG·MCP·양자화까지

LLM, 토큰화, 벡터, 어텐션, 자기지도 학습, 트랜스포머, 미세 조정, RAG, 벡터 DB, MCP, 강화학습, 추론 모델, 소형 언어 모델, 양자화까지 — AI 엔지니어가 꼭 알아야 할 핵심 용어 20가지를 한 번에 정리한다.

출처: Gaurav Sen2025년 9월 20일AI 보조 요약

핵심 메시지

대규모 언어 모델(LLM)은 입력 시퀀스의 다음 토큰을 예측하도록 훈련된 신경망이며, 입력은 먼저 토큰화를 거쳐 의미를 좌표로 담은 벡터로 변환된다.
어텐션은 주변 단어의 문맥을 반영해 '사과'가 과일인지 회사인지 같은 모호함을 해소하는 메커니즘으로, 2017년 등장해 2022년 ChatGPT로 대중화되며 LLM의 응답 품질을 비약적으로 끌어올렸다.
자기지도 학습은 사람이 정답을 일일이 달지 않고 인터넷의 기존 텍스트에서 모델이 스스로 학습 과제를 만들어내게 해, 학습 데이터 확보 비용을 크게 낮춘다.
RAG·벡터 데이터베이스·MCP·컨텍스트 엔지니어링은 모델 외부의 최신·전용 정보를 끌어와 응답 품질을 높이는 방법이고, 강화학습(RLHF)과 사고의 연쇄는 모델을 더 똑똑하고 사용자 친화적으로 만든다.
소형 언어 모델(SLM)은 증류로 만들어 비용과 속도에서 유리하고, 양자화는 가중치의 비트 수를 줄여 추론 비용을 낮추는 기법으로, 기업 특화 모델 흐름과 함께 주목받는다.

쉽게 이해하기

이 영상은 AI 애플리케이션을 만드는 엔지니어가 팀 안팎에서 소통할 때 꼭 알아야 할 핵심 용어 20가지를 차례로 설명한다. 출발점은 대규모 언어 모델(LLM)이다. LLM은 입력 시퀀스가 주어졌을 때 다음에 올 토큰을 예측하도록 훈련된 신경망으로, 예컨대 '반짝이는 모든 것'을 입력하면 '금은 아니다'를 이어 붙이는 식이다. 그 첫 단계가 토큰화로, 입력 텍스트를 'glitter', '-ers'처럼 의미를 담은 최소 단위인 토큰으로 쪼갠다.

토큰은 다시 벡터로 바뀐다. 의미가 비슷한 단어가 n차원 공간에서 서로 가까이 놓이도록 좌표로 매핑하는 것이다. 여기에 핵심 돌파구가 어텐션이다. '사과'가 먹는 과일인지, 회사 애플인지, 애정을 담은 표현인지는 단어 자체가 아니라 '맛있다', '매출' 같은 주변 단어가 결정한다. 어텐션은 인접 문맥 벡터를 결합해 이 모호함을 해소하며, 2017년 논문으로 등장했지만 2022년 ChatGPT가 나오면서 진가가 널리 알려졌다.

모델을 어떻게 학습시키느냐도 관건이다. 자기지도 학습은 사람이 정답을 달아 주는 지도 학습과 달리, 인터넷에서 긁어온 기존 텍스트의 구조만으로 모델이 스스로 '다음에 올 토큰 맞히기' 과제를 만들어 학습한다. 덕분에 학습 데이터 확보가 훨씬 저렴해지고 확장성이 좋아진다. 다음 토큰을 실제로 예측하는 구조가 트랜스포머인데, 입력 토큰이 어텐션 블록과 피드포워드 신경망을 여러 층(때로는 수백 층) 통과하며 의미를 거듭 정교화한다. 영상은 LLM을 자동차, 트랜스포머를 그 엔진에 비유한다.

기본 모델을 특정 용도에 맞추는 단계가 미세 조정이다. 같은 기본 모델이라도 의료·금융 등 질문·답변 세트로 다시 학습하면 해당 분야에 맞는 답을 내놓는다. 모델 외부의 정보를 끌어오는 방법으로는 예시를 함께 주는 퓨샷 프롬프트, 관련 문서를 검색해 붙이는 검색 증강 생성(RAG), 그 문서를 유사도로 빠르게 찾아 주는 벡터 데이터베이스, 외부 도구·데이터베이스에 연결하는 모델 컨텍스트 프로토콜(MCP)이 있다. 이 모두를 아우르는 흐름이 컨텍스트 엔지니어링으로, 단일 프롬프트에 그치는 프롬프트 엔지니어링과 달리 사용자 선호와 대화 기록까지 장기적으로 반영한다.

더 높은 차원에는 LLM 질의와 외부 시스템 호출을 스스로 수행하는 장기 실행 프로세스인 에이전트가 있다. 모델을 더 똑똑하게 만드는 기법으로는 더 나은 답을 강화하는 인간 피드백 기반 강화학습(RLHF)과, 문제를 단계별로 풀게 하는 사고의 연쇄가 있다. 사고의 연쇄를 체화한 추론 모델(LRM)에는 DeepSeek와 OpenAI의 o1·o3 계열 등이 있다. 텍스트를 넘어 이미지·영상을 다루는 멀티모달 모델, 기업 데이터로 작게 학습해 비용·속도가 유리한 소형 언어 모델(SLM)과 그 제작법인 증류, 가중치의 비트 수를 줄여 추론 비용을 낮추는 양자화까지가 영상이 짚는 20가지 용어다.

주요 인사이트

LLM의 본질은 '다음 토큰 예측'이며, 토큰화→벡터화→어텐션이라는 입력 처리 흐름을 이해하면 나머지 개념이 훨씬 쉽게 연결된다.
어텐션의 힘은 단어의 철자가 아니라 주변 문맥에서 의미를 끌어내는 데 있다 — '사과'가 과일인지 회사인지는 함께 등장하는 단어가 결정한다.
자기지도 학습은 사람의 라벨링 없이 인터넷 텍스트만으로 학습 과제를 자동 생성해, 데이터 비용을 낮추고 확장성을 확보한 핵심 전환점이다.
RAG·벡터 DB·MCP·컨텍스트 엔지니어링은 모두 '모델 바깥의 맥락을 어떻게 끌어와 붙일 것인가'라는 같은 문제의 서로 다른 해법이다.
강화학습은 결과에 기반해 좋은 경로를 강화하지만 '정신적 모델'은 세우지 못한다 — 공정한 동전을 계속 던져 앞면이 나와도 인간은 50:50을 알지만 강화학습은 앞면을 강화한다.

자주 묻는 질문

토큰화와 벡터는 어떻게 다른가?

토큰화는 입력 텍스트를 'glitter', '-ers'처럼 의미를 담은 최소 단위(토큰)로 쪼개는 과정이고, 벡터는 그 토큰의 의미를 n차원 공간의 좌표로 표현해 의미가 비슷한 단어끼리 가까이 놓이게 한 것이다.

검색 증강 생성(RAG)이란 무엇인가?

사용자 질문과 가장 관련 있는 사내 문서·정책 등을 실시간으로 검색해 LLM의 입력 맥락에 함께 붙여, 회사별 맥락이 반영된 높은 품질의 답변을 끌어내는 방식이다. 관련 문서는 보통 유사도 검색이 쉬운 벡터 데이터베이스에서 가져온다.

소형 언어 모델(SLM)은 왜 쓰는가?

기업이 자체 데이터로 작은 매개변수(약 300만~3억 개) 모델을 증류 방식으로 학습시키면, 특정 업무에서 충분히 정확하면서도 응답 속도가 빠르고 호스팅 비용이 저렴해 데이터 통제권까지 확보할 수 있기 때문이다.

양자화는 어떤 비용을 줄여 주는가?

가중치를 예컨대 32비트에서 8비트로 압축해 메모리 사용량을 크게 줄이는 기법으로, 학습 비용보다는 주로 실제 운영 환경에서의 추론(모델 실행) 비용을 낮춘다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗