AI VIDEO BRIEFING

교사 강요(Teacher Forcing)란? RNN 시퀀스 학습과 정답 주입의 원리

순차 데이터를 다루는 RNN은 이전 출력을 다음 입력으로 쓰는데, 모델이 틀린 단어를 예측하면 오류가 누적된다. 교사 강요는 예측 대신 실제 정답을 다음 시점 은닉층에 직접 넣어 학습을 안정시키는 기법이다. 파라미터 공유와 함께 RNN 구조를 짚는다.

출처: RANJI RAJ2022년 11월 1일AI 보조 요약

교사 강요(Teacher Forcing): RNN을 더 안정적으로 학습시키는 기법 영상 대표 이미지

핵심 메시지

비순차 데이터와 달리 순차 데이터는 단어 사이의 문맥 의존성이 중요하다.
RNN은 이전 시점의 정보를 기억해 다음 단어를 예측하는 메모리 구조를 가진다.
교사 강요는 모델의 (틀릴 수 있는) 예측 대신 실제 정답을 다음 시점에 주입한다.
RNN은 U·V·W 가중치를 모든 시점에 공유하는 파라미터 공유를 사용한다.
파라미터 공유는 대칭성 깨짐 문제를 피하면서 시퀀스 의존성을 학습하게 한다.

쉽게 이해하기

교사 강요는 신경망, 특히 순환 신경망(RNN)을 학습시키는 기법이다. 이를 이해하려면 먼저 순차 데이터와 비순차 데이터의 차이를 알아야 한다. 비순차 데이터는 CSV처럼 순서나 의존성이 없는 경우가 많지만, 현실의 언어 데이터는 단어가 스트림처럼 흘러오며 앞뒤 문맥에 강하게 의존한다.

문맥을 무시하면 예측이 틀어진다. 예컨대 'deadline'을 'dead'와 'line'으로 쪼개면 의미가 달라지고, 독일어–영어 번역에서 'dataset'을 두 단어로 보면 뜻이 바뀐다. 다음에 올 단어를 맞히려면 이전 단어들의 문맥이 필요한데, 메모리가 없는 일반 순방향 신경망(FFN)으로는 이를 다루기 어렵다.

RNN 구조는 입력 X, 은닉 유닛 H, 그리고 가중치 U·V·W로 이루어지며 루프가 있는 형태다. 이를 시간 축으로 펼치면 각 시점의 은닉 유닛이 입력을 받고, 이전 시점의 은닉 상태가 가중치 W를 통해 다음 시점으로 전달된다. 활성화는 a_t = U·x_t + W·h_{t−1} + b 형태로 계산되고, 출력은 o_t = V·h_t + c, 최종 예측은 softmax(o_t)로 얻는다.

RNN의 특징은 파라미터 공유다. U·V·W 세 가중치를 전체 시점에 걸쳐 공유한다. 만약 하나의 보편 가중치만 쓰면 대칭성 깨짐 문제가 생겨 한 시점에서 학습된 값이 잘못 전파되고 예측력이 떨어질 수 있다. 그래서 입력→은닉, 은닉→은닉, 은닉→출력에 각각 U·W·V를 두어 시점마다 적절히 학습되도록 한다.

교사 강요는 바로 이 학습 과정에서 등장한다. 모델이 어떤 시점에서 단어를 잘못 예측하면, 그 틀린 예측 대신 데이터셋의 실제 정답(ground truth)을 다음 시점의 은닉 유닛에 직접 넣어 준다. 즉 '정답을 강제로 가르쳐' 오류가 다음 예측까지 번지지 않게 한다. 용어는 거창하지만 개념은 단순하다.

주요 인사이트

순방향 신경망은 메모리가 없어 단어를 순서대로 다루지 못하지만 RNN은 이전 단어를 기억한다.
파라미터 공유로 가중치 수를 줄이면서 대칭성 깨짐 문제를 피한다.
교사 강요는 모델의 틀린 출력 대신 정답을 다음 시점에 넣어 오류 누적을 막는다.
RNN은 U·V·W 가중치 삼중쌍을 쓰는 반면 일반 신경망은 가중치 W와 편향 b만 쓴다.
언어 번역처럼 장기 의존성이 중요한 과제에서 순차 모델링이 필수다.

자주 묻는 질문

교사 강요란 무엇인가?

RNN 학습 중 모델이 예측한 (틀릴 수 있는) 출력 대신 실제 정답을 다음 시점의 입력으로 넣어 주는 기법이다.

왜 교사 강요가 필요한가?

모델이 한 단어를 잘못 예측하면 그 오류가 다음 예측까지 번지므로, 정답을 직접 주입해 학습을 바로잡기 위함이다.

RNN의 파라미터 공유란?

입력→은닉, 은닉→은닉, 은닉→출력의 가중치 U·W·V를 모든 시점에 공유하는 것으로, 대칭성 깨짐 문제를 피한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗