AI VIDEO BRIEFING

구글 번역 원리: 인코더-디코더 LSTM과 어텐션 메커니즘으로 본 신경망 기계번역

단어 대 단어 사전 치환의 한계부터 인코더-디코더 LSTM, 양방향 RNN, 어텐션 메커니즘까지 구글 번역이 문장의 토큰과 문법을 신경망으로 학습하는 원리를 쉽게 풀어 정리했습니다.

출처: CS Dojo Community2019년 2월 14일AI 보조 요약

구글 번역은 어떻게 동작할까: 인코더-디코더와 어텐션으로 푸는 기계번역 영상 대표 이미지

핵심 메시지

단어를 하나씩 사전으로 바꾸는 방식은 토큰만 다룰 뿐 어순·문맥 같은 문법을 처리하지 못해 의미가 깨진다.
신경망은 문법을 직접 정의하는 대신 수십만 개의 번역 예시에서 패턴을 학습한다.
인코더 RNN이 입력 문장을 벡터로, 디코더 RNN이 그 벡터를 번역 문장으로 바꾸는 인코더-디코더 구조가 기본 골격이다.
긴 문장에서 품질이 떨어지는 문제를 양방향 RNN과 어텐션 메커니즘으로 보완했다.
구글 번역은 이 구조를 LSTM 여덟 단으로 깊게 쌓아 확장한 형태다.

쉽게 이해하기

언어 번역의 가장 단순한 시도는 문장의 단어를 하나씩 대응되는 외국어 단어로 바꿔 내놓는 것이다. 영어-프랑스어 사전만 있으면 머신러닝 없이도 가능하지만, 여기엔 큰 문제가 있다. 언어에는 가장 작은 단위인 토큰(단어)과, 그 토큰을 어떤 순서로 배열할지 정하는 규칙인 문법이라는 두 축이 있기 때문이다.

제대로 번역하려면 문장 구조가 맞는지 보는 구문 분석과, 문맥상 말이 되는지 보는 의미 분석이 필요하다. 영상은 문법을 일일이 직접 정의하는 대신 신경망이 수십만 개의 예시를 보며 스스로 패턴을 배우게 하자고 제안한다. 다만 컴퓨터는 문장을 그대로 이해하지 못하므로, 문장을 숫자, 즉 벡터와 행렬로 바꿔야 한다.

그래서 영어 문장을 벡터로 바꾸는 인코더와, 그 벡터를 프랑스어 문장으로 바꾸는 디코더가 필요하다. 문장처럼 순서가 있는 데이터를 다루므로 둘 다 순환 신경망(RNN)을 쓰며, 이 둘이 합쳐진 것이 인코더-디코더 구조다. 실제 박스는 긴 문장도 비교적 잘 다루는 LSTM 순환 신경망으로, 1990년대에 고안됐고 LSTM 기반 인코더-디코더는 2014년 당시 최첨단으로 번역에서 순환 신경망이 크게 성공한 첫 사례였다.

성능을 보면 문장 길이가 15~20단어 정도인 중간 길이에서 잘 작동하지만, 더 긴 문장에서는 의미가 무너지기 시작한다. 영상은 긴 영어 문장을 번역한 뒤 다시 영어로 되돌려 보며 약 20단어가 넘어가면 뜻이 어긋나는 사례를 보여 준다. 한 단어는 앞 단어뿐 아니라 뒤 단어에도 의존하므로, 앞뒤를 모두 보는 양방향 RNN으로 바꿔 문맥을 더 잘 반영한다.

그다음 큰 문장에서 어떤 단어에 더 집중할지를 정하는 것이 어텐션 메커니즘이다. 2016년 '정렬과 번역을 함께 학습' 연구가 제시한 이 방식은, 프랑스어 단어를 만들 때 어떤 영어 단어에 주의를 둘지 모델이 스스로 학습해 정렬한다. 어텐션은 인코더와 디코더 사이에 자리하며 원래 구조보다 성능이 좋다. 구글 번역도 정확히 이렇게 작동하되, 인코더와 디코더에 LSTM을 하나가 아닌 여덟 개씩 깊게 쌓아 더 복잡한 언어의 의미와 문법을 다룬다.

주요 인사이트

언어는 토큰(단어)과 문법(배열 규칙)으로 이뤄지며, 번역을 어렵게 만드는 것은 바로 이 문법이다.
순환 신경망은 과거 정보로 현재를 결정하지만, 양방향 RNN은 뒤따라오는 단어까지 봐서 문맥을 더 정확히 잡는다.
어텐션 메커니즘은 번역 단어마다 어떤 원문 단어에 집중할지 정렬을 학습해 긴 문장의 품질을 끌어올린다.
구글 번역의 핵심 차이는 LSTM을 여덟 단으로 깊게 쌓아 복잡한 의미를 더 잘 모델링한다는 점이다.
단순 사전 치환이 최첨단 번역기가 되지 못하는 이유는 문법이 존재하기 때문이라는 점이 출발점이다.

자주 묻는 질문

단어를 사전으로 하나씩 바꾸면 왜 안 되나요?

그 방식은 토큰만 다룰 뿐 어순과 문맥 같은 문법을 처리하지 못합니다. 문법이 존재하기 때문에 단순 치환은 의미가 깨진 결과를 내놓게 됩니다.

인코더-디코더 구조의 박스는 실제로 무엇인가요?

긴 문장을 비교적 잘 다루는 LSTM 순환 신경망입니다. 1990년대에 고안됐고, LSTM 기반 인코더-디코더는 2014년에 번역의 최첨단 기술이었습니다.

어텐션 메커니즘은 어디에 위치하나요?

인코더와 디코더 사이에 위치합니다. 어떤 프랑스어 단어를 만들 때 어떤 영어 단어에 주의를 둘지 정렬을 학습해, 원래 인코더-디코더보다 좋은 성능을 냅니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗