AI VIDEO BRIEFING

신경망은 만능 함수 근사기 — 곡선 맞춤, 푸리에 특징, 차원의 저주까지

신경망이 함수를 짓는 기계라는 관점에서 이미지·구면·조개껍데기·만델브로 집합을 근사한다. 테일러·푸리에 특징을 더한 실험으로 저차원의 성공과 고차원의 한계를 보여준다.

출처: Emergent Garden2023년 8월 17일AI 보조 요약

신경망은 만능 함수 근사기: 이미지·구면·프랙탈로 본 학습의 한계와 푸리에 특징 영상 대표 이미지

핵심 메시지

함수는 세상을 기술하는 언어이며, 신경망은 데이터 표본만으로 알 수 없는 목표 함수를 근사하는 '함수 짓는 기계', 즉 만능 함수 근사기다.
완전연결 순전파 신경망은 뉴런의 가중합에 ReLU 같은 활성 함수를 적용해 조각들을 쌓아 복잡한 함수를 만든다. 활성 함수는 모양을, 가중치는 그 모양의 이동·확대·축소를 담당한다.
입력을 정규화하고 ReLU 대신 Leaky ReLU를, 마지막 층에는 tanh를 쓰는 등 이론상 같은 만능 근사기라도 실전 성능은 크게 달라진다.
테일러·푸리에 특징을 추가 입력으로 넣으면 근사가 크게 좋아진다. 특히 푸리에 특징은 이미지 근사에서 세밀함을 극적으로 높인다(JPEG 압축이 파동을 쓰는 것과 같은 이치).
다만 2D 푸리에 급수는 항의 수가 폭발해 '차원의 저주'에 걸린다. 푸리에 특징은 저차원에서 탁월하지만 MNIST 같은 고차원에서는 과적합으로 오히려 성능을 해쳐, 만능 방법은 없다.

쉽게 이해하기

영상은 '함수가 세상을 기술한다'는 전제에서 출발한다. 목소리가 고막에 닿는 소리, 눈에 들어오는 빛 모두 함수로 표현된다. 인공지능의 목표는 세상을 이해·모델링·예측하는 프로그램이 스스로 함수를 짓게 하는 것이고, 그것이 함수 근사이자 신경망이 하는 일이다. 우리가 다루는 문제는 함수의 정의를 모른 채 입력·출력 데이터 표본만 가진 경우다. 신경망은 이 점들에 맞는 곡선을 '구부려' 맞추며, 표본에 없는 입력도 예측하게 한다. 이것이 곡선 맞춤(curve fitting)이고, 그래서 신경망은 만능 함수 근사기다.

구조를 보면, 완전연결 순전파 신경망의 각 뉴런은 입력마다 가중치를 곱해 더하고 편향을 보탠 가중합에 활성 함수를 적용한다. 활성 함수(예: ReLU)가 뉴런의 수학적 모양을 정하고, 가중치가 그 모양을 이동·확대·축소한다. 한 층의 출력 벡터가 다음 층 입력이 되며 층을 거듭할수록 정교한 함수가 만들어진다. 가중치는 역전파로 학습되는데, 이 알고리즘은 예측과 정답의 차이(손실)를 줄여 나간다.

차원을 올려 이미지를 배워 보자. 입력은 픽셀의 행·열 좌표, 출력은 그 픽셀 값이다(R2→R1). 근사가 좋아지는 과정을 스냅숏으로 보면 학습이 점차 느려지는데, 이는 학습률을 주기적으로 낮춰 세부를 다듬기 때문이다. 실전 성능을 높이는 요령도 있다. 입력을 0~1400 범위에서 -1~1로 정규화하고, ReLU 대신 음수도 낼 수 있는 Leaky ReLU를 쓰며, 마지막 층은 픽셀 값이 0~1이어야 해서 sigmoid보다 0을 중심에 둔 tanh를 쓴 뒤 다시 정규화한다. 이론상 둘 다 만능 근사기지만 실전에선 tanh 쪽이 더 잘 작동하며, 이는 증명보다 실험으로 검증하는 '수학의 과학'에 가깝다.

더 어려운 대상으로 구면 같은 매개변수 곡면, 아름다운 나선형 조개껍데기, 그리고 무한히 복잡한 프랙탈인 만델브로 집합에 도전한다. 만델브로는 저차원(입력 2개)인데도 복소수로 만들어져 무한한 세부를 지녀 아무리 맞춰도 늘 부족하다. 여기서 다른 근사 도구가 등장한다. 테일러 급수는 다항식 항들의 가중합인데, 항을 입력 벡터, 계수를 가중치 벡터로 보면 사실상 단층 신경망이다. 다항식은 값이 급격히 폭발해 역전파가 계수를 찾기 어렵지만, 이 테일러 특징을 다층 신경망에 추가 입력으로 넣으면 훨씬 나아진다.

더 강력한 것은 푸리에 급수다. 사인·코사인 항들의 가중합으로 한 주기(2π) 안에서 함수를 근사하며, 신경망에 푸리에 특징으로 넣으면 이미지 세부가 극적으로 살아난다(JPEG 압축이 파동을 쓰는 것과 같은 이치). 다만 2D 푸리에 급수는 사인·코사인과 주파수의 모든 조합을 곱해 항의 수가 폭발하고, 3D·4D로 가면 감당이 안 된다. 이것이 차원의 저주다. 실용적으로는 각 입력을 독립 변수로 보고 1D 푸리에 특징을 각각 계산한다. 하지만 784차원 MNIST에서는 푸리에 특징이 과적합을 일으켜 8차수는 겨우 2% 개선, 32·64차수는 오히려 성능을 망친다. 결론은 명확하다. 모든 과제에 최선인 단일 구조는 없으며, 신경망은 고차원에서 특히 강하고 푸리에 특징은 저차원에 어울린다.

주요 인사이트

신경망을 '원하는 모양으로 빚는 수학적 점토'로 보면, 학습이란 데이터 점들에 맞게 곡선을 구부리는 곡선 맞춤임이 분명해진다.
이론적 동등성과 실전 성능은 다르다. 정규화·Leaky ReLU·tanh처럼 이론상 같은 만능 근사기라도 선택에 따라 결과가 크게 갈린다.
테일러·푸리에 특징을 추가 입력으로 주는 것은 신경망에 다양한 '수학적 블록'을 쥐여 주는 것과 같아, 더 풍부한 함수를 짓게 한다.
푸리에 특징이 이미지에 잘 먹히는 이유는 우연이 아니다. 많은 것이 파동의 조합으로 표현되며, 그래서 JPEG 압축도 파동을 쓴다.
차원의 저주는 많은 근사·머신러닝 기법을 무너뜨린다. 저차원에서 빛나는 푸리에 특징이 고차원 MNIST에서 과적합으로 실패하는 것이 그 증거이며, 만능 해법은 없다.

자주 묻는 질문

신경망이 '만능 함수 근사기'라는 말은 무슨 뜻인가요?

함수의 정의를 몰라도 입력·출력 데이터 표본만으로 어떤 함수든 원하는 정밀도로 근사할 수 있다는 뜻입니다. 신경망은 데이터 점에 맞게 곡선을 구부리는 방식으로 함수를 지어냅니다.

테일러 특징, 푸리에 특징을 추가한다는 게 무엇인가요?

원래 입력에 더해 x², x³ 같은 테일러 항이나 사인·코사인 같은 푸리에 항을 계산해 신경망의 추가 입력으로 넣는 기법입니다. 신경망에 더 다양한 수학적 building block을 줘 복잡한 함수를 더 잘 짓게 합니다.

푸리에 특징은 왜 이미지에서 특히 효과적인가요?

많은 대상이 서로 다른 주파수의 파동 조합으로 표현되기 때문입니다. 실제로 JPEG 이미지 압축도 이 원리를 쓰며, 영상 실험에서도 같은 크기·시간의 일반 신경망보다 세부 묘사가 훨씬 뛰어났습니다.

'차원의 저주'는 여기서 어떻게 나타나나요?

2D 푸리에 급수는 사인·코사인과 주파수의 모든 조합을 곱해 항의 수가 폭발하고, 고차원에서는 계산이 불가능해집니다. 또 784차원 MNIST에서는 푸리에 특징이 과적합을 일으켜 오히려 성능을 해쳤습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗