AI VIDEO BRIEFING

콜모고로프-아놀드 신경망 KAN: 가중치 대신 활성화 함수를 학습하는 새로운 신경망 구조

콜모고로프-아놀드 신경망(KAN)은 기존 신경망과 달리 엣지의 가중치를 고정하고 활성화 함수 자체를 학습하는 새로운 구조다. 콜모고로프-아놀드 표현 정리에서 영감을 받아, 함수를 스플라인으로 근사하는 작동 원리를 쉽게 풀어 설명한다.

출처: Luis Serrano Academy2024년 12월 3일AI 보조 요약

콜모고로프-아놀드 신경망(KAN): 가중치 대신 '함수'를 학습하는 새 신경망 영상 대표 이미지

핵심 메시지

KAN은 기존 신경망과 달리 엣지의 가중치를 1로 고정하고, 엣지에 놓인 활성화 함수 자체를 학습한다.
모든 연속 함수를 대부분 덧셈으로 표현할 수 있다는 콜모고로프-아놀드 표현 정리에서 영감을 받았다.
노드는 입력을 더하고 엣지는 학습 가능한 함수를 통과시키는 구조다.
학습 대상인 함수는 스플라인(B-스플라인)으로 근사해, 적은 수의 매개변수(노트 벡터)로 표현하고 경사하강으로 학습한다.
스플라인의 차수와 개수는 하이퍼파라미터이며, 많을수록 근사가 정밀해지지만 신경망이 복잡해진다.

쉽게 이해하기

먼저 일반적인 다층 퍼셉트론(MLP)을 떠올려 보자. 입력층과 출력층, 여러 은닉층이 있고 한 층의 모든 노드가 다음 층의 모든 노드와 엣지로 연결된다. 여기서 활성화 함수(시그모이드, ReLU 등)는 미리 정해 고정하고, 학습으로 바꾸는 것은 엣지에 놓인 가중치 숫자들이다.

KAN은 정반대다. 모든 엣지의 가중치는 1로 고정해 움직이지 않고, 대신 엣지마다 놓인 함수를 학습한다. 더 정확히 그리면 노드에는 덧셈 기호가 있어 들어온 값을 모두 더하고, 엣지에는 함수가 있어 한 노드에서 다음 노드로 가는 값이 그 함수를 통과한다. 한 노드만 보면 MLP는 sigmoid(w1·x1+w2·x2)를 내지만, KAN은 f1(x1)+f2(x2)를 내며 학습 대상은 f1, f2라는 함수다.

학습 방식 자체는 같다. 손실 함수의 최저점을 경사하강으로 찾되, MLP는 가중치 숫자를 내려가며 최적값을 찾고 KAN은 함수를 조금씩 바꿔가며 최적의 함수를 찾는다. 문제는 함수를 표현하려면 매개변수가 무한히 많을 수 있다는 점인데, 이를 해결하려고 함수를 크게 단순화한다.

단순화의 도구가 스플라인이다. 구간을 몇 조각으로 나눠 상수·선형·2차 같은 단순한 조각 함수로 원래 함수를 근사하면, 그 함수는 몇 개의 숫자(노트 벡터)만으로 기술된다. 기저가 되는 스플라인들의 선형결합으로 함수를 만들고, 그 결합 계수를 학습한다. 더 많은, 더 높은 차수의 스플라인을 쓰면 근사는 정밀해지지만 매개변수가 늘어난다.

KAN의 이론적 토대는 콜모고로프-아놀드 표현 정리다. 일반 신경망이 보편 근사 정리(임의 함수를 근사하려면 2층이면 된다)에 기댄다면, KAN은 표현 정리(임의 함수를 표현하려면 2층 KAN이면 된다)에 기댄다. 다만 이는 이론적 결과로, 그렇게 하려면 층이 지나치게 넓어지므로 실제로는 더 깊게 층을 쌓는다.

주요 인사이트

KAN의 핵심은 신경망의 '학습 대상'을 가중치 숫자에서 함수로 옮긴 발상의 전환이다.
함수를 직접 학습할 때 생기는 무한 매개변수 문제를 스플라인 근사라는 현실적 타협으로 푼다.
스플라인의 차수와 개수를 늘릴수록 근사는 정밀해지지만 매개변수가 늘어나는 트레이드오프가 있다.
이론(2층이면 충분하다는 표현 정리)과 실제 설계(깊은 층을 쌓음) 사이에는 너비 문제로 인한 간극이 있다.

자주 묻는 질문

KAN과 일반 신경망의 가장 큰 차이는 무엇인가?

일반 신경망은 엣지의 가중치를 학습하고 활성화 함수를 고정하지만, KAN은 가중치를 1로 고정하고 엣지에 놓인 활성화 함수 자체를 학습한다.

함수를 어떻게 학습 가능한 형태로 만드나?

스플라인(B-스플라인)으로 근사해, 기저 함수들의 선형결합 계수인 노트 벡터라는 적은 수의 매개변수로 함수를 표현하고 이를 경사하강으로 학습한다.

KAN이 영감을 받은 정리는 무엇인가?

콜모고로프-아놀드 표현 정리로, 모든 연속 함수를 대부분 덧셈으로 표현할 수 있다고 말한다. 노드가 덧셈, 엣지가 함수라는 KAN의 구조와 대응한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗