AI VIDEO BRIEFING

딥시크 mHC 논문 해설 — 잔차 연결과 하이퍼 연결의 한계를 넘다

딥시크가 2026년 첫 논문 'mHC(Manifold-Constrained Hyper-Connections)'를 공개했다. 2016년 이후 거의 그대로였던 잔차 연결을 확장하면서도 학습 안정성을 되살린 핵심 아이디어를 정리했다.

출처: AI Papers Academy2026년 1월 4일AI 보조 요약

딥시크의 새 논문 mHC: 10년 묵은 '잔차 연결'을 다시 설계하다 영상 대표 이미지

핵심 메시지

딥시크가 2026년 새 논문 'mHC(Manifold-Constrained Hyper-Connections)'를 공개하며 차세대 AI 성능 향상의 후보로 주목받고 있다.
2016년 ResNet 이후 거의 바뀌지 않은 '잔차 연결(residual connection)'이 이 연구의 출발점이다.
바이트댄스의 '하이퍼 연결'은 잔차 흐름을 넓혀 표현력을 키웠지만, 학습이 불안정해지는 문제가 있었다.
mHC는 하이퍼 연결의 유연성은 유지하면서, 신호가 폭주하거나 사라지지 않도록 제약을 더해 안정성을 회복했다.
27B 규모 실험에서 mHC가 기준 모델과 일반 하이퍼 연결보다 일관되게 더 좋은 성능과 안정적인 학습을 보였다.

쉽게 이해하기

딥시크는 지난해 DeepSeek-R1으로 AI 업계에 큰 충격을 준 데 이어, 2026년 첫 논문으로 'mHC: Manifold-Constrained Hyper-Connections'를 내놓았다. 이 논문은 바이트댄스가 2025년 발표한 '하이퍼 연결(Hyper-Connections)' 연구를 토대로 하며, 다음 큰 도약의 동력이 될 수 있다는 기대를 모으고 있다.

이를 이해하려면 먼저 '잔차 연결'을 알아야 한다. 2016년 ResNet에서 처음 등장한 잔차 연결은 입력 신호를 변형하지 않고 그대로 다음 층으로 전달하는 경로를 둔다. 모듈 F(피드포워드, 셀프 어텐션 등)가 처리한 결과와 원래 입력을 더해 출력으로 삼는 구조다. 이 덕분에 깊은 신경망에서도 입력 정보가 깊숙한 층까지 전달되고, 기울기 소실 문제가 완화되어 대규모 학습이 안정적으로 이뤄진다.

흥미롭게도 지난 10년간 어텐션 메커니즘, 전문가 혼합(MoE) 등 모듈 F 내부는 크게 발전했지만, 잔차 연결 자체는 2016년 이후 거의 그대로였다. 바이트댄스의 하이퍼 연결은 바로 이 지점을 겨냥했다. 잔차 흐름을 하나의 벡터가 아니라 여러 개의 성분으로 넓히고(예: 4배), 학습 가능한 행렬로 각 층마다 섞어 정보 흐름을 더 유연하게 만든다. 확장된 표현은 모듈 F에 들어가기 전에 다시 모델 차원으로 줄여, 어텐션 같은 비싼 연산의 비용은 크게 늘지 않는다.

문제는 이 유연성에 대가가 따른다는 점이다. 표준 잔차 연결은 구조 자체가 항등 사상을 보장하지만, 하이퍼 연결은 제약 없는 학습 가중치에 의존한다. 그 결과 잔차 흐름이 항등 사상에서 벗어나 신호 크기가 폭주하거나 사라질 수 있고, 더 크고 깊은 모델에서 학습이 불안정해진다. mHC는 바로 이 불안정성을 해결하기 위해, 하이퍼 연결의 표현력은 그대로 두면서 항등 보장을 되살리는 것을 목표로 한다.

mHC의 핵심은 잔차 혼합 행렬에 두 가지 제약을 거는 것이다. 모든 값이 음이 아니어야 하고, 각 행과 열의 합이 1이어야 한다. 이런 '이중 확률 행렬'은 1967년의 고전 알고리즘인 싱크혼-크노프(Sinkhorn–Knopp) 방식으로 구현된다. 이렇게 하면 모든 출력 잔차가 같은 총량의 입력 신호를 받고, 모든 입력 잔차가 같은 총량을 출력에 기여해, 정보가 여러 경로로 섞이면서도 전체적으로 항등에 가까운 잔차가 유지된다.

주요 인사이트

AI 성능 향상은 어텐션이나 MoE 같은 '모듈 내부'에서만 나오는 게 아니라, 정보가 층 사이를 흐르는 '잔차 연결'이라는 토대를 손보는 데서도 나올 수 있다.
표현력을 높이는 확장(하이퍼 연결)은 곧바로 학습 불안정이라는 비용으로 이어질 수 있어, 유연성과 안정성의 균형이 핵심 과제다.
mHC는 행렬에 '이중 확률' 제약을 거는 방식으로, 표현력을 포기하지 않으면서 항등 사상의 안정성을 되찾았다.
1967년의 싱크혼-크노프 알고리즘처럼 오래된 수학 기법이 최신 LLM 설계에 그대로 활용된다는 점이 인상적이다.
사전·사후 투영 행렬에는 시그모이드로 음이 아닌 값을 강제해, 양수와 음수 계수가 섞일 때 생기는 신호 상쇄와 그로 인한 불안정을 막는다.

자주 묻는 질문

잔차 연결(residual connection)이란 무엇인가요?

2016년 ResNet에서 처음 도입된 구조로, 입력 신호를 변형 없이 다음 층으로 그대로 전달하는 경로를 둔 것입니다. 모듈 F가 처리한 결과와 원래 입력을 더해 출력으로 삼으며, 덕분에 깊은 신경망에서도 정보가 잘 전달되고 기울기 소실이 완화되어 대규모 학습이 안정됩니다.

하이퍼 연결의 문제점은 무엇이었나요?

하이퍼 연결은 잔차 흐름을 여러 성분으로 넓혀 표현력을 키웠지만, 제약 없는 학습 가중치 행렬에 의존합니다. 그 결과 잔차 흐름이 항등 사상에서 벗어나 신호가 폭주하거나 사라질 수 있고, 더 크고 깊은 모델에서 학습이 불안정해집니다.

mHC는 안정성을 어떻게 회복했나요?

잔차 혼합 행렬에 두 가지 제약을 겁니다. 모든 값이 음이 아니어야 하고, 각 행과 열의 합이 1이어야 합니다. 이런 이중 확률 행렬을 싱크혼-크노프 알고리즘으로 구현해, 정보가 여러 경로로 섞이면서도 전체적으로 항등에 가까운 잔차를 유지하도록 했습니다.

실험 결과는 어땠나요?

DeepSeek V3에서 영감을 받은 MoE 구조로 27B 규모 모델을 비교했을 때, 두 하이퍼 연결 모델 모두 기준 모델을 앞섰고, 특히 mHC가 여러 벤치마크에서 가장 강한 성능을 보였습니다. 또 일반 하이퍼 연결은 약 12,000번째 학습 단계에서 손실과 기울기가 불안정해진 반면, mHC는 기준 모델에 가깝게 안정적인 학습 곡선을 유지했습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗