AI VIDEO BRIEFING

알파폴드 단백질 구조 예측: AI가 푼 반세기 생물학 난제와 2024 노벨화학상

X선 결정학으로 60년간 15만 개에 그쳤던 단백질 구조를 딥마인드 알파폴드가 2억 개로 확장한 과정과, 2024년 노벨화학상으로 이어진 AI 과학 혁신을 정리했다.

출처: Veritasium2025년 2월 10일AI 보조 요약

단백질 구조 난제를 푼 알파폴드: 60년 생물학을 몇 달로 압축한 AI 영상 대표 이미지

핵심 메시지

단백질의 3차원 접힘 구조는 기능을 결정하지만, 짧은 사슬조차 가능한 접힘 수가 천문학적이어서 반세기 동안 풀리지 않은 난제였다.
딥마인드의 알파폴드2는 트랜스포머의 어텐션을 단백질에 맞게 재설계한 '에보포머'와 구조 모듈로 CASP14에서 실험값과 구별하기 어려운 정확도(90점 돌파)를 달성했다.
수십 년간 약 15만 개에 그쳤던 단백질 구조 데이터가 알파폴드로 단숨에 2억 개 이상으로 늘며, 자연계에 알려진 거의 모든 단백질이 공개됐다.
이 성과로 데미스 허사비스와 존 점퍼가 2024년 노벨화학상 절반을, 새 단백질을 설계한 데이비드 베이커가 나머지 절반을 받았다.

쉽게 이해하기

단백질은 20종의 아미노산이 펩타이드 결합으로 이어진 사슬에서 출발한다. 정전기력·수소결합·용매 상호작용이 사슬을 끌어당기고 밀어내며 고유한 3차원 형태로 접히는데, 바로 이 형태가 단백질의 기능을 좌우한다. 헤모글로빈이 산소를 운반하는 결합 부위를 갖거나 근육 단백질이 모양을 바꿔 수축하는 것이 그 예다.

구조를 알아내는 전통적 방법은 X선 결정학이었다. 단백질을 결정으로 만들어 X선을 쪼이고 회절 패턴을 거꾸로 풀어 형태를 추정하는 방식인데, 존 켄드루는 미오글로빈 구조 하나를 얻는 데 12년이 걸렸고(페루산 고래 고기로 충분한 결정을 만들었다) 1962년 노벨화학상을 받았다. 결정화는 지금도 어렵고 비용도 단백질당 수만 달러에 달해, 박사 학위 하나가 구조 하나에 해당할 정도였다.

반면 아미노산 서열을 알아내는 비용은 약 100달러에 불과하다. 그래서 서열만으로 접힘을 예측하려는 시도가 이어졌다. 라이너스 폴링은 기하학만으로 나선과 시트 같은 2차 구조를 예측했지만, 진화는 위에서부터 설계된 것이 아니라 그때그때 작동하는 것을 덧붙인 결과라 전체 구조의 규칙은 좀처럼 드러나지 않았다. 레빈탈의 계산에 따르면 아미노산 35개짜리 짧은 사슬조차 가능한 접힘이 천문학적이어서, 1나노초마다 3만 개 배열을 점검해도 정답을 찾는 데 우주 나이의 200배가 걸린다.

1994년 존 모울트는 CASP라는 경연을 열었다. 정답 구조를 모른 채 서열만 보고 구조를 예측하면, 실험으로 밝혀진 구조와 비교해 점수를 매기는 방식으로 90점을 넘으면 사실상 풀린 것으로 간주했다. 초기에는 데이비드 베이커의 로제타가 앞섰고, 유휴 컴퓨터를 모은 분산컴퓨팅과 '폴드잇' 게임으로 5만 명의 게이머가 HIV 효소 구조를 3주 만에 풀어내기도 했다. 폴드잇을 즐긴 사람 중 한 명이 알파고로 이세돌을 이긴 딥마인드의 데미스 허사비스였다.

알파폴드1은 일반적인 심층신경망으로 서열과 진화 정보(공진화로 가까운 아미노산 쌍을 추정)를 입력받아 거리·비틀림을 담은 2차원 표현을 예측한 뒤 접었고, CASP13에서 우승했지만 70점에 머물렀다. 존 점퍼가 이끈 알파폴드2는 트랜스포머 어텐션을 단백질용으로 바꾼 '에보포머'(진화 정보 탑과 기하 정보 탑이 다리로 정보를 주고받고, 삼각 부등식을 쓰는 삼각 어텐션으로 거리를 제약)와, 세 원자로 좌표계를 잡아 회전·이동을 예측하는 구조 모듈을 결합했다. 구글 TPU의 막대한 연산력까지 더해 2020년 12월 CASP14에서 실험값과 구별이 어려운 정확도로 90점을 넘겼다.

주요 인사이트

데이터가 병목이라는 통념과 달리, 알파폴드2는 알파폴드1과 같은 데이터로 학습했고 차이는 더 나은 머신러닝에서 나왔다. 알고리즘이 좋아질수록 데이터 부족의 영향은 줄어든다는 것이다.
구조 모듈은 사슬이라는 제약을 명시적으로 알려주지 않고 아미노산을 '한 봉지'처럼 따로 배치하게 둔다. 사슬이라는 구속에 갇히지 않아 더 자유롭게 정답을 찾고, 연결성은 나중에 자연스럽게 떠오른다.
알파폴드는 말라리아 백신 개발, 항생제 내성 효소 분해, 조현병·암 같은 질병의 돌연변이 이해를 앞당겼다. 논문은 3만 회 이상 인용되며 전 세계 연구를 수십 년 단축했다.
노벨상의 나머지 절반은 새 단백질을 처음부터 설계한 데이비드 베이커에게 돌아갔다. 그의 'RF 디퓨전'은 그림 생성 AI처럼 노이즈를 더했다 제거하도록 학습해, 뱀독을 중화하는 인체 적합 항체나 온실가스·플라스틱 분해 효소를 며칠 만에 만들어낸다.
단백질을 넘어 딥마인드의 GNoME는 220만 개의 새 결정을 찾았고 그중 40만 개 이상이 안정한 물질이다. 2배가 아니라 10만 배의 가속은 과학을 하는 방식 자체를 바꾼다.

자주 묻는 질문

단백질에서 왜 '구조'가 그렇게 중요한가?

단백질은 특정 목적에 맞춘 분자 기계라서 3차원 형태가 기능을 결정한다. 헤모글로빈의 산소 결합 부위처럼 모양이 맞아야 제 역할을 하고, 근육 단백질은 모양을 바꿔 수축한다. 같은 아미노산 사슬이라도 어떻게 접히느냐에 따라 작동 여부가 달라진다.

알파폴드는 얼마나 많은 단백질 구조를 밝혀냈나?

전 세계 과학자들이 60여 년간 실험으로 알아낸 구조는 약 15만 개였다. 알파폴드는 단숨에 2억 개 이상을 공개했는데, 이는 자연계에 알려진 거의 모든 단백질에 해당한다. 영상에 따르면 알파폴드2 논문은 3만 회 이상 인용됐다.

2024년 노벨화학상은 누가, 무엇으로 받았나?

절반은 단백질 구조 예측을 해낸 딥마인드의 데미스 허사비스와 존 점퍼에게, 나머지 절반은 완전히 새로운 단백질을 설계한 데이비드 베이커에게 돌아갔다. 베이커는 로제타가 아니라 생성형 AI 기반의 단백질 설계로 수상했다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗