AI VIDEO BRIEFING

스튜어트 러셀 AI 윤리 강연 정리: AGI 통제와 인간 선호 기반 안전한 AI 만들기

UC버클리 스튜어트 러셀 교수가 AGI의 위험과 통제 문제를 강연했다. 현재 AI가 왜 '거대한 블랙박스'인지, 그리고 인간의 선호를 따르는 증명 가능한 안전 AI를 설계하는 두 가지 원칙을 사례와 함께 정리했다.

출처: World Knowledge Forum2025년 1월 4일AI 보조 요약

스튜어트 러셀 "AI 윤리는 결국 상식의 문제" — 통제 가능한 AI를 위한 두 가지 원칙 영상 대표 이미지

핵심 메시지

AI가 인간을 넘어서면 어떻게 될지에 대한 질문을, 우리는 오랫동안 진지하게 던지지 않았다.
현재의 AI는 내부 작동 원리를 아무도 모르는 '거대한 블랙박스'로, 설계했다기보다 더 큰 새를 교배하듯 키워낸 것에 가깝다.
번역·알파폴드·과학 시뮬레이션 같은 큰 성공이 있었지만, 자율주행·산수·바둑에서 드러난 실패는 AI가 원리를 이해하지 못했음을 보여준다.
안전한 선택지는 '증명 가능하게 안전하고 통제 가능한 AI'이거나 'AI를 아예 만들지 않는 것'뿐인데, 현실은 이해하지 못하는 세 번째 길을 가고 있다.
증명 가능하게 유익한 AI는 '인간의 선호를 따르는 것을 유일한 목표로 삼되, 그 선호가 무엇인지 모른다는 사실을 아는' 두 원칙 위에 세워진다.

쉽게 이해하기

UC버클리의 스튜어트 러셀 교수는 강연 주제가 'AI 윤리'이지만 자신은 오히려 '상식'에 대해 말하겠다고 밝혔다. 우리가 마주한 큰 질문들은 사실 윤리 문제라기보다 상식의 문제라는 것이다. AI의 목표는 1940년대 이래 늘 '모든 관련 차원에서 인간 지능을 넘어서는 기계', 즉 오늘날의 AGI를 만드는 것이었지만, '만약 그 목표에 성공하면 어떻게 되는가'라는 결정적 질문은 오랫동안 던져지지 않았다.

러셀은 현재의 AI가 라이트 형제의 비행기와는 다르다고 지적한다. 라이트 형제는 추력·항력·양력을 직접 계산해 비행기가 날 것을 알았지만, 지금의 AI는 약 1조 개의 조정 가능한 요소로 이뤄진 거대한 회로를 무수히 무작위로 변형시켜 '대략 지능처럼 보이게' 만든 블랙박스다. 그는 이를 비행기를 설계하는 대신 점점 더 큰 새를 교배해 사람을 태우려는 시도에 비유하며, 이런 방식으로는 원리에 대한 이해가 없어 결국 쓸모가 제한된다고 말한다.

지난 10년의 딥러닝은 기계 번역, 단백질 구조를 예측하는 알파폴드, 몇 주 걸리던 시뮬레이션을 몇 초로 줄이는 과학 계산, 생성적 설계, 알파고 같은 큰 성공을 낳았다. 그러나 러셀은 실패도 뚜렷하다고 강조한다. 1993년부터 연구된 자율주행차는 아직도 완성되지 않았고, 대형 언어 모델은 수백만 개의 예시에도 산수를 제대로 못 하며(원리 대신 일종의 조회표를 학습), 초인적이라던 바둑 프로그램조차 특정 형태의 돌 배치를 인식하지 못해 아마추어에게 열 판을 내리 지기도 한다.

러셀은 성공하려면 인간처럼 소수의 예시만으로 효율적으로 배우는 돌파구가 더 필요하다고 본다. 현재 AGI에는 맨해튼 프로젝트의 10배, 거대강입자가속기의 100배에 해당하는 자금(추정 약 5000억 달러)이 투입되고 있어 성공 압박이 크지만, 학습에 쓸 텍스트가 우주에 충분치 않을 수 있고 규모를 100배 키운다고 능력이 비례해 오른다는 원리도 없어 거품이 꺼질 가능성도 언급한다.

성공이 왜 인류 역사상 가장 큰 사건인지에 대해, 러셀은 상방으로는 모두에게 서구 중산층 수준의 삶을 제공해 세계 GDP를 열 배로 키울 수 있고 그 순현재가치가 약 1.5경(15 quadrillion) 달러에 이른다고 말한다. 반대로 하방은 인간이 유아처럼 무력해지는 '월-E' 세계, 그리고 인간 멸종이다. 그는 우리보다 강력한 존재를 영원히 통제할 방법이 없다는 점에서 이것이 윤리가 아니라 상식의 문제라고 다시 강조한다.

주요 인사이트

러셀은 안전한 길은 '증명 가능하게 안전하고 통제 가능한 AI'이거나 'AI가 전혀 없는 것' 둘뿐이며, 지금 인류는 이해하지 못하는 블랙박스를 더 강하게 만드는 위험한 세 번째 길을 가고 있다고 진단한다.
증명 가능하게 유익한 AI의 두 원칙은 (1) 기계의 유일한 목표는 인간의 선호를 증진하는 것, (2) 기계는 그 선호가 정확히 무엇인지 모른다는 사실을 안다는 것이다. 이 문제를 잘 풀수록 인간에게 이득이 된다.
'선호'는 피자 취향 같은 것이 아니라 불확실성을 고려한 '우주의 미래에 대한 순위 매기기'를 뜻한다. 80억 인구가 있으므로 기계는 최소 80억 개의 선호 모델을 가져야 한다.
선호는 태어날 때부터 주어진 것이 아니라 문화와 양육에서 형성되며, 억압받는 이가 억압을 받아들이도록 훈련된 경우처럼 '적응된 선호'를 그대로 따라야 하는지 등 어려운 윤리 문제(아마르티아 센의 문제의식, 공리주의의 집계 문제)를 낳는다.
인간의 핵심 선호 중 하나는 '자율성', 즉 자신의 최선의 이익에 반하는 선택을 할 권리다. 그래서 인간과 우월한 기계의 만족스러운 공존이 존재하지 않을 수도 있으며, 잘 설계된 AI라면 그 사실을 알고 스스로 물러날 것이라고 러셀은 말한다.

자주 묻는 질문

러셀은 왜 지금의 AI를 '거대한 블랙박스'라고 부르나?

약 1조 개의 조정 가능한 요소로 이뤄진 회로를 무수한 무작위 변형으로 '대략 지능처럼' 행동하게 만들었을 뿐, 그것이 어떻게 작동하는지 아무도 모르기 때문이다. 그는 이를 비행기를 설계하는 대신 더 큰 새를 교배하는 일에 비유한다.

초인적이라던 바둑 AI가 실패했다는 근거는 무엇인가?

특정 형태(특히 원형으로 연결된 돌 무리)를 하나의 그룹으로 인식하지 못하는 약점이 발견되어, 프로도 아닌 평범한 아마추어가 아홉 점 접바둑을 두고도 초인급 프로그램을 열 판 중 열 판 이기는 사례가 나왔다.

증명 가능하게 유익한 AI를 만드는 두 원칙은?

첫째, 기계의 유일한 목표는 인간의 선호를 증진하는 것이다. 둘째, 기계는 그 선호가 무엇인지 자신이 모른다는 사실을 안다. 이 두 원칙 위에서 기계가 문제를 잘 풀수록 인간이 더 나아진다.

러셀이 말하는 성공의 상방과 하방은 각각 무엇인가?

상방은 모두에게 풍요로운 삶을 제공해 세계 GDP를 약 열 배로 키우는 것(순현재가치 약 1.5경 달러)이고, 하방은 인간이 유아처럼 무력해지는 세계와 인간 멸종이다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗