AI VIDEO BRIEFING

스튜어트 러셀 AI 윤리 강연 정리: AGI 통제와 인간 선호 기반 안전한 AI 만들기

UC버클리 스튜어트 러셀 교수가 AGI의 위험과 통제 문제를 강연했다. 현재 AI가 왜 '거대한 블랙박스'인지, 그리고 인간의 선호를 따르는 증명 가능한 안전 AI를 설계하는 두 가지 원칙을 사례와 함께 정리했다.

스튜어트 러셀 "AI 윤리는 결국 상식의 문제" — 통제 가능한 AI를 위한 두 가지 원칙 영상 대표 이미지

핵심 메시지

  • AI가 인간을 넘어서면 어떻게 될지에 대한 질문을, 우리는 오랫동안 진지하게 던지지 않았다.
  • 현재의 AI는 내부 작동 원리를 아무도 모르는 '거대한 블랙박스'로, 설계했다기보다 더 큰 새를 교배하듯 키워낸 것에 가깝다.
  • 번역·알파폴드·과학 시뮬레이션 같은 큰 성공이 있었지만, 자율주행·산수·바둑에서 드러난 실패는 AI가 원리를 이해하지 못했음을 보여준다.
  • 안전한 선택지는 '증명 가능하게 안전하고 통제 가능한 AI'이거나 'AI를 아예 만들지 않는 것'뿐인데, 현실은 이해하지 못하는 세 번째 길을 가고 있다.
  • 증명 가능하게 유익한 AI는 '인간의 선호를 따르는 것을 유일한 목표로 삼되, 그 선호가 무엇인지 모른다는 사실을 아는' 두 원칙 위에 세워진다.

쉽게 이해하기

UC버클리의 스튜어트 러셀 교수는 강연 주제가 'AI 윤리'이지만 자신은 오히려 '상식'에 대해 말하겠다고 밝혔다. 우리가 마주한 큰 질문들은 사실 윤리 문제라기보다 상식의 문제라는 것이다. AI의 목표는 1940년대 이래 늘 '모든 관련 차원에서 인간 지능을 넘어서는 기계', 즉 오늘날의 AGI를 만드는 것이었지만, '만약 그 목표에 성공하면 어떻게 되는가'라는 결정적 질문은 오랫동안 던져지지 않았다.

러셀은 현재의 AI가 라이트 형제의 비행기와는 다르다고 지적한다. 라이트 형제는 추력·항력·양력을 직접 계산해 비행기가 날 것을 알았지만, 지금의 AI는 약 1조 개의 조정 가능한 요소로 이뤄진 거대한 회로를 무수히 무작위로 변형시켜 '대략 지능처럼 보이게' 만든 블랙박스다. 그는 이를 비행기를 설계하는 대신 점점 더 큰 새를 교배해 사람을 태우려는 시도에 비유하며, 이런 방식으로는 원리에 대한 이해가 없어 결국 쓸모가 제한된다고 말한다.

지난 10년의 딥러닝은 기계 번역, 단백질 구조를 예측하는 알파폴드, 몇 주 걸리던 시뮬레이션을 몇 초로 줄이는 과학 계산, 생성적 설계, 알파고 같은 큰 성공을 낳았다. 그러나 러셀은 실패도 뚜렷하다고 강조한다. 1993년부터 연구된 자율주행차는 아직도 완성되지 않았고, 대형 언어 모델은 수백만 개의 예시에도 산수를 제대로 못 하며(원리 대신 일종의 조회표를 학습), 초인적이라던 바둑 프로그램조차 특정 형태의 돌 배치를 인식하지 못해 아마추어에게 열 판을 내리 지기도 한다.

러셀은 성공하려면 인간처럼 소수의 예시만으로 효율적으로 배우는 돌파구가 더 필요하다고 본다. 현재 AGI에는 맨해튼 프로젝트의 10배, 거대강입자가속기의 100배에 해당하는 자금(추정 약 5000억 달러)이 투입되고 있어 성공 압박이 크지만, 학습에 쓸 텍스트가 우주에 충분치 않을 수 있고 규모를 100배 키운다고 능력이 비례해 오른다는 원리도 없어 거품이 꺼질 가능성도 언급한다.

성공이 왜 인류 역사상 가장 큰 사건인지에 대해, 러셀은 상방으로는 모두에게 서구 중산층 수준의 삶을 제공해 세계 GDP를 열 배로 키울 수 있고 그 순현재가치가 약 1.5경(15 quadrillion) 달러에 이른다고 말한다. 반대로 하방은 인간이 유아처럼 무력해지는 '월-E' 세계, 그리고 인간 멸종이다. 그는 우리보다 강력한 존재를 영원히 통제할 방법이 없다는 점에서 이것이 윤리가 아니라 상식의 문제라고 다시 강조한다.

주요 인사이트

  • 러셀은 안전한 길은 '증명 가능하게 안전하고 통제 가능한 AI'이거나 'AI가 전혀 없는 것' 둘뿐이며, 지금 인류는 이해하지 못하는 블랙박스를 더 강하게 만드는 위험한 세 번째 길을 가고 있다고 진단한다.
  • 증명 가능하게 유익한 AI의 두 원칙은 (1) 기계의 유일한 목표는 인간의 선호를 증진하는 것, (2) 기계는 그 선호가 정확히 무엇인지 모른다는 사실을 안다는 것이다. 이 문제를 잘 풀수록 인간에게 이득이 된다.
  • '선호'는 피자 취향 같은 것이 아니라 불확실성을 고려한 '우주의 미래에 대한 순위 매기기'를 뜻한다. 80억 인구가 있으므로 기계는 최소 80억 개의 선호 모델을 가져야 한다.
  • 선호는 태어날 때부터 주어진 것이 아니라 문화와 양육에서 형성되며, 억압받는 이가 억압을 받아들이도록 훈련된 경우처럼 '적응된 선호'를 그대로 따라야 하는지 등 어려운 윤리 문제(아마르티아 센의 문제의식, 공리주의의 집계 문제)를 낳는다.
  • 인간의 핵심 선호 중 하나는 '자율성', 즉 자신의 최선의 이익에 반하는 선택을 할 권리다. 그래서 인간과 우월한 기계의 만족스러운 공존이 존재하지 않을 수도 있으며, 잘 설계된 AI라면 그 사실을 알고 스스로 물러날 것이라고 러셀은 말한다.

자주 묻는 질문

러셀은 왜 지금의 AI를 '거대한 블랙박스'라고 부르나?

약 1조 개의 조정 가능한 요소로 이뤄진 회로를 무수한 무작위 변형으로 '대략 지능처럼' 행동하게 만들었을 뿐, 그것이 어떻게 작동하는지 아무도 모르기 때문이다. 그는 이를 비행기를 설계하는 대신 더 큰 새를 교배하는 일에 비유한다.

초인적이라던 바둑 AI가 실패했다는 근거는 무엇인가?

특정 형태(특히 원형으로 연결된 돌 무리)를 하나의 그룹으로 인식하지 못하는 약점이 발견되어, 프로도 아닌 평범한 아마추어가 아홉 점 접바둑을 두고도 초인급 프로그램을 열 판 중 열 판 이기는 사례가 나왔다.

증명 가능하게 유익한 AI를 만드는 두 원칙은?

첫째, 기계의 유일한 목표는 인간의 선호를 증진하는 것이다. 둘째, 기계는 그 선호가 무엇인지 자신이 모른다는 사실을 안다. 이 두 원칙 위에서 기계가 문제를 잘 풀수록 인간이 더 나아진다.

러셀이 말하는 성공의 상방과 하방은 각각 무엇인가?

상방은 모두에게 풍요로운 삶을 제공해 세계 GDP를 약 열 배로 키우는 것(순현재가치 약 1.5경 달러)이고, 하방은 인간이 유아처럼 무력해지는 세계와 인간 멸종이다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식