AI VIDEO BRIEFING

머신러닝이란? 어린이부터 전문가까지 5단계로 보는 ML 핵심

컴퓨터 과학자가 어린이·고등학생·대학생·박사·전문가 5단계로 머신러닝을 설명한다. 지도·비지도·강화·딥러닝의 차이와 데이터 편향 문제까지 쉽게 정리했다.

출처: WIRED2021년 8월 18일AI 보조 요약

개·고양이 구분부터 데이터 편향까지…머신러닝을 5단계 난이도로 이해하기 영상 대표 이미지

핵심 메시지

머신러닝은 컴퓨터가 대량의 데이터에서 패턴을 학습해, 한 번도 본 적 없는 새로운 것에도 그 패턴을 적용하도록 가르치는 기술이다.
기계는 같은 것을 익히는 데 수만~수백만 개의 예시가 필요하지만, 사람은 한두 개의 예시만으로도 새로운 개념을 배우고 판단에 활용한다.
지도학습·비지도학습·강화학습·딥러닝은 데이터의 형태와 풀려는 문제에 따라 골라 쓰는 서로 다른 도구이며, 잘못 고르면 정확해도 쓸모없는 시스템이 될 수 있다.
인터넷 텍스트로 학습한 언어 모델은 그 데이터에 담긴 편향까지 그대로 재현하므로, 편향을 측정하고 투명하게 공개하는 일이 중요하다.
머신러닝의 진짜 어려움은 수학이 아니라 데이터의 대표성·품질·편향과 '무엇을 위해 쓰는가'라는 더 큰 그림에 있다.

쉽게 이해하기

컴퓨터 과학자 힐러리 메이슨은 머신러닝을 다섯 단계의 난이도로 설명한다. 가장 기본은 '많은 예시를 보고 패턴을 배워, 본 적 없는 새것을 추측하게 만드는 것'이다. 어린이와의 대화에서 그는 개와 고양이 사진을 분류해 보이며, 기계도 사람처럼 '추측'을 하지만 사람만큼 잘하려면 수만~수백만 장의 예시가 필요하다고 설명한다. 흥미롭게도 아이는 사람 사진을 보고 '개도 고양이도 아닌 사람'이라며 질문 자체를 거부했는데, 이는 기계가 쉽게 하지 못하는 일이다.

고등학생 단계에서는 현실 속 머신러닝으로 추천 시스템과 광고 타게팅이 등장한다. 좋아하는 가수와 비슷한 곡을 추천하는 원리, 그리고 사람들이 개별적으로는 새로운 이야기를 하지만 집합적으로는 꽤 예측 가능하다는 점을 짚는다. 우리가 이미 제공한 데이터만으로도 기업이 어떤 광고를 보여줄지 예측한다는 설명은, 추천이 '마음을 읽는' 듯 느껴지는 이유를 알려준다.

대학생 단계에서는 스팸 분류를 예로 피처 엔지니어링 개념이 나온다. 어떤 키워드나 발신자 이력이 분류에 도움이 될지 사람이 골라내는 과정이다. 이어 지도학습(레이블이 있는 데이터로 분류), 비지도학습(레이블 없이 군집 같은 구조를 찾기), 강화학습(게임의 한 수처럼 시행착오로 학습), 딥러닝(신경망과 대량 데이터로 예측)의 차이가 정리된다. 룸바 로봇이 방을 돌며 부딪히고 학습하는 예가 강화학습으로 소개된다.

박사과정 단계에서는 자연어 처리와 모델의 편향이 다뤄진다. 다음에 올 단어를 예측하도록 학습한 모델은 인터넷 텍스트의 분포를 그대로 따라가므로, 때로 부적절하거나 편향된 말을 한다. '그 여성은~' 대 '그 남성은~' 같은 프롬프트로 자주 쓰이는 단어를 비교하는 정성적 방법이 소개되며, 시스템을 만드는 사람이 한계를 솔직히 공개해 사용자가 위험도를 스스로 판단하게 해야 한다는 점이 강조된다.

마지막 전문가 단계에서는 도구의 민주화가 화두다. 예전에 500줄의 까다로운 코드가 필요했던 일을 이제 5줄로 해낼 만큼 접근성이 좋아졌다. 그러나 진짜 과제는 수학이 아니라, 데이터가 충분히 대표성을 갖는지·품질이 높은지·어떤 편향이 들어 있는지, 그리고 채택을 위해 얼마나 투명하게 만들어야 하는지다. 현실 데이터의 편향이 자동화된 의사결정으로 증폭될 수 있다는 경고와 함께, 그럼에도 기술이 해악을 줄이고 더 나은 결정을 돕는 잠재력에 대한 낙관으로 마무리된다.

주요 인사이트

사람과 기계의 강점은 정반대다. 기계는 틱톡의 모든 영상을 분석하듯 대량 처리에 뛰어나지만, 사람은 한두 예시로 배우고 판단하며 아직 없는 미래를 상상하는 창의에서 앞선다.
정확한 예측이 항상 유용한 것은 아니다. 한 통신사는 고객 이탈을 정확히 예측하는 딥러닝 모델을 만들었지만 '왜' 떠나는지 설명하지 못해 쓸모가 없었다. 그래서 정확한 예측 위에 해석 가능한 시스템을 다시 얹어야 했다.
딥러닝과 단순 선형회귀 중 무엇을 쓸지는 데이터 양·품질과 '해석 가능성이 얼마나 필요한가'에 달려 있다. 무조건 복잡한 모델이 정답은 아니다.
언어 모델의 편향은 모델의 결함이라기보다 학습 데이터인 '인터넷'을 반영한 결과다. 따라서 편향을 없앴다고 단언하기보다 측정하고 솔직히 공개하는 태도가 현실적이다.
머신러닝이 5줄 코드로 쉬워진 시대일수록, 데이터가 어떻게 수집됐고 무엇에 쓰일지 고민하는 '큰 그림' 역량이 단순 프로그래밍 실력보다 중요해진다.

자주 묻는 질문

머신러닝을 한마디로 정의하면 무엇인가요?

컴퓨터에게 많은 예시 데이터를 보여줘 패턴을 배우게 하고, 한 번도 본 적 없는 새로운 것에도 그 패턴을 적용해 추측하도록 가르치는 기술입니다. 영상에서는 개와 고양이 사진 분류처럼 '예시를 통한 학습'으로 설명합니다.

지도학습·비지도학습·강화학습·딥러닝은 어떻게 다른가요?

지도학습은 레이블이 붙은 데이터로 무엇이 어느 범주인지 구분하고, 비지도학습은 레이블 없이 군집 같은 숨은 구조를 찾습니다. 강화학습은 게임의 한 수처럼 시행착오를 반복하며 목표에 도달하는 법을 배우고, 딥러닝은 신경망과 대량의 데이터로 예측합니다. 문제와 데이터의 형태에 따라 골라 씁니다.

AI 언어 모델은 왜 편향된 말을 하나요?

이런 모델은 인터넷의 방대한 텍스트로 '다음에 올 단어'를 예측하도록 학습합니다. 그래서 학습 데이터에 담긴 편향까지 그대로 재현하게 됩니다. 영상은 편향을 완전히 없앴다고 단언하기보다, 측정해 한계를 솔직히 공개함으로써 사용자가 위험도를 판단하게 하는 것이 중요하다고 말합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗