AI VIDEO BRIEFING

AI 그림은 어떻게 만들어지나: 잠재 공간과 확산 원리, 저작권·편향 논쟁까지 완전정리

Vox가 텍스트로 그림을 만드는 AI의 원리를 알기 쉽게 짚습니다. 방대한 이미지-설명 데이터로 학습한 500차원 이상의 잠재 공간과 확산 생성 과정, 그리고 저작권과 편향이라는 미해결 문제까지 두루 설명합니다.

출처: Vox2022년 6월 1일AI 보조 요약

AI 그림은 어떻게 만들어지나: 잠재 공간·확산, 그리고 남겨진 저작권과 편향 문제 영상 대표 이미지

핵심 메시지

텍스트-투-이미지는 2015년 이미지 캡셔닝을 거꾸로 뒤집는 발상에서 출발했고, 2016년엔 32×32 흐릿한 결과물뿐이었지만 1년 사이 급격히 발전했다.
DALL-E(2021)와 미드저니 같은 도구가 등장하며, 텍스트만으로 그림을 만드는 '프롬프트 엔지니어링'이 새로운 창작 방식이 됐다.
모델은 인터넷에서 긁어모은 수억 장의 이미지와 대체텍스트(alt text) 설명으로 학습한다.
생성 이미지는 학습 데이터를 복사하는 것이 아니라, 500차원이 넘는 '잠재 공간'의 한 지점을 확산 과정으로 그림으로 번역한 결과다.
화가 이름을 프롬프트에 넣어 화풍을 모방할 수 있어 저작권 문제가 불거지고, 데이터에 담긴 사회적 편향도 그대로 드러난다.

쉽게 이해하기

Vox는 텍스트로 그림을 만드는 AI가 갑자기 대중화된 과정을 되짚는다. 2015년 기계가 이미지를 자연어로 설명하는 '이미지 캡셔닝'이 나오자, 한 연구진은 그 과정을 거꾸로 뒤집어 '글자를 그림으로' 만들 수 있을지 실험했다. 2016년 논문의 결과는 32×32 크기의 흐릿한 얼룩 수준이었지만 가능성을 보여줬다.

그로부터 몇 년 뒤 상황은 급변했다. 2021년 오픈AI가 DALL-E를 발표하고, 공개되지 않은 모델을 대신해 오픈소스 개발자들이 텍스트-이미지 생성기를 만들었으며, 그중 일부는 미드저니로 이어졌다. 미드저니는 디스코드 봇으로 1분 안에 문장을 이미지로 바꿔주며 진입 장벽을 사실상 없앴다. 이렇게 기계와 대화하듯 단어를 고르는 기술은 '프롬프트 엔지니어링'이라 불리게 됐다.

이런 모델이 온갖 프롬프트에 반응하려면 방대하고 다양한 학습 데이터가 필요하다. 웹사이트 소유자가 접근성과 검색을 위해 올린 대체텍스트(alt text)처럼, 이미지와 그에 딸린 설명을 인터넷에서 수억 장 규모로 긁어모은다. 그런데 모델은 프롬프트를 받았을 때 학습 데이터에서 비슷한 그림을 찾아 픽셀을 베끼는 것이 아니다.

새 이미지는 딥러닝 모델의 '잠재 공간(latent space)'에서 나온다. 기계는 바나나와 풍선을 구분하려고 노란 정도, 둥근 정도, 광택 같은 변수를 스스로 찾아내는데, 이런 축이 500개가 넘게 쌓이면 인간은 이름조차 붙일 수 없는 다차원 공간이 된다. 이 공간에는 '바나나다움'이나 '1960년대 사진의 질감' 같은 의미 있는 군집이 생기고, 텍스트 프롬프트는 그 안의 특정 좌표로 우리를 데려간다.

그 좌표를 실제 그림으로 바꾸는 마지막 단계가 확산이다. 노이즈에서 시작해 여러 번 반복하며 사람이 알아볼 수 있는 구성으로 픽셀을 배열하는데, 과정에 무작위성이 있어 같은 프롬프트라도 매번 다른 그림이 나온다. 다른 데이터로 학습한 다른 모델에 넣으면 잠재 공간이 다르므로 결과도 달라진다.

기술이 강력해진 만큼 풀리지 않은 문제도 남는다. 딥러닝은 이미지를 직접 베끼지 않고도 화가 이름만으로 화풍을 흉내 낼 수 있어, 학습 데이터와 결과물을 둘러싼 저작권 논쟁이 미해결 상태다. 또한 'CEO를 그리면 나이 든 백인 남성, 간호사를 그리면 여성'처럼, 인터넷에서 학습한 사회적 편향이 그대로 반영되는 문제도 지적된다.

주요 인사이트

생성 이미지는 데이터 복사가 아니라 잠재 공간의 한 좌표를 그림으로 번역한 것이라는 점이 이 기술의 핵심 오해를 푼다.
잠재 공간의 축들은 사람이 이름 붙일 수 없는 수백 개 변수로 이루어져 있어, 모델의 '이해'는 인간의 직관과 전혀 다른 방식으로 조직된다.
무작위성 덕분에 같은 프롬프트도 매번 다른 결과를 내고, 모델이 다르면 잠재 공간이 달라 결과도 갈린다.
진입 장벽이 사라진 대신, 화풍 모방에 따른 저작권과 데이터에 스민 편향이라는 사회적 숙제가 함께 따라왔다.

자주 묻는 질문

AI는 프롬프트를 받으면 학습한 이미지를 복사하나요?

아닙니다. 생성 이미지는 학습 데이터에서 픽셀을 베끼는 것이 아니라, 딥러닝 모델의 잠재 공간에서 프롬프트가 가리키는 좌표를 찾아 확산 과정으로 새로 그려낸 결과입니다.

잠재 공간(latent space)이란 무엇인가요?

모델이 학습하며 스스로 찾아낸 수백 개(영상에서는 500개 이상)의 변수로 이루어진 다차원 공간입니다. 여기에는 '바나나다움'이나 특정 시대 사진의 질감 같은 의미 있는 군집이 생기고, 프롬프트가 그 안의 한 지점을 지정합니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗