AI VIDEO BRIEFING

IBM 서브 1나노미터 칩: 나노스택 7옹스트롬으로 AI 컴퓨팅 성능 50% 향상

IBM이 트랜지스터를 수직으로 쌓는 나노스택 기술로 2나노 대비 성능 50%·전력 70%를 개선했다. 토큰 절감과 모델 오케스트레이션 흐름도 함께 짚는다.

IBM, 60년 만에 트랜지스터를 위로 쌓다 — 7옹스트롬 나노스택과 AI 시대의 칩 영상 대표 이미지

핵심 메시지

  • IBM이 발표한 7옹스트롬(서브 1나노미터) 기술은 반도체 60여 년 역사상 처음으로 트랜지스터를 수직(Z축)으로 쌓아 올린다.
  • 현재 양산 최고 수준인 2나노 대비 성능은 50% 향상되거나 전력은 70% 절감되며, AI 연산에 중요한 SRAM 면적도 40% 줄어든다.
  • '나노스택'은 두 개의 나노시트를 수직으로 쌓고 어긋나게(staggered) 배치한 뒤 얇은 절연막으로 본딩해, 상·하단 소자를 각각 최적화한다.
  • 업계 화두는 '토큰 맥싱'에서 '토큰 절감'으로 옮겨가고 있으며, 모든 토큰이 같은 비용이 아니라는 효율 관점이 부상한다.
  • 사카나 후구(Fugu)·ZAI GLM 5.2 등 새 모델은 단일 모델보다 '오케스트레이션'이 제품의 핵심이 되는 흐름을 보여준다.

쉽게 이해하기

IBM 테크놀로지의 팟캐스트 '믹스처 오브 엑스퍼츠'가 이번 주 AI 뉴스를 다루며, 특별 코너에서 IBM 실리콘 기술 연구개발 부사장 후밍 부와 서브 1나노미터 칩을 이야기했다. 핵심은 트랜지스터를 평면(2D)에서 입체(3D)로 옮긴 것이다. 1959년 MOSFET 발명 이후 업계는 리소그래피로 X·Y 방향에서 소자를 줄여 왔지만, 이제 그 평면적 미세화가 한계에 다다랐다. IBM은 처음으로 소자를 Z축, 즉 수직 방향으로 쌓아 새로운 미세화의 차원을 열었다.

이 '나노스택' 구조는 두 개의 나노시트를 위아래로 쌓되 완전히 겹치지 않게 어긋나게 배치한다. 두 소자는 리소·식각으로 한 번에 깎는 것이 아니라 얇은 절연막으로 접합되기 때문에, 상단과 하단 소자에 각각 최적의 재료를 골라 독립적으로 성능을 끌어올릴 수 있다. 각 소자의 앞면과 뒷면 모두에 신호선·전원선을 직접 연결할 수 있어 집적도 측면에서도 큰 이점을 준다. 손톱만 한 칩에 약 1,000억 개의 트랜지스터가 들어간다.

성능은 현재 양산되는 최고 칩인 2나노(2021년 발표) 대비 50% 빨라지거나 같은 연산에서 전력을 70% 아낀다. 노드 이름은 더 이상 실제 물리 치수가 아니라 세대 표시에 가깝지만, 세대마다 0.7의 스케일링 비율(0.7×0.7≈0.49로 면적이 절반 가까이 줄어듦)은 실제로 유지된다. 시트 두께는 약 5나노로, 4나노까지도 문턱전압의 양자 구속 효과는 관측되지 않았다. 다만 수직으로 쌓으면 열을 빼낼 경로가 줄어 별도의 열전도 설계가 필요하다.

이 칩이 중요한 이유는 결국 AI다. 생성형 AI와 점점 무거워지는 AI 워크로드가 연산 수요를 끌어올리는 것이 개발의 근본 동기다. 특히 AI 연산은 메모리에 의존하는데, 나노스택은 연산부에 내장되는 SRAM 면적을 2나노 대비 40% 줄여 10여 년 만의 최대 폭으로 메모리 집적도를 높인다. IBM은 이 구조가 향후 10~15년의 미세화 로드맵을 열어준다고 본다.

에피소드의 나머지 절반은 모델과 운영 비용을 다뤘다. 뉴욕타임스가 '토큰 마이닝' 현상을 소개한 뒤, 패널은 더 많은 토큰이 곧 생산성이라는 '토큰 맥싱'에서 '어떻게 최소 토큰으로 끝낼까'라는 절감으로 무게추가 옮겨갔다고 진단했다. 우버·마이크로소프트 같은 기업이 클라우드 모델 사용을 제한하기 시작했고, 패널은 모든 토큰이 같은 비용이 아니라는 점(로컬 모델 토큰은 사실상 공짜)을 들어 '채굴'보다 '효율'이 맞는 비유라고 강조했다.

주요 인사이트

  • 미세화의 다음 동력은 평면 축소가 아니라 수직 적층이다. 나노스택은 상·하 소자를 따로 최적화할 수 있어 재료 선택의 자유도까지 넓힌다.
  • AI 칩의 병목은 연산만이 아니라 메모리다. SRAM 면적 40% 축소는 온칩 메모리 밀도를 높여 AI 연산 효율에 직접 기여한다.
  • 사카나 후구는 새 모델이라기보다 여러 프런티어 모델로 요청을 라우팅하는 오케스트레이션 계층에 가깝다. 항상 답은 주지만 어느 모델로 라우팅되는지에 따라 품질 편차가 커진다.
  • ZAI의 GLM 5.2는 클로드 소네트 4.6에 맞먹는 거대 오픈웨이트 코딩 모델로, 더 이상 노트북에서 돌릴 수 없을 만큼 커져 호스팅·거버넌스 문제를 새로 던진다.
  • 토큰 효율의 핵심은 로컬 오프로딩이다. 300억~1,000억 파라미터급 모델로 리서치·기본 코드·요약을 처리하고, 가장 어려운 문제에만 값비싼 프런티어 모델을 쓰는 분업이 부상한다.

자주 묻는 질문

7옹스트롬(서브 1나노미터) 기술이 기존 2나노와 무엇이 다른가요?

같은 연산에서 2나노 대비 성능이 50% 높아지거나 전력을 70% 아낄 수 있고, SRAM 면적은 40% 줄어듭니다. 무엇보다 트랜지스터를 평면이 아니라 수직으로 쌓는 첫 사례라는 점이 다릅니다.

나노스택 구조는 어떻게 집적도를 높이나요?

두 나노시트를 수직으로 쌓고 어긋나게 배치한 뒤 얇은 절연막으로 접합합니다. 두 소자를 각각 최적의 재료로 독립 최적화할 수 있고, 앞·뒷면 모두에 신호·전원선을 직접 연결할 수 있어 밀도가 크게 올라갑니다.

'토큰 맥싱에서 토큰 절감으로'라는 말은 무슨 뜻인가요?

한때 기업들은 토큰 소비량을 AI 활용도의 지표로 삼아 더 많이 쓰도록 독려했지만, 비용이 빠르게 불어나자 같은 일을 최소한의 토큰으로 끝내려는 방향으로 바뀌고 있다는 뜻입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식

#IBM#반도체#나노스택#AI칩#토큰효율