AI VIDEO BRIEFING
웨이모 자율주행 인식 원리: 라이다 점구름과 카메라를 결합한 4D 3D 물체탐지
테슬라의 카메라 전용 방식과 달리 라이다와 카메라를 함께 쓰는 웨이모의 인식 구조를, 점구름·RGB 영상을 시간축까지 묶어 3D 물체를 탐지하는 구글·웨이모 연구로 풀어 설명한다.

핵심 메시지
쉽게 이해하기
자율주행차가 세상을 어떻게 보는지는 차를 도로에 올리기 위해 꼭 이해해야 할 문제다. 규제를 만드는 쪽이나 서비스를 이용하는 쪽 모두에게 중요하다. 테슬라 오토파일럿은 카메라만으로 세상을 파악하지만, 웨이모 같은 일반적인 자율주행차는 보통 카메라와 3D 라이다 센서를 함께 쓴다.
라이다는 카메라처럼 이미지를 만들지 않고 3D 점구름을 만든다. 대상에 쏜 레이저 펄스가 돌아오는 시간을 계산해 거리를 재는 방식이라, 데이터 포인트는 적지만 거리 정보가 매우 정확하다. 점구름은 올바른 위치에 찍힌 수많은 점들로 세상의 3D 모형을 만드는데, 그 자체로는 무엇인지 알아보기 어려워도 적은 정보로 실시간 연산을 효율화한다는 점이 자율주행에 핵심적이다.
그래서 라이다의 정확한 거리 정보에 RGB 이미지의 정확한 물체 정보를 더한다. 라이다만으로는 특히 멀리 있는 물체나 사람을 파악하기 어렵기 때문이다. 웨이모와 구글 리서치의 연구 모델은 시간축을 포함한 점구름(PCIT)과 RGB 영상을 입력으로 받는데, 둘 다 3차원 공간에 시간을 더한 4차원 데이터다. 과거 프레임을 참고해 맥락을 이해하고 미래 행동을 추정하는 방식은 사람이 세상을 보는 방식과 닮았다. 이 과제를 컴퓨터비전에서는 '장면 이해(scene understanding)'라 부른다.
두 신경망은 연결을 통해 끊임없이 정보를 주고받는다. 같은 장면에도 가까운 차는 크게, 먼 차는 작게 보이는데 둘 다 고려해야 하기 때문이다. 신경망은 고정 크기의 작은 검출기로 이미지를 압축하므로 초기 층은 작은 물체와 가장자리를, 깊은 층은 큰 물체를 정밀하게 잡아낸다. 그래서 여러 층의 정보를 추출·공유해 멀리 있는 물체의 부족한 세부를 보완한다.
가장 큰 과제는 성격이 다른 두 데이터, 즉 라이다의 3D 공간 정보와 RGB 프레임을 합치는 일이다. 이 변환은 자기어텐션과 비슷한 방식으로 학습 중에 익혀진다. 이를 돕기 위해 '포인트필러스'로 점구름을 2차원 '유사 이미지'로 바꾸는데, 픽셀의 색 대신 깊이와 x·y·z 좌표를 담고 중요한 물체 주변만 정보가 조밀한 희소 표현이다. 두 갈래는 합성곱신경망(CNN)으로 이미지를 부호화한 뒤 복호화해 3D 표현을 재구성한다. 그 결과 차는 32개의 시간축 점구름과 16개의 RGB 프레임을 164밀리초 만에 처리하며, 거의 두 배(300밀리초) 걸리는 차선책보다 빠르고 정확한 결과를 낸다.
주요 인사이트
- 라이다와 카메라는 상호 보완적이다. 라이다는 거리를 정확히 재지만 무엇인지 알아보기 어렵고, 카메라는 물체를 잘 식별하지만 거리가 부정확하다. 둘을 합쳐야 멀리 있는 사람·물체까지 안정적으로 인식한다.
- 신경망의 얕은 층과 깊은 층이 각각 작은 물체와 큰 물체에 강하다는 점을 활용해, 층 사이 정보를 공유하면 다양한 거리·크기의 물체를 함께 잡아낼 수 있다.
- 성격이 다른 라이다와 카메라 데이터를 잇는 핵심은 점구름을 RGB와 같은 2차원 형태의 '유사 이미지'로 바꿔주는 포인트필러스이며, 두 데이터의 변환 자체를 학습으로 익힌다.
- 시간축(4차원)을 입력에 포함하면 과거 프레임으로 맥락을 이해하고 미래 행동을 추정할 수 있어, 사람의 인식과 유사한 장면 이해가 가능해진다.
자주 묻는 질문
웨이모와 테슬라의 인식 방식은 어떻게 다른가?
테슬라 오토파일럿은 카메라만으로 세상을 파악한다. 반면 웨이모를 비롯한 대다수 자율주행차는 일반 카메라와 3D 라이다 센서를 함께 사용해, 카메라의 물체 식별 능력과 라이다의 정확한 거리 정보를 결합한다.
라이다는 카메라와 무엇이 다른가?
라이다는 이미지를 만들지 않고 레이저 펄스의 왕복 시간으로 거리를 재 '점구름'을 만든다. 데이터 포인트는 적지만 거리 정보가 정확하고 실시간 연산에 효율적이다. 다만 점만으로는 대상이 무엇인지 알아보기 어려워 카메라 정보가 함께 필요하다.
이 모델의 처리 속도는 어느 정도인가?
영상에 따르면 이 모델은 시간축을 포함한 점구름 32개와 RGB 프레임 16개를 164밀리초 만에 처리한다. 거의 두 배인 300밀리초가 걸리는 차선책보다 빠르면서도 더 정확한 3D 물체탐지 결과를 낸다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗