AI VIDEO BRIEFING

AssemblyAI Universal-3.5 Pro: 실시간 음성인식·19개 언어 코드스위칭

AssemblyAI의 최신 실시간 음성인식 모델 Universal-3.5 Pro가 프롬프트 기반 문맥 인식, 19개 언어 코드스위칭, 보이스 포커스로 어떻게 정확도를 끌어올리는지 데모로 살펴본다.

실시간 음성 인식의 새 기준: AssemblyAI 'Universal-3.5 Pro' 라이브 데모 영상 대표 이미지

핵심 메시지

  • Universal-3.5 Pro는 19개 언어를 지원하고 코드스위칭(언어 전환)을 기본 내장한 실시간 음성인식 모델로, 프롬프트로 문맥을 줄 수 있다.
  • 프롬프트로 통화의 도메인·주제를 알려주면 의료 용어, 제품명, 주문 ID 같은 어휘를 더 정확히 인식하고 적절히 포매팅한다.
  • conversation context 기능은 음성 에이전트의 직전 발화를 모델에 되돌려줘 같은 발음(예: "C")의 혼동을 줄인다.
  • 영어-힌디어, 영어-히브리어처럼 한 대화 안에서 언어가 섞여도 프롬프트로 언어를 유도해 정확히 받아쓴다.
  • voice focus 기능은 근거리/원거리 설정과 임계값으로 배경 소음을 억제하고 주 화자의 목소리만 잡아낸다.

쉽게 이해하기

Universal-3.5 Pro는 AssemblyAI가 공개한 최신·최고 성능의 실시간 음성인식 모델이다. 19개 언어에서 최첨단 정확도를 내고 코드스위칭을 기본 내장하며, 모델에 문맥을 줄 수 있는 프롬프트형 인터페이스를 제공한다. 오디오의 도메인·주제·시나리오를 알려주면 그 문맥에서 등장할 만한 어휘를 더 잘 인식한다.

데모에서는 "이 심장내과 상담 통화를 전사하라"는 프롬프트를 주자, 모델이 echocardiogram, EKG, INR 같은 의료 용어와 Eliquis·apixaban 같은 약품명을 정확히 받아쓰고 올바르게 대문자·포맷을 적용했다. 주문 확인 통화 프롬프트에서는 제품명 "Bubble Gun 3000"과 주문 ID "AB_703"을 제품명·식별자 형식에 맞게 처리했다.

새로 추가된 conversation context는 음성 에이전트에 특히 유용하다. STT가 받아쓴 직전 세 턴을 모델에 되돌려주고 에이전트 문맥으로 모델 설정을 동적으로 갱신한다. 예컨대 'A, B, C 중 고르라'는 안내에 사용자가 'C'라고 답하면, 다국어 모델은 기본적으로 스페인어 발음으로 오인할 수 있다. 하지만 에이전트 문맥('options A, B, or C')을 넣으면 모델이 정확히 글자 'C'로 예측한다.

다국어·코드스위칭 시연에서는 영어-힌디어, 영어-히브리어가 한 대화 안에서 섞여도 모델이 기본적으로 언어를 전환하며 전사했다. "다국어 음성으로 이 녹음을 전사하라" 같은 프롬프트나 언어 유도(language steering)로, 19개 지원 언어 중 사용 사례에 필요한 언어로 전사를 정확히 맞출 수 있다.

마지막으로 voice focus는 주 화자를 분리하고 배경 소음을 억제하는 기능이다. 헤드셋·핸드셋 같은 근거리(near field)와 회의실·드라이브스루·노트북 마이크 같은 원거리(far field) 옵션, 그리고 억제 강도를 정하는 임계값을 제공한다. 배경에서 사람들이 떠들어도 마이크에 가장 가까운 화자의 목소리만 잡아내, 음성 에이전트나 후속 처리의 정확도를 지킨다.

주요 인사이트

  • 음성 에이전트에서는 같은 발음이 다른 언어로 해석되면(예: 'C'가 스페인어 발음으로) 대화가 같은 질문을 반복하는 루프에 빠질 수 있는데, 에이전트 문맥을 모델에 주면 처음부터 올바른 전사를 얻는다.
  • 정확도는 단순한 모델 성능만이 아니라 '적절한 시점에 적절한 엔티티에 올바른 포매팅'을 적용하는 데 달려 있다 — 음성 에이전트 실전에서 결정적인 부분이다.
  • voice focus의 근거리/원거리 모드와 임계값은 헤드셋부터 드라이브스루 스피커까지 오디오 환경별로 마지막 한 끗의 정확도 향상을 노린다.

자주 묻는 질문

Universal-3.5 Pro는 몇 개 언어를 지원하나?

19개 언어를 지원하며 코드스위칭이 기본 내장돼 있다.

프롬프트로 무엇을 할 수 있나?

통화의 도메인·주제·시나리오 같은 문맥을 줘서 모델이 특정 어휘(의료 용어, 제품명, 주문 ID 등)를 더 잘 인식하고 올바르게 포매팅하도록 유도할 수 있다.

conversation context 기능은 왜 유용한가?

음성 에이전트의 이전 발화(STT가 받아쓴 직전 턴들)를 모델에 되돌려줘, 같은 발음의 모호함을 줄이고 에이전트가 같은 질문을 반복하는 상황을 막아준다.

voice focus는 무엇인가?

주 화자를 분리하고 배경 소음을 억제하는 기능으로, 근거리/원거리 설정과 억제 강도를 조절하는 임계값을 제공한다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗

관련 AI 소식