AI VIDEO BRIEFING
어셈블리AI 유니버설 3.5 프로: 맥락 인식으로 정확해진 음성인식(STT) 데모
어셈블리AI의 새 음성인식 모델 유니버설 3.5 프로가 프롬프트와 대화 맥락으로 정확도를 높이는 방식을 데모로 소개한다. 도메인 프롬프트, 키워드 맥락 적용, 음성 에이전트용 대화 맥락 기능을 정리했다.

핵심 메시지
쉽게 이해하기
이 영상은 어셈블리AI(AssemblyAI)의 최신 음성인식 모델 '유니버설 3.5 프로(Universal 3.5 Pro)'가 맥락 인식 능력에서 어떻게 발전했는지 발표자가 직접 시연하며 설명한다. 크게 프롬프트 개선과 새로운 '대화 맥락' 기능 두 축이 소개된다.
먼저 프롬프트다. 오디오가 어떤 내용인지 프롬프트로 알려 주면 해당 도메인의 정확도가 올라간다. 예를 들어 '의료 상담'이라고만 해도 의료 분야 정확도가 오르고, '흉통 관련 심장내과 상담'처럼 더 구체적으로 적으면 정확도가 더 높아진다. 프롬프트가 상세할수록 모델이 실제 발화를 더 정확히 예측한다는 것이다.
두 번째는 키워드에 맥락을 입히는 기능이다. 기존에는 오디오에 등장할 핵심 용어를 키워드로 넘겨 정확도를 높였지만, 그 용어가 사람 이름인지 제품명인지 회사명인지에 대한 맥락은 없었다. 발표자는 자신의 성(姓)을 키워드로 넣었을 때 음향이 비슷한 다른 문장에도 잘못 적용되던 문제를, '이 용어는 사용자 이름'이라는 맥락을 함께 전달해 해결하는 과정을 플레이그라운드에서 보여 준다. 또한 API에서는 통화 중간에 프롬프트를 동적으로 바꿔 새로운 정보를 반영할 수 있다.
세 번째는 새로 추가된 '대화 맥락(conversation context)' 기능이다. 직전 전사 내용이 '이메일이 무엇인가요?'라면 모델은 다음 발화가 이메일일 것이라 기대하고, '큰 사이즈로 하시겠어요?'라면 예/아니오 응답을 기대한다. 다만 과도하게 치우치지 않아, 예상과 다른 답이 나와도 그대로 인식한다. 음성 전사 기록은 세션 안에서 자동으로 유지되며, 음성 에이전트의 LLM 생성 응답을 모델에 직접 전달할 수도 있다.
발표자는 음식 주문, 고객 서비스 통화 등 나쁜 음향 조건을 일부러 재현한 데모에서, 에이전트 맥락을 모델에 전달하면 어려운 조건에서도 대화 상황을 근거로 훨씬 잘 받아쓴다는 점을 시연한다. 음성 에이전트 데이터셋에서 단어 오류율(WER)이 크게 줄었고, 앞으로 학습을 통해 더 개선될 것이라고 밝힌다.
주요 인사이트
- 음성인식 정확도를 높이는 열쇠가 모델 자체뿐 아니라 '얼마나 풍부한 맥락을 제공하느냐'로 옮겨 가고 있다.
- 키워드만 넘기면 음향이 비슷한 다른 표현에 잘못 적용될 수 있는데, 키워드에 맥락을 붙이면 이런 오적용을 줄인다.
- 통화 중간에 프롬프트를 동적으로 갱신하는 기능은 실시간 음성 에이전트에서 특히 유용하다.
- 대화 맥락은 사람이 대화 흐름으로 다음 말을 예측하듯 작동하되, 예상과 다른 발화도 그대로 받아들이도록 균형을 잡는다.
- 음성 에이전트의 LLM 응답을 모델에 되먹임하면 열악한 음향 환경에서도 전사 품질이 눈에 띄게 개선된다.
자주 묻는 질문
프롬프트로 어떻게 음성인식 정확도를 높이나?
오디오가 어떤 내용인지 프롬프트로 알려 주면 해당 도메인 정확도가 오른다. 예컨대 '의료 상담'보다 '흉통 관련 심장내과 상담'처럼 구체적으로 쓸수록 모델이 실제 발화를 더 정확히 예측한다.
키워드에 맥락을 더한다는 것은 무슨 의미인가?
기존 키워드 기능은 용어가 이름인지 제품명인지 맥락이 없어 음향이 비슷한 다른 문장에도 잘못 적용될 수 있었다. 이제 '이 용어는 사용자 이름'처럼 맥락을 함께 전달해, 비슷한 소리에 무분별하게 적용하지 않게 한다.
'대화 맥락' 기능은 어떻게 작동하나?
직전 전사 내용을 근거로 다음 발화를 예측하되 과도하게 치우치지 않는다. 세션 안에서 전사 기록이 자동 유지되며, 음성 에이전트의 LLM 응답을 모델에 직접 전달해 나쁜 음향 조건에서도 정확도를 높일 수 있다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗