AI VIDEO BRIEFING

어셈블리AI 5월 업데이트: LLM 게이트웨이 추론·실시간 화자 분리 개선

어셈블리AI가 5월에 출시한 기능을 정리했다. LLM 게이트웨이의 추론 옵션과 JSON 자동 수정, 단어별 화자 라벨, 연속 부분 전사, 실시간 PII 마스킹 등이 포함됐다.

출처: AssemblyAI2026년 6월 4일AI 보조 요약

어셈블리AI 5월 업데이트: 추론 켜는 LLM 게이트웨이부터 단어별 화자 라벨까지 영상 대표 이미지

핵심 메시지

LLM 게이트웨이에 추론(체인 오브 소트) 옵션이 추가돼, 클로드·제미나이·오픈AI 모델에서 단일 파라미터로 추론 강도(낮음/중간/높음)를 켤 수 있다.
실시간 화자 분리가 대폭 개선돼 잘못된 화자 감지를 66%, 허위 발화 전환을 60% 줄였고, 단어 단위로 화자 라벨을 제공한다.
긴 발화에도 약 3초마다 중간 전사를 내보내는 '연속 부분 전사' 기능이 추가됐다.
실시간 스트리밍에서도 이름·전화번호·카드번호 같은 민감정보를 자동으로 탐지·제거하는 PII 마스킹이 적용된다.

쉽게 이해하기

어셈블리AI가 5월 한 달 동안 출시한 기능을 매트가 짧게 정리했다. 가장 많은 변화가 있었던 것은 LLM 게이트웨이다. 핵심은 추론(체인 오브 소트) 기능으로, 지원되는 모델이라면 추론 강도를 낮음·중간·높음 중 하나로 지정하는 단일 파라미터만 넘기면 된다. 게이트웨이가 클로드·제미나이·오픈AI 등 제공사별 차이를 알아서 처리한다. 여기에 제미나이 3.5 플래시가 추가됐고, 잘못된 형식의 JSON을 앱에 도달하기 전에 고쳐주는 JSON 자동 수정 기능도 들어갔다.

두 번째 큰 변화는 실시간 화자 분리 업그레이드다. 정확도가 전반적으로 올라가 잘못된 화자 감지를 66%, 허위 발화 전환을 60% 줄였다. 대표 기능은 단어별 화자 라벨로, API 응답의 각 단어가 화자 라벨을 갖는다. 덕분에 누군가 문장 중간에 끼어들어도 잡아낼 수 있고, 모델이 확신하지 못하는 단어는 엉뚱한 화자에 붙이는 대신 '알 수 없음'으로 표시된다. 이 개선은 미국과 EU 리전에서 코드 변경 없이 바로 적용된다.

스트리밍 쪽에서는 '연속 부분 전사'도 추가됐다. 기본적으로 유니버설 3 프로는 발화 시작 무렵과 침묵 부근에서 부분 전사를 내보내지만, 이 기능을 켜면 멈춤이 없어도 약 3초마다 중간 전사를 꾸준히 받는다. 카드번호나 긴 주소를 불러주는 것처럼 긴 독백 상황에 유용하며, 세션 도중에도 켜고 끌 수 있다.

플레이그라운드와 대시보드도 손봤다. 음성 에이전트 플레이그라운드는 34개 음성 각각의 샘플을 들려주고, 만든 음성 에이전트를 공개 링크로 공유할 수 있게 됐다. 마지막으로 실시간 스트리밍에도 PII 마스킹이 적용돼, 초기 연결에서 옵션을 켜면 이름·전화번호·카드번호 등 민감정보를 실시간으로 탐지·제거한다. 마스킹은 최종 전사에 적용되며, 정보 유출을 막기 위해 PII 마스킹을 켜면 부분 전사는 기본적으로 꺼진다.

주요 인사이트

추론 옵션을 게이트웨이 수준에서 표준화하면, 개발자는 모델마다 다른 추론 설정을 직접 다루지 않고 강도만 지정해 쓸 수 있다.
단어 단위 화자 라벨과 '알 수 없음' 태그는 끼어들기가 잦은 실제 대화에서 화자 귀속 오류를 줄이는 실용적 장치다.
연속 부분 전사는 긴 독백이나 번호 입력처럼 침묵이 적은 구간에서 응답성을 높여, 음성 에이전트 사용성을 개선한다.
실시간 PII 마스킹에서 부분 전사를 기본 비활성화하는 설계는, 마스킹 이전 텍스트가 클라이언트로 새는 것을 막기 위한 안전장치다.

자주 묻는 질문

LLM 게이트웨이의 추론 기능은 어떻게 쓰나?

지원 모델에서 추론 강도를 낮음·중간·높음 중 하나로 지정하는 단일 파라미터를 넘기면 되고, 게이트웨이가 클로드·제미나이·오픈AI 등 제공사별 차이를 알아서 처리한다.

실시간 화자 분리는 얼마나 좋아졌나?

잘못된 화자 감지를 66%, 허위 발화 전환을 60% 줄였고, 각 단어에 화자 라벨을 붙이며 확신이 낮은 단어는 '알 수 없음'으로 표시한다. 미국·EU 리전에서 코드 변경 없이 적용된다.

실시간 스트리밍에서 민감정보는 어떻게 보호되나?

초기 연결에서 PII 마스킹 옵션을 켜면 이름·전화번호·카드번호 등을 실시간으로 탐지·제거하며, 유출을 막기 위해 부분 전사는 기본적으로 비활성화된다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗