AI VIDEO BRIEFING
AssemblyAI Universal-3.5 음성 코드 탐색: Clickie가 전문 용어를 알아듣는 법
AssemblyAI의 Na가 음성 코드 탐색 도구 Clickie에 최신 전사 모델 Universal-3.5를 적용한 데모를 선보인다. 화면의 핵심 용어를 실시간으로 프롬프트에 넣어 PCM S16LE 같은 난해한 코드 용어까지 정확히 알아듣는다.

핵심 메시지
쉽게 이해하기
AssemblyAI의 Na가 Farza가 만든 음성 코드 탐색 도구 Clickie의 데모를 선보인다. Clickie는 원래 AssemblyAI의 Universal 3 Pro 스트리밍 모델로 작동했는데, 이번에는 지난주 출시된 Universal-3.5를 새로 적용했다. Universal-3.5는 AssemblyAI가 내놓은 가장 정확한 전사 모델이다.
Clickie의 작동 방식이 흥미롭다. 사용자가 질문하면 현재 화면을 스크린샷으로 찍어 무엇을 묻는지 안내한다. 여기에 더해, 화면에 보이는 단어들을 핵심 용어(key terms)로 뽑아 전사 모델의 프롬프트에 실시간으로 넣어준다. 그러면 모델이 자신이 '듣고 있는 것'을 더 잘 이해하게 된다. 코드처럼 사전에 없는 까다로운 단어도 올바른 방향을 가리킬 수 있는 이유다.
데모에서 발표자는 Control과 Option 키를 누르고 'Clickie, PCM S16LE가 뭔지, 코드 어디에 있는지 설명해줘'라고 음성으로 묻는다. Clickie는 464번째 줄에서 그 값이 웹소켓 URL의 인코딩 쿼리 파라미터로 전달되고 있음을 짚어준다. 화면에 무엇이 있는지 이해하고 그 단어를 미리 예상했기에, 발화 내용을 정확히 알아들은 것이다.
발표자는 모델이 프롬프트에서 끊임없이 갱신하는 핵심 용어들을 보여주는 위젯도 직접 만들었다. 스크롤하는 동안 화면의 여러 요소를 살펴 그 단어들을 전사에서 미리 대비한다. 덕분에 다른 모델이라면 한 단어인지 여러 단어인지조차 헷갈릴 'audio PCM16 data' 같은 표현도, 이미 핵심 용어 목록에 들어 있어 정확히 알아듣고 191번째 줄에 있다고 답한다.
발표자는 이 조합이 화면 인식과 음성 전사를 함께 묶어 사용자가 무엇을 묻는지 온전히 이해하게 한다고 설명한다. AssemblyAI 팀은 Clickie를 아끼며, Universal-3.5로 사람들이 무엇을 만들어낼지 기대한다는 말로 데모를 마친다.
주요 인사이트
- 음성 코드 탐색의 난점은 코드 전문 용어가 일상 사전에 없다는 데 있다. Clickie는 화면 맥락을 핵심 용어로 주입해 이 문제를 정면으로 푼다.
- 전사 정확도를 모델 성능에만 의존하지 않고, '지금 화면에 무엇이 있는지'라는 맥락을 동적으로 공급해 끌어올린다는 발상이 핵심이다.
- 스크린샷(화면 이해)과 전사(음성 이해)를 결합해 사용자의 의도를 더 온전히 파악하는 멀티모달 접근을 보여준다.
- 사용자가 만든 위젯으로 모델이 어떤 핵심 용어를 추적 중인지 시각화한 점은, 음성 인식의 '내부 동작'을 투명하게 드러내는 좋은 사례다.
자주 묻는 질문
Clickie는 어떤 도구인가요?
화면을 스크린샷으로 캡처해, 사용자가 음성으로 묻는 내용을 코드에서 짚어 안내하는 코드 탐색 도구입니다. 원래 Universal 3 Pro 스트리밍 모델로 작동했고, 이번 데모에서는 Universal-3.5를 적용했습니다.
Universal-3.5는 무엇인가요?
AssemblyAI가 지난주 출시한, 회사에서 가장 정확한 전사(받아쓰기) 모델입니다. 데모에서는 Clickie의 음성 인식을 담당해 코드 전문 용어까지 정확히 알아듣게 합니다.
코드 전문 용어를 어떻게 정확히 알아듣나요?
화면에 보이는 단어들을 핵심 용어로 뽑아 전사 모델의 프롬프트에 실시간으로 넣어줍니다. 그러면 'PCM S16LE'나 'audio PCM16 data'처럼 사전에 없는 표현도 모델이 미리 예상해 올바르게 전사합니다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗