AI VIDEO BRIEFING
음성-텍스트 변환(STT) 원리와 도메인 맞춤: 코퍼스와 그래머
AI가 음성 파형을 텍스트로 바꾸는 STT의 원리와, 코퍼스·그래머로 도메인에 맞춰 정확도를 높이는 방법을 IBM 설명으로 정리했다. 전화 기반 음성 AI에서 특히 중요하다.

핵심 메시지
쉽게 이해하기
STT(speech to text)는 음성 파형을 텍스트로 바꾼다. 작동 방식은 소리를 단어의 가장 작은 단위인 음소로 쪼개고, 그것을 말이 되는 시퀀스로 이어 붙이는 것이다. 인식이 부정확하면 오류율이 오르고 디버깅 시간이 늘어 개발 속도와 신뢰성이 떨어지므로, 음성 앱이나 가상 상담원을 만든다면 원리와 맞춤화를 이해하는 것이 정확도를 좌우한다.
모델은 여러 도메인에 공통으로 등장하는 흔한 구절에 강하다. '계좌를 개설하다'는 은행·소매·보험 어디서나 쓰이고, '청구를 접수하다(file a claim)'도 마찬가지다. 문제는 '치주 교익 X선'처럼 치과에서만 들리는 도메인 특화 표현이다. 한 번도 들어본 적 없는 소리를 올바른 음소 시퀀스로 바꾸기란 매우 어렵고, 그래서 도메인 맞춤이 필수다.
핵심은 맥락이다. 'open an account'에서 'open an'을 들으면 'account'가 따라올 것을 기대하게 돼 인식이 강화된다. 'file a claim'도 단어들이 서로를 받쳐 줘 맥락이 좋다. 그러나 전화 음성 솔루션에서 발신자는 종종 'claim' 한 단어만 말한다. claim은 c·l·모음·m 네 음소로 이뤄지는데 다른 맥락이 없으면 clean, climb, blame, plain 등 비슷한 소리와 구분하기 어렵다. 발표자는 이를 '세상에서 가장 어려운 보글 게임'에 비유한다.
첫 번째 맞춤 기법은 언어 코퍼스다. 코퍼스는 모델이 만날 것으로 예상되는 단어·구절의 목록으로, claim·claims, 치주, 교익 X선처럼 일반 언어에는 드물지만 내 도메인에 흔한 표현을 넣는다. 이렇게 하면 특정 음소 시퀀스가 들렸을 때 climb이나 plane이 아니라 claim일 가능성이 높다고 모델을 '슬쩍 밀어주는' 효과가 생긴다.
탐색 공간을 정확히 아는 경우엔 더 엄격한 규칙인 그래머를 쓴다. 예컨대 회원 ID가 항상 '글자 1개 + 숫자 6개' 형식이라면, 모델은 그 형식만 탐색하면 된다. 네 번째 자리의 소리가 3인지 E·C·B·D인지 헷갈릴 때도 '그 자리는 숫자'라는 규칙이 있으면 3으로 확정해 비슷한 소리끼리 생기는 큰 오류 부류를 통째로 없앤다. 무엇이 올지 알수록 정확도가 크게 오른다.
주요 인사이트
- STT의 난이도는 소리 자체가 아니라 맥락의 유무에서 온다. 같은 단어라도 문장 속이면 쉽고, 한 단어만 떨어지면 어렵다.
- 도메인 맞춤의 본질은 '탐색 공간 축소'다. 코퍼스·그래머는 모델이 골라야 할 후보를 줄여 비슷한 소리의 혼동을 막는다.
- 코퍼스는 '대략 무엇이 올지' 알 때, 그래머는 '정확한 형식'을 알 때 쓴다. 정보가 구체적일수록 더 강한 제약을 걸 수 있다.
- 전화 기반 음성 AI는 발신자가 단어 하나만 말하기 쉬워 맥락이 부족하므로 맞춤화의 효과가 특히 크다.
- 정확도는 단순한 품질 문제가 아니라 오류율·디버깅 시간·개발 속도·신뢰성에 직결되는 비용 문제다.
자주 묻는 질문
STT는 음성을 어떻게 텍스트로 바꾸나?
음성 파형을 단어의 최소 단위인 음소로 쪼갠 뒤, 그 음소들을 말이 되는 시퀀스로 이어 붙여 텍스트를 구성한다.
도메인 맞춤이 왜 필요한가?
모델은 흔한 구절엔 강하지만 '치주 교익 X선'처럼 특정 도메인에서만 쓰이는 표현은 들어본 적이 없어 올바른 음소 시퀀스로 변환하기 어렵기 때문이다.
코퍼스와 그래머의 차이는?
코퍼스는 도메인에서 나올 만한 단어·구절의 목록으로 대략적인 탐색 공간을 좁힌다. 그래머는 회원 ID '글자 1개+숫자 6개'처럼 정확한 형식을 아는 경우에 쓰는 더 엄격한 규칙이다.
전화 음성 인식이 특히 어려운 이유는?
발신자가 'claim'처럼 단어 하나만 말하는 경우가 많아 맥락이 거의 없고, claim은 clean·climb·blame처럼 소리가 비슷한 단어가 많아 혼동되기 때문이다.
원문과 출처
이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.
YouTube 원본 영상 보기 ↗