텍스트-음성 변환 소프트웨어란 무엇인가요?
텍스트-음성 변환 소프트웨어란 무엇인가요?
웹 페이지 낭독부터 사용자 데이터 요청까지, 음성은 최신 사용자 인터페이스로서 표준으로 빠르게 자리잡고 있습니다. 상호 작용하는 모든 애플리케이션에서 음성 기능을 기대하는 고객이 점점 더 증가하고 있습니다. 뿐만 아니라 의료, 영업, 콘텐츠 제작, 고객 서비스 및 기타 애플리케이션에서 텍스트-음성 변환 사용 사례는 자동화의 속도를 높이는 동시에 고객 경험을 개선할 수 있습니다. 이번 가이드에서는 텍스트-음성 변환 특성 및 기능을 살펴보고 사용을 시작하는 방법을 살펴보겠습니다.
TTS(텍스트-음성 변환) 소프트웨어는 텍스트에 음성을 합성하여 오디오 '음성'을 생성합니다. 이 소프트웨어는 방대한 양의 인간 음성 녹음을 기반으로 훈련된 텍스트-음성 변환 엔진으로 구동됩니다. 소프트웨어는 음성 데이터의 소리 파형을 분석하여 사용한 단어를 음성 형식으로 변환합니다.
로봇이 말하는 것처럼 들리는 음성은 시대에 뒤떨어진 음성 기술의 산물입니다. 생성형 AI를 기반으로 하는 최신 텍스트-음성 변환 엔진은 인간의 음성과 거의 구별할 수 없을 정도의 결과물을 생성합니다. 생성된 음성은 자연스러운 휴지, 다양한 억양과 속도, 인간의 감정을 반영하는 억양을 포함할 수 있습니다.
텍스트-음성 변환 소프트웨어 유형
선택하는 TTS 도구 유형은 사용 사례에 따라 달라집니다. 개발자에게는 사용자 지정 가능한 올인원 통합 패키지가 다중 앱, 다중 환경 개발에 가장 적합합니다.
개발자는 자체 관리형 배포가 가능한 오픈 소스 및 상용 TTS 소프트웨어 또는 Amazon Polly와 같은 완전 통합 관리형 클라우드 서비스 중에서 선택할 수 있습니다. Amazon Polly는 기존 애플리케이션이 최상의 기능으로 음성을 통합하고, 모바일 앱과 차량에서 디바이스와 어플라이언스에 이르기까지 전혀 새로운 종류의 음성 지원 제품을 만들 수 있는 기회를 제공합니다.
Amazon Polly는 다양한 사용 사례에 적합하며, 여러 가지 AI 모델 아키텍처를 기반으로 하는 네 가지 음성 엔진을 함께 제공합니다. 코드에서 엔진, 음성 합성 작업, API를 통한 출력 파일 형식을 선택하기만 하면 Amazon Polly 음성을 사용할 수 있습니다. 그런 다음, 엔진이 합성해야 하는 입력 텍스트를 제공합니다. Amazon Polly는 요청한 형식으로 음성 출력 파일을 생성합니다. 이러한 엔진은 특정 음성 또는 브랜드 요구 사항에 맞게 추가 학습을 받을 수도 있습니다.
텍스트-음성 변환 소프트웨어에서 찾아야 하는 기능은 무엇인가요?
Amazon Polly에는 최신 음성 개발에 꼭 필요한 텍스트-음성 변환 기능이 다음과 같이 포함되어 있습니다.
다양한 목소리
지역 내에서 여러 가지 언어, 지역, 성별 및 음성을 선택할 수 있는 옵션이 있어 포괄적인 제품군을 개발하는 데 제공할 수 있습니다. Amazon Polly는 수십 여 가지의 언어를 지원하며, 남성 및 여성 형식의 국가 기반 옵션 및 억양을 지원합니다.
API 기반 통합
프로젝트 전반에서 가장 광범위하게 통합할 수 있도록 TTS 소프트웨어에 완전한 기능을 갖춘 API가 있으며, 여러 프로그래밍 언어로 제공되는지 확인하세요. Amazon Polly는 Amazon Polly API와 다양한 언어별 SDK를 제공합니다. 또한 AWS Management Console과 Command Line Interface(CLI)에서도 액세스할 수 있습니다. 사용 방식이 무엇이든, Amazon Polly에 탑재된 모든 기능을 완벽하게 제어할 수 있습니다.
정밀한 음성 제어
음성 합성 마크업 언어(SSML)는 음성이 어떻게 들리는지 추가 정보를 제공할 수 있는 XML 기반 마크업 언어입니다. 예를 들어 휴지, 통역(예: 날짜, 두문자어), 피치, 속도, 볼륨, 강조, 페이드 인 및 기타 오디오 요소 등 생성된 음성을 사용자 지정할 수 있습니다. SSML을 사용하면 음성 출력을 완전하게 관리하고 사용자 지정을 다른 시스템으로 포팅할 수 있습니다.
Amazon Polly는 뉴스 캐스터처럼 음성을 내는 기능과 같은 일반 Amazon SSML 태그와 사용자 지정 Amazon SSML 태그를 모두 지원합니다. 이러한 유연성 덕분에 청중의 관심을 사로잡고 매료시키는 실제 같은 음성을 만들 수 있습니다.
동기화된 애니메이션을 위한 메타데이터 후크
게임 및 미디어와 같은 일부 애플리케이션에서는 입의 움직임이나 가라오케 스타일의 단어 따라하기 기능 등 음성을 따라가는 캐릭터가 포함된 애니메이션이 필요합니다. 다국어 학습 영상은 여러 언어가 동기화된 타이밍 덕분에 모든 언어의 음성과 영상이 동시에 정렬되는 이점을 누릴 수 있습니다.
이러한 유형의 애플리케이션에서 개발자는 특정 시간에 발생하는 음성 요소를 타임스탬프 형식으로 표시하기 위한 메타데이터가 필요합니다. Amazon Polly에서는 음성 파일과 함께 이러한 추가 메타데이터 또는 음성 표시를 요청할 수 있습니다. 음성 표시는 음성 파일 타임스탬프, 비지임(단어를 말할 때 얼굴과 입의 위치) 및 기록된 텍스트를 음성 출력에 연결하는 기타 세부 사항 등의 정보를 제공합니다.
사용자 지정
텍스트-음성 변환 소프트웨어를 완전히 사용자 지정하여 유연성을 극대화할 수 있어야 합니다. 예를 들어 음성 출력은 파일 유형(예:), 파일 크기, 데이터 품질 등 다양한 형식 및 구성에 맞게 사용자 지정해야 합니다. 소프트웨어는 학습 데이터를 벗어나는 사용자 지정 어휘를 처리할 수 있어야 합니다.
Amazon Polly는 모든 단계에서 텍스트-음성 사용자 지정 기능을 지원합니다.
어휘
회사 이름, 두문자어, 외래어 및 신조어에 대한 맞춤형 발음으로 사용자 지정 사전을 생성할 수 있습니다. MP3 및 WAV 등 다양한 음성 형식의 출력물을 요청할 수 있습니다.
출력 형식
Amazon Polly는 문서 낭독과 같은 자연스러운 음성으로 길이가 긴 형식의 음성도 지원합니다. 실시간 사용 사례에서 대역폭이 낮거나 지연 시간이 짧은 연결에 필요한 연속 오디오 스트림을 생성할 수 있습니다.
음성
또한 Amazon Polly 팀과 협력하여 조직에서만 사용할 수 있는 음성을 만들 수 있는 사용자 지정 참여 프로그램인 Brand Voice도 제공합니다. 다른 앱처럼 들리기 보다는, 음성 기반의 독특한 브랜드 마크를 만들어 대중을 사로잡을 수 있습니다.
텍스트-음성 변환 소프트웨어를 시작하려면 어떻게 해야 할까요?
AWS 텍스트-음성 변환 소프트웨어는 간편하게 시작할 수 있습니다. 이 가이드에서는 콘솔에서 간단한 Amazon Polly 사용 방법 데모를 살펴봅니다.
먼저 AWS Management Console에 로그인하고 Amazon Polly 콘솔을 엽니다. 시작하려면 Try Polly를 클릭하세요. 그러면 텍스트-음성 변환 대화 상자가 나타납니다.
1단계 - 엔진 선택하기
텍스트-음성 변환 대화 상자에서는 사용할 음성 엔진을 선택할 수 있습니다. Amazon Polly에는 현재 선택 가능한 음성 엔진이 네 가지가 있습니다.
- 스탠다드 엔진은 연쇄 합성 방법을 음성 생성기로 사용합니다.
- 뉴럴 엔진은 신경망과 보코더 방식을 사용하여 보다 자연스러운 음성을 생성합니다.
- 생성형 엔진은 다양한 음성 데이터를 기반으로 학습된 십억 개의 매개변수 모델을 사용하여 훨씬 더 자연스러운 음성을 제공합니다.
- 롱폼 엔진은 또 다른 생성형 AI 텍스트-음성 변환 엔진으로, 긴 내러티브 스타일의 음성을 지원하기 위해 개발되었습니다.
이러한 업데이트는 모든 AWS 리전에서 제공됩니다.
2단계 - 언어 선택
음성 엔진을 선택한 후 생성하려는 언어를 선택한 다음, 드롭다운 메뉴에서 남성 또는 여성 음성을 선택합니다.
각 음성 엔진은 다양한 언어와 AI 음성을 지원합니다. 예를 들어 Neural for Engine을 선택하면 신경망 텍스트-음성 변환(NTTS) 을 지원하는 언어 및 음성만 사용할 수 있으며, 모든 스탠다드 및 롱폼 음성은 사용할 수 없습니다.
3단계 - 텍스트를 음성으로 변환
입력 텍스트 상자에서 기본 텍스트를 직접 작성한 텍스트 입력으로 변경합니다. 출력 내용을 소리 내어 읽으려면 듣기 버튼을, MP3 파일을 다운로드하려면 다운로드 버튼을, Amazon Simple Storage Service에 음성을 저장하려면 S3에 저장 버튼을 선택할 수 있습니다.
API를 통해 Amazon Polly에 액세스
위와 같이 콘솔 또는 애플리케이션 코드의 API를 통해 Amazon Polly에 액세스할 수 있습니다. Amazon Polly API를 사용하면 실시간 번역부터 자막 생성, 비디오 게임 또는 기타 애니메이션 캐릭터에 생동감을 불어넣는 것까지 다양한 작업을 수행할 수 있습니다. 코드에서 Amazon Polly API를 사용하는 방법에 대한 예제를 보려면 GitHub 샘플 중 일부를 사용해보세요.
AWS는 텍스트-음성 변환 소프트웨어 요구 사항을 어떻게 지원할 수 있나요?
텍스트-음성 변환 기능을 사용하면 사람의 음성 대신 텍스트를 통해 음성 기반 오디오를 만들 수 있습니다. 초기에는 시각 장애가 있는 사용자를 지원하기 위한 보조 기술로 사용되었지만, 이제는 브라우저 확장 프로그램부터 콜 센터 및 엔터프라이즈 애플리케이션에 이르기까지 다양한 애플리케이션 및 고객 상호 작용에서 꼭 필요한 기능이 되었습니다. 개발자는 Amazon Polly와 같은 관리형 서비스를 사용하여 텍스트-음성 변환 API 호출을 통해 실제 같은 최신 음성 엔진을 애플리케이션에 쉽게 통합할 수 있습니다. Amazon Polly의 요금은 엔진 종류와 처리된 문자 수에 따라 책정되며, 개인 사용을 위한 프리 티어를 포함합니다.
Amazon Polly의 음성 오디오는 애플리케이션 개발에 활용할 수 있는 생성형 AI 서비스 중 하나에 불과합니다. 앱을 더 빠르고 강력하게 구축하고 확장할 수 있도록 지원하는 AWS의 다양한 AI 솔루션을 살펴보세요.