개요

Amazon Transcribe를 사용하면 음성 지원 애플리케이션에 음성-텍스트 변환 기능을 추가할 수 있습니다. 자동 음성 인식(ASR) 기술을 사용하여 다양한 비즈니스 애플리케이션에 Amazon Transcribe를 사용할 수 있습니다. 이 서비스에서 제공하는 기능에는 자동 음성 인식, 화자 구분, 개인 식별 정보(PII) 수정 및 언어 식별이 포함됩니다. 자세한 내용은 설명서를 참조하세요. 이 AI 서비스 카드는 이러한 기능 중 하나인 Transcribe – Batch (English-US)(Transcribe::StartTranscriptionJob API로 구현됨)를 설명합니다. 이 기능은 미국 내 로캘에서 낮은 대역폭(8kHz) 또는 높은 대역폭(16kHz)으로 ASR을 수행합니다. 정적 오디오 파일(배치 모드)에서 사용할 수 있는 녹음된 음성에서 작동합니다. 스트리밍 미디어에서 거의 실시간으로 ASR을 사용하려면 Transcribe::StartStreamTranscription API를 참조하세요.

Transcribe Speech의 품질은 ASR 트랜스크립트의 단어가 실제 청취자에 의해 기록된 음성 샘플에서 말한 단어와 얼마나 잘 일치하는지 측정하는 방식으로 평가됩니다. 화자가 “This system can really recognize speech”라고 말하는 경우 “This system can wreck a nice beach”가 아니라 화자가 말한 단어가 트랜스크립트에 포함되어야 합니다. 트랜스크립션에는 대체(예: recognize를 wreck으로), 삽입(‘nice’와 같은 추가 단어), 삭제(‘really’와 같은 누락 단어)라는 3가지 유형의 오류가 나타날 수 있습니다. 올바르게 기록된 단어를 적중이라고 합니다. 정밀도, 재현율, F1, 단어 오류율(WER)과 같은 품질 지표는 적중률 및 오류 수에 따라 달라집니다.

모든 ASR 시스템의 정확도는 여러 요인의 영향을 받습니다. 입력 오디오 신호는 음성 자체로 구성되며 이 음성 자체는 다양한 교란 요인에 의해 수정됩니다. 개별 단어와 발음은 사용 빈도, 발음 방식, 다른 단어와 결합되는 방식에 있어서 화자별로 다릅니다. 단어의 철자와 의미가 다르지만 소리는 다르지 않을 수 있습니다. 여러 화자가 서로 겹쳐 말하거나 서로의 말을 방해할 수 있습니다. 녹음 디바이스는 품질과 스피커 대비 위치(예: 원거리 대 근거리)가 다릅니다. 녹음 환경은 배경 소음 수준, 반향 민감도 및 다른 스피커의 존재 여부에 따라 다릅니다. 송전선은 소음 수준이 다양합니다. Transcribe는 여러 단어에 대한 오디오를 구분하고 교란 변수를 무시하도록 설계되었습니다.

용도 사례 및 제한 사항

Transcribe – Batch (English-US)는 자연적으로 나오는 인간의 음성이 들어 있는 오디오 샘플에 사용하도록 만들어졌습니다. 기계적 또는 디지털 방식으로 변환된 음성이나 합성 음성을 위해 설계되지 않았습니다. 미국 영어 단어를 기록하도록 만들어졌습니다. 추가 언어 로캘은 지원되는 언어를 참조하세요. Transcribe는 다양한 범용 어휘를 지원합니다. 고객은 사용자 지정 단어집사용자 지정 언어 모델을 추가하여 전문 도메인의 단어와 구문을 포괄할 수 있습니다. Transcribe는 화자 구분(화자 분리)을 지원합니다. API 직접 호출에서 화자 구분을 활성화하여 최대 10명의 고유 화자를 식별할 수 있습니다.

Transcribe – Batch(English-US)는 고객 센터 분석(감정/분류/대화 속도), 음성 메일 기록, 회의 자막 삽입, 미디어 콘텐츠(오디오 또는 비디오) 자막 삽입, 미디어 검색/분석/키워드 분석(예: 미디어 아카이브 카탈로그 작성 또는 인덱싱)과 같은 많은 애플리케이션에서 사용될 수 있습니다. 이러한 애플리케이션의 설계는 1) 화자 수, 2) 채널당 화자 수(예: 랩톱 또는 휴대폰과 같은 녹음 디바이스당), 3) 화자가 사용하는 음성 스타일, 4) 녹음 조건(예: 위치 및 장비) 및 기타 요인에 따라 달라집니다. 예를 들어 고객 센터 트랜스크립션 애플리케이션에서는 화자 2명, 채널당 화자 1명, 근거리 녹음(화자의 입이 마이크 가까이에 있음), 발신자의 가정 환경과 고객 센터 운영자의 작업 환경 모두에서 발생하는 높은 배경 소음을 예상할 수 있습니다. 두 번째 예는 미디어 분석, 인덱싱 및 검색의 진입점인 교육용 비디오에 자막을 넣는 애플리케이션입니다. 이 애플리케이션은 화자가 다수이고, 모든 화자가 하나의 오디오 채널을 공유하고, 연설 시 미리 작성된 대본이 있어 필러 어구, 휴지, 말더듬 부분은 적은 대신 도메인 특정 전문 용어는 많으며, 배경 소음 및 기타 오디오 폐쇄 수준이 낮을 것을 가정합니다.

Transcribe – Batch (English-US)의 설계

기계 학습: Transcribe는 ML 및 ASR 기술을 사용하여 구축되었습니다. 작동 방식은 다음과 같습니다. (1) 오디오 입력의 관련된 음성학적 특성을 식별합니다. (2) 이러한 특성을 기반으로 후보 단어 수준의 문자열 세트를 생성합니다. (3) 언어 모델링을 적용하여 후보 단어의 순위를 매기고 최상위의 트랜스크립션을 반환합니다. API 호출에 대한 자세한 내용은 개발자 설명서를 참조하세요.

성능 기대치: 개별 및 교란 변수는 고객의 애플리케이션마다 다릅니다. 즉, 애플리케이션에서 동일한 사용 사례를 지원하더라도 애플리케이션 간에 성능이 달라집니다. 2가지 트랜스크립션 애플리케이션 A와 B를 예로 들어 보겠습니다. 애플리케이션 A는 TV 토크쇼의 비디오 자막 삽입을 지원하며 녹화 채널당 다수의 음성, 고품질 붐 마이크 및 사소한 수준의 배경 소음이 있습니다. 애플리케이션 B는 고객 센터에서 고객 통화를 녹음하는 데 도움이 됩니다. 고객은 마이크 가까이에서 말하고, 녹음 채널당 1개의 음성이 있으며, 고객 대화에는 미리 작성된 대본이 없습니다. A와 B는 입력 종류가 다르기 때문에 각 애플리케이션이 Transcribe를 사용하여 완벽하게 배포되었다고 가정하더라도 오류율이 달라질 수 있습니다.

테스트 기반 방법론: AWS는 여러 데이터 세트를 사용하여 성능을 평가합니다. 하나의 평가 데이터 세트로 성능에 대한 절대적인 그림을 얻을 수는 없습니다. 평가 데이터 세트는 인구통계학적 구성(정의된 그룹의 수와 유형), 교란 변수의 양(콘텐츠 품질, 목적 적합성), 사용 가능한 레이블의 유형 및 품질, 기타 요인에 따라 다르기 때문입니다. Transcribe 성능은 최종 사용자 집단을 대표하는 다양한 화자의 오디오 녹음이 포함된 평가 데이터 세트에서 테스트하여 측정됩니다. 평가 데이터 세트에서 각 녹음에는 화자의 실제 트랜스크립션과 인구 통계학적 속성이 레이블로 지정됩니다. 데이터 세트의 전반적인 성능은 여러 지표, 포함된 단어 오류율 및 F1으로 표현됩니다. F1은 예측된 단어 중 올바른 단어의 백분율(정밀도)을 예측에 포함된 올바른 단어의 백분율(재현율)과 균등하게 비교하는 백분율입니다. 데이터 세트의 그룹은 인구통계학적 특성(예: 성별, 연령, 혈통), 교란 변수(예: 녹음 디바이스 종류, 녹음 디바이스로부터 각 화자까지의 거리, 후처리 및 배경 소음) 또는 이 둘의 혼합으로 정의될 수 있습니다. 평가 데이터 세트는 이러한 요인 및 기타 요인에 따라 다릅니다. 이로 인해 전체 지표와 그룹에 대한 지표는 모두 데이터 세트마다 다릅니다. AWS는 이러한 변화를 고려하여 개발 프로세스에서 여러 평가 데이터 세트를 사용하여 Transcribe 성능을 검사하고, Transcribe의 성능이 가장 낮은 그룹의 정확도를 높이기 위한 조치를 취하고, 평가 데이터 세트 전체를 개선하기 위한 작업을 수행한 다음 반복합니다.

공정성 및 편향: AWS의 목표는 Transcribe – Batch(English-US)가 미국 영어 화자가 사용할 수 있는 다양한 발음, 억양, 어휘 및 문법적 특성에 대해 잘 작동하도록 하는 것입니다. 미국 중서부 또는 뉴욕시와 같이 지역별로 정의된 화자 커뮤니티와 혈통, 연령, 성별을 비롯한 다양한 정체성 차원으로 정의된 커뮤니티를 고려합니다. 이를 위해 위에서 설명한 반복적 개발 프로세스를 사용합니다. 이 프로세스의 일환으로 광범위한 교란 요인 하에서 다양한 인간 화자를 캡처하는 데이터 세트를 구축합니다. 또한 신뢰할 수 있는 인구통계학적 레이블이 있는 데이터 세트를 정기적으로 테스트합니다. Transcribe는 인구 통계학적 특성 전반에 걸쳐 우수한 성능을 제공하는 것으로 나타납니다. 예를 들어 연령, 혈통, 성별, 지역 방언(예: 여성+유럽인, 남성+45세 미만)으로 정의된 65개 인구 통계 그룹이 포함된 자연어 데이터 세트에서 F1 단어 인식 정확도는 모든 화자 그룹에 대해 92% 이상인 것으로 나타납니다. 화자 구분(화자 분리)이 활성화된 트랜스크립트의 경우 동일한 데이터 세트에서 모든 화자 그룹의 분리 정확도는 98% 이상인 것으로 나타납니다. Transcribe, 고객 워크플로 및 평가 데이터 세트에 따라 결과가 달라지므로 고객은 자체 콘텐츠에서 Transcribe를 추가로 테스트하는 것이 좋습니다.

설명 가능성: Amazon Transcribe는 오디오를 기록할 때 동일한 트랜스크립트의 여러 버전을 생성하고 각 버전에 신뢰도 점수를 할당합니다. 대체 트랜스크립션을 활성화하면 Amazon Transcribe가 신뢰도가 낮은 대체 버전의 트랜스크립트를 반환합니다. 고객은 대체 트랜스크립션을 탐색하여 각 오디오 입력에 대해 생성된 후보 단어 및 구문에 대한 더 많은 인사이트를 얻을 수 있습니다.

강건성: 다양한 기법을 사용하여 강건성을 극대화합니다. 예를 들어 여러 개인에 걸친 다양한 차이를 포착하는 대규모 훈련 데이터 세트를 사용하는 것이 여기에 포함됩니다. Transcribe ASR에 적합한 오디오 입력으로는 녹음 품질이 우수하고 배경 소음이 적으며 실내 반향이 적은 오디오가 포함됩니다. 그러나 Transcribe는 입력이 이상적인 조건과 다를 때에도 복원력을 갖추도록 훈련되었기 때문에 잡음이 많은 환경이나 화자가 여러 명인 설정에서도 우수한 성능을 제공할 수 있습니다.

개인 정보 보호 및 보안: Amazon Transcribe는 오디오 입력 데이터만 처리합니다. 오디오 입력은 서비스에서 반환하는 출력에 절대로 포함되지 않습니다. 입력 및 출력은 고객 간에 공유되지 않습니다. AWS Organizations 또는 AWS가 제공할 수 있는 기타 옵트아웃 메커니즘을 통해 고객 콘텐츠가 훈련에 사용되는 것을 거부할 수 있습니다. 자세한 내용은 AWS 서비스 약관의 섹션 50.3AWS 데이터 프라이버시 FAQ를 참조하세요. 서비스별 개인 정보 보호 및 보안 정보는 Transcribe FAQ의 데이터 개인 정보 보호 섹션과 Amazon Transcribe 보안 설명서를 참조하세요.

투명성: 사용 사례에 적합한 경우, 고객은 워크플로에 Amazon Transcribe를 통합할 때 애플리케이션의 영향을 받는 최종 사용자 및 기타 개인에게 ML 및 ASR 기술 사용 사실을 공개하고 최종 사용자에게 피드백을 받는 기능을 제공하여 워크플로를 개선하는 것이 좋습니다. 고객은 문서에서 이 AI 서비스 카드를 참조해도 됩니다.

거버넌스: AWS는 책임 있는 방식으로 AWS AI 서비스를 구축하기 위한 엄격한 방법론을 가지고 있습니다. 여기에는 책임 있는 AI를 설계 단계에 통합하는 역방향 제품 개발 프로세스, 책임 있는 AI에서 설계 상담 및 구현 평가를 제공하는 전담 과학 및 데이터 전문가, 정기 테스트, 고객과 함께 하는 검토, 모범 사례 개발, 보급 및 교육이 포함됩니다.

배포 및 성능 최적화 모범 사례

AWS는 AWS Responsible Use of Machine Learning guide(AWS의 책임 있는 기계 학습 사용 가이드)에 설명된 대로 애플리케이션을 책임 있게 구축하고 운영할 것을 장려합니다. 공정성 및 편향, 견고성, 설명 가능성, 개인 정보 보호 및 보안, 투명성, 거버넌스와 같은 주요 측면을 해결하기 위한 책임 있는 AI 사례를 구현하는 것은 이러한 활동의 일부입니다.
 
워크플로 설계: Transcribe를 사용하는 모든 애플리케이션의 성능은 고객 워크플로의 설계에 따라 달라집니다. 배경 소음, 녹음 장비 및 기타 조건은 용도 사례 섹션에 설명되어 있습니다. Transcribe 고객은 애플리케이션에 따라 최종 사용자의 오디오를 캡처하는 워크플로를 정의할 때 이러한 조건을 최적화할 수 있습니다. Transcribe는 API 내에서 인식 성능을 최적화할 수 있는 기능을 제공합니다. 이러한 기능에는 녹음 조건, 샘플 속도, 사용자 지정 단어집, 사용자 지정 언어 모델, 어휘 또는 개인 식별 정보(PII) 필터링이 포함됩니다. 인적 감독, 워크플로 일관성 및 성능 드리프트에 대한 주기적인 테스트 또한 고객이 통제할 수 있는 중요한 고려 사항이며 정확하고 공정한 결과를 생성하는 데 기여합니다.
 
  1. 녹음 조건: 워크플로에는 마이크에서 멀리 떨어져 있거나 시끄러운 상황에서 말하는 것과 같은 녹음 조건의 차이를 해결하기 위한 단계가 포함되어야 합니다. 차이가 큰 경우 모든 최종 사용자가 액세스할 수 있는 도움말과 지침을 제공하고 입력을 주기적으로 무작위 샘플링하여 녹음 품질을 모니터링하는 것이 좋습니다.

  2. 샘플링 속도: 저대역(8kHz) 또는 광대역(16kHz) 입력 중에서 입력 오디오의 샘플링 속도를 지정하는 선택적 파라미터를 사용할 수 있습니다.

  3. 사용자 지정 단어집: Transcribe는 다양한 화자 커뮤니티(방언 지역, 인구통계 그룹)에서 사용되는 어휘를 인식합니다. 해당하는 도메인 또는 상황에 맞는 특정 단어(예: 브랜드 이름, 고유 명사 및 두문자어)에 대한 추가 지원을 제공하려는 경우 사용자 지정 단어집을 배포하여 이러한 단어의 트랜스크립션 정확도를 높일 수 있습니다. 자세한 내용은 사용자 지정 단어집에 대한 설명서를 참조하세요.

  4. 사용자 지정 언어 모델: 단일 단어보다 복잡한 도메인별 음성을 처리해야 하는 애플리케이션의 경우 사용자 지정 언어 모델을 사용하여 트랜스크립션 정확도를 개선할 수 있습니다. 예를 들어 기후 과학 강연의 녹음을 기록할 때는 단어가 나타나는 문맥(예: ‘ice flow’와 ‘ice floe’)을 학습하여 트랜스크립션 정확도를 높일 수 있습니다. 이 경우 전문 용어를 인식하도록 사용자 지정 언어 모델을 훈련할 수 있습니다. 자세한 내용은 사용자 지정 언어 모델에 대한 설명서를 참조하세요.

  5. 어휘 필터링 및 PII 수정: 이러한 최적화를 수행하면 트랜스크립션에서 생성되는 언어의 보안 및 개인 정보 보호를 개선할 수 있습니다. 어휘 필터링을 사용하면 고객이 정의한 목록을 기반으로 트랜스크립션 결과에서 민감한 단어 또는 대상에 적합하지 않은 단어를 숨기거나 제거할 수 있습니다. PII 수정 기능을 사용하면 Transcribe – Batch (English-US)로 식별된 PII 유형을 기반으로 PII가 제거된 트랜스크립트를 생성할 수 있습니다. 여기에는 이름, 주소, 신용카드 번호, SSN 등이 포함됩니다. 규제 대상 워크로드에 대한 PII 수정 사용 시 고려 사항과 PII 유형의 전체 목록을 비롯한 자세한 내용은 어휘 필터링PII 수정에 대한 설명서를 참조하세요.

  6. 인적 감독: 애플리케이션 워크플로에 개인의 권리나 필수 서비스 액세스에 영향을 미치는 결정과 같이 위험도가 높거나 민감한 사용 사례가 포함되는 경우 적절한 선에서 애플리케이션 워크플로에 인적 검토를 통합하는 것이 좋습니다. ASR 시스템은 완전 수동 솔루션으로 인해 발생하는 작업을 줄이고 사람을 통해 오디오 콘텐츠를 신속하게 검토 및 평가할 수 있게 하는 도구 역할을 할 수 있습니다.

  7. 일관성: 허용되는 워크플로 사용자 지정 및 오디오 입력의 종류와 사람이 자신의 판단으로 Transcribe 출력을 평가하는 방법에 대한 정책을 설정하고 시행해야 합니다. 이러한 정책은 인구통계 그룹 전반에 걸쳐 일관되어야 합니다. 오디오 입력을 일관되지 않게 수정하면 여러 인구 집단에 대해 불공정한 결과가 초래될 수 있습니다.

  8. 성능 드리프트: Transcribe에 제출하는 오디오 종류가 변경되거나 서비스가 변경되면 출력이 달라질 수 있습니다. 이러한 변경 사항을 해결하려면 Transcribe의 성능을 정기적으로 다시 테스트하고 필요한 경우 워크플로를 조정하는 것을 고려해야 합니다.

추가 정보

용어집

공정성 및 편향은 AI 시스템이 사용자의 다양한 하위 집단(예: 성별, 민족)에 미치는 영향을 나타냅니다.

설명 가능성이란 AI 시스템의 출력을 이해하고 평가할 수 있는 메커니즘을 갖추는 것을 의미합니다.

견고성은 AI 시스템의 안정적인 작동을 보장하는 메커니즘을 갖추는 것을 말합니다.

개인 정보 보호 및 보안이란 데이터를 도난 및 노출로부터 보호하는 것을 말합니다.

거버넌스는 조직 내에서 책임 있는 AI 관행을 정의, 구현 및 시행하기 위한 프로세스를 갖추는 것을 말합니다.

투명성은 이해 관계자가 시스템 사용에 대해 정보에 입각한 선택을 할 수 있도록 AI 시스템에 대한 정보를 전달하는 것을 말합니다.