메인 콘텐츠로 건너뛰기

오디오 파일 트랜스크립션이란 무엇인가요?

오디오 파일 트랜스크립션이란 무엇인가요?

조직에서는 정리된 회의 메모부터 의료 애플리케이션에 이르기까지 다양한 사용 사례에 맞는 대규모 오디오 트랜스크립션이 필요합니다. 최신 AI 기술은 오디오를 텍스트로 변환하여 여러 화자 간의 다양한 억양과 대화를 정확한 형식의 문서로 변환할 수 있습니다. 이 가이드에서는 기업 및 소규모 비즈니스에 필요한 오디오를 텍스트로 변환하는 방법을 살펴보겠습니다.

음성 기반 커뮤니케이션은 인간이 서로를 완전히 이해하는 데 매우 중요한 역할을 합니다. 음성은 아이디어, 정보, 지침 및 감정을 신속하게 전달하는 방법입니다. 오디오-텍스트 변환기를 통해 음성 통신을 녹음 및 실사하는 것은 회상, 정확성 및 추가 작업에 필수적니다. 오디오를 텍스트로 변환하면 중요한 정보를 보존, 검색, 분석, 리믹스하여 더 빠르게 인사이트를 얻고 비즈니스 프로세스에 즉시 결합할 수 있습니다.

과거에는 사람이 하나의 오디오 녹음을 듣고 동시에 내용을 입력하고, 멈춘 다음, 정확한 대본을 만들기 시작하여 음성을 변환했습니다. 법률 회사, 의사, 연구원 및 기타 전문 사무소에는 음성 메모의 오디오를 텍스트로 옮기는 이러한 수동 역할을 수행하는 타이피스트 인력이 있었습니다.

이제 기계는 오디오-텍스트 변환기를 통해 오디오를 즉시 변환할 수 있습니다. 사람이 수고하는 대신 음성-텍스트(STT) 기술을 사용하면 오디오 파일을 텍스트 파일로 변환할 수 있습니다. 이렇게 작성된 텍스트 파일은 있는 그대로 읽을 수 있고, AI 트랜스크립터로 요약할 수 있으며, 다른 소프트웨어 시스템 내에서 자동으로 작동하고, 개별적으로 분석하거나 더 넓은 코퍼스의 일부로 분석할 수 있습니다. 오디오-텍스트 변환기의 응용 분야는 무궁무진합니다.

오디오 파일 트랜스크립션 기술이란 무엇인가요?

오디오 파일에는 다양한 화자, 악센트 및 분야별 단어가 포함될 수 있습니다. 오디오 녹음의 음질도 다를 수 있습니다. 음성을 텍스트로 변환하려면 읽기 가능한 결과물을 생성하기 위해 음성 언어 이해, 언어 구문, 문법 지식 등이 필요합니다.

기존의 오디오-텍스트 변환기 소프트웨어는 실수를 저질렀고 적절한 구조 없이 읽기 어려운 대본을 만들어 냈으며, 계층, 단어 및 문법 오류가 발생했습니다. 최신 오디오-텍스트 변환기 소프트웨어는 적절한 서면 구조와 문법을 특징으로 하는 정확한 스크립트를 활용하여 오디오를 음성과 거의 일치하는 텍스트로 변환하고 훨씬 더 나은 성능을 발휘합니다.

Amazon Transcribe는 음성을 텍스트로 빠르게 정확하게 변환하는 완전관리형 자동 음성 인식(ASR) 서비스입니다. 발화 속도, 음높이, 음량의 변화를 비롯한 다양한 음성 특성을 처리할 수 있습니다. 엔터프라이즈 오디오-텍스트 요구 사항을 처리하기 위한 개발자 워크플로와 AWS 인프라에 연결하여 100개 이상의 언어로 변환할 수 있습니다.

오디오 트랜스크립션을 시작하는 방법은 무엇인가요?

오디오 또는 비디오 파일 유형에 따라 오디오를 텍스트로 변환하는 두 가지 주요 방법이 있습니다. 배치 트랜스크립션은 사전 녹음된 오디오 파일을 트랜스크립팅하는 데 사용하며, 스트리밍 트랜스크립션은 라이브 미디어 스트리밍을 트랜스크립팅하는 데 사용합니다.

Amazon Transcribe는 일괄 처리, 스트리밍 오디오 및 비디오 트랜스크립션 유형 모두에 대해 단일 채널 및 이중 채널 오디오를 지원합니다.

일괄 처리 및 스트리밍 오디오-텍스트 변환은 모두 JSON 파일 형식으로 출력됩니다. 출력에 제공되는 필드는 오디오를 변환할 때 트랜스크립션 요청에 포함하는 기능에 따라 달라집니다. 스크립트에는 최소한 주어진 각 단어, 시작 시간, 종료 시간, 유형, 어휘 필터 일치 여부 및 검증을 위한 신뢰도 점수가 포함됩니다. 기타 필드에는 화자 레이블, 대체 단어, 채널 등이 포함됩니다.

트랜스크립션 스트리밍

트랜스크립션 스트리밍은 오디오 스트리밍을 실시간으로 트랜스크립팅하는 데 사용됩니다. Amazon Transcribe 스트리밍 트랜스크립션 서비스는 선호 형식으로 Ogg Opus와 함께 FLAC 및 PCM 서명 16비트 리틀 엔디안 오디오(WAV 아님)를 지원합니다. 오디오-텍스트 변환 오류를 방지하려면 오디오 파일과 일치하는 샘플 속도를 설정하세요.

트랜스크립션 도구를 사용하는 방식에 따라 AWS Management Console, HTTP/2, 웹 소켓 및 다양한 AWS SDK를 사용하여 트랜스크립션을 스트리밍할 수 있습니다.

AWS Management Console을 사용한 스트리밍 오디오 트랜스크립션 안내는 아래에 설명되어 있습니다.

  1. 왼쪽 탐색 창에서 실시간 트랜스크립션을 선택합니다.
  2. 스트리밍을 시작하기 전에 언어, 화자 식별, 콘텐츠 삭제, 사용자 지정 등 옵션을 선택하세요.
  3. 스트리밍 시작 버튼을 클릭하여 실시간으로 직접 녹음하고 아래 트랜스크립션 출력 상자에서 트랜스크립션이 시작되는 결과를 볼 수 있습니다.

오디오 녹음 변환이 완료되면 전체 스크립트 다운로드 버튼을 클릭하여 JSON 파일 스크립트를 무료로 다운로드할 수 있습니다.

배치 파일 트랜스크립션

배치 트랜스크립션은 Amazon S3 클라우드 스토리지 버킷에 저장된 기존 미디어 파일을 하나 이상 트랜스크립션하는 데 사용됩니다. 배치 서비스를 활용해 선입 선출 시스템에서 처리하기 위해 대기열에 최대 10,000개의 오디오 파일 작업을 업로드할 수 있습니다. 오디오 파일을 한 번에 변환할 수 있도록 구독에 따라 음성 녹음 작업을 동시에 처리할 수 있습니다.

배치 트랜스크립션은 FLAC 및 WAV(PCM 16비트 인코딩 사용)를 기본 형식으로 지원합니다. 하지만 AMR, M4A, MP3, MP4, Ogg, WebM 등 다른 형식도 지원됩니다. 오디오-텍스트 변환 오류를 방지하려면 오디오 파일과 일치하는 샘플 속도를 설정해야 합니다.

AWS CLI, AWS Management Console, 다양한 AWS SDK를 사용하여 배치 트랜스크립션 프로세스를 통해 오디오를 텍스트로 변환할 수 있습니다.

AWS Management Console을 사용한 배치 오디오 트랜스크립션 안내는 아래에 설명되어 있습니다.

  1. Amazon S3 버킷에 변환하려는 미디어 파일을업로드합니다.
  2. 왼쪽 탐색 창에서 트랜스크립션 작업을 선택합니다. 그런 다음, 트랜스크립션 작업 목록으로 이동합니다.
  3. 작업 생성 선택하고 작업 세부 정보 지정 페이지의 필드를 채웁니다.
  4. 작업을 구성한 후 작업 생성 버튼을 클릭하여 시작합니다.
  5. 작업 상태를 볼 수 있는 트랜스크립션 작업 페이지로 돌아가세요.
  6. 출력 데이터 위치 아래 오른쪽 열에서 연결된 파일 경로를 선택하면 JSON 파일 기록을 확인할 수 있습니다.

참고: 서비스 관리 버킷을 출력하도록 선택한 경우, 트랜스크립션 작업의 정보 페이지에서 트랜스크립션 미리 보기 창과 JSON 오디오-텍스트 파일의 다운로드 버튼을 확인할 수 있습니다.

구성 중 다음 페이지를 완료하세요..

입력 데이터

입력 데이터 페이지에서 S3의 입력 파일 위치는 기존 S3 버킷의 오디오 파일이고, 출력 데이터 S3 서비스 관리 버킷 또는 사용자 고유의 S3 버킷입니다.

작업 구성

작업 구성 페이지에서는 채널 식별, 콘텐츠 수정 및 필터링, 사용자 지정 어휘 등 사용자 지정을 선택할 수 있습니다.

추가적인 트랜스크립션 기능에는 어떤 것이 있나요?

Amazon Transcribe에는 오디오 또는 비디오 파일을 변환할 때 더 유용하고 안전하며 정확한 스크립트를 생성할 수 있는 다양한 추가 기능이 있습니다.

사용자 지정 어휘 및 언어 모델

사용자는 사용자 지정 어휘 및 언어 모델을 생성하여 분야별 브랜드 이름, 두문자어, 전문 용어 및 전문 용어로 오디오를 정확하게 캡처하고 기록할 수 있습니다. 사용자 지정 언어 모델은 내부 언어 생태계가 발전하고 있거나 고도로 전문화된 기술 산업을 갖춘 대규모 조직에 유용합니다.

사용자 지정 어휘는 특정 단어를 발음하는 방법을 보여주는 사용자 제작 파일입니다. 예를 들어 VX02Q 프로젝트를 V.x.-zero-Two-Q라는 발음을 사용하여 사용자 지정 어휘에 추가할 수 있습니다.

사용자 지정 언어 모델을 사용하면 오디오-텍스트 모델이 기존 데이터세트에 대한 추가 교육을 완료하여 도메인별 언어의 컨텍스트를 이해할 수 있습니다. 예를 들어 기후 과학 연구 논문의 텍스트 업로드를 통해 모델을 학습시키는 경우 모델은 'ice flow'보다 'ice floe'가 단어 쌍일 가능성이 더 높다는 것을 학습할 수 있습니다. 마찬가지로 'Bzntry'라는 제품을 참조하는 경우 “bee-zen-tree”에 대한 여러 언급이 포함된 오디오 파일 데이터세트가 오디오를 단어 출력과 자동으로 일치합니다.

일괄 처리 및 스트리밍 오디오-텍스트 변환은 모두 사용자 지정 어휘와 사용자 지정 언어 모델을 지원합니다.

자동 중재

사용자 지정 어휘 필터를 사용하면 JSON 스크립트 출력에서 특정 단어나 단어 조합을 마스킹, 바꾸거나 태그 지정 (“VolecaaryFilterMatch”: true) 할 수 있습니다.

예시:

  • 욕설 단어를 별표 3개로 가리기 (***)
  • 출시 전 비밀 제품 이름을 'NewProduct'라는 단어로 바꾸기
  • 발표자가 대중 연설 기술을 연마하는 데 도움이 되도록 녹취록에서 “으음” 또는 “좋아요”라고 표시된 태그의 수를 세어보세요

일괄 처리 및 스트리밍 오디오-텍스트 변환은 모두 어휘 필터를 지원합니다.

PII 편집 및 식별

개인 식별 정보(PII)는 자동으로 편집되고 오디오-텍스트 변환본에 태그가 지정될 수 있습니다. PII는 엄격한 기밀 유지법의 적용을 받을 수 있으므로 비즈니스에 민감한 정보를 저장하는 데 중요합니다.

Amazon Transcribe에 포함된 PII 유형에는 이름, 주소, 이메일 주소, 전화번호, 은행 번호 세부 정보, PIN 및 주민등록번호가 있습니다. JSON 파일의 단어는 오디오-텍스트 변환기에 의해 성적표의 본문에서 [PII]로 대체되며, “교정” JSON 필드에서 유형별로 계산 및 분류됩니다.

자막 제작

Amazon Transcribe를 사용하면 일반 출력 JSON 파일과 함께 WebVTT(*.vtt) 및 SubRip (*.srt) 자막 파일을 생성하여 비디오와 페어링할 수 있습니다. 자막은 오디오 또는 비디오 파일에서 텍스트 음성과 동시에 표시되며 오디오가 자연스럽게 일시 중지되거나 발언자가 말을 마칠 때까지 계속 표시됩니다.

유해성 검출

Amazon Transcribe는 유해한 언어를 식별하고 분류하는 데 사용할 수 있습니다. 유해 콘텐츠는 신고되고 성희롱, 모욕적 언어, 위협, 남용, 욕설, 모욕 및 그래픽 등 7개의 카테고리로 분류됩니다. Amazon Transcribe는 어조와 피치를 비롯한 고급 식별 기술을 사용하여 대화에 추가 컨텍스트를 제공합니다.

통화 분석

Amazon Transcribe는 고객 서비스 및 영업 통화를 위한 특수 API를 제공합니다. 이를 사용하여 고객 및 에이전트의 감정, 통화 요인, 문구 언급, 통화 중단 시간, 통화 속도, 실시간 문제 감지 및 대화 요약에 대한 통찰력을 얻을 수 있습니다. 또한 Amazon Transcribe는 통화 후 오디오 녹음 편집을 수행하여 저장된 통화에 대해 PII를 무음으로 대체할 수 있습니다.

의료 기록

Amazon Transcribe는 환자 데이터 보호 및 보안을 우선시하면서 오디오 파일의 정확한 의료 언어 오디오-텍스트 트랜스크립션을 제공하는 HIPAA 준수 API를 제공합니다. 메모를 하는 데 시간이 많이 걸리고 주의를 산만하게 하며 방해가 되는 임상의-환자 상호 작용에 유용합니다.

AWS는 오디오 트랜스크립션 요구 사항을 어떻게 지원할 수 있나요?

오디오-텍스트 트랜스크립션은 특정 시점 통신 방식에서 저장, 검색, 분석 가능한 매우 중요한 데이터 소스로 음성을 변환합니다. 조직은 음성 인식을 활용해 오디오를 녹음하여, 생산성, 교육, 고객 서비스, 판매 등에서 상당한 이득을 얻고 있습니다.

Amazon Transcribe 오디오-텍스트 변환기를 조직에 임베딩하면 음성 녹음이 지닌 가치를 유지하고 유용한 애플리케이션을 확장할 수 있습니다. 앱을 더욱 빠르고 강력하게 구축하고 확장하는 데 도움이 되는 AWS의 다양한 AI 솔루션을 살펴보세요.