Geral

P: O que é o Amazon Transcribe?

O Amazon Transcribe é um serviço da AWS que permite aos clientes converter facilmente discurso em texto. Usando a tecnologia Automatic Speech Recognition (ASR – Reconhecimento automático de fala), os clientes podem optar por usar o Amazon Transcribe em uma variedade de aplicativos de negócios, incluindo a transcrição de chamadas de voz do atendimento ao cliente, a geração de legendas em conteúdo de áudio/vídeo e a realização de análise de conteúdo (baseada em texto) de áudio/vídeo.  

P: Como o Amazon Transcribe interage com outros produtos da AWS?

O Amazon Transcribe converte entrada de áudio em texto, o que abre caminho para vários aplicativos de análise de texto com base na entrada de voz. Por exemplo, ao usar o Amazon Comprehend nos dados de texto convertidos do Amazon Transcribe, os clientes podem fazer análise de sentimentos ou extrair personalidades e frases-chave. Da mesma forma, ao integrar o Amazon Translate e o Amazon Polly, os clientes podem aceitar a entrada de voz em um idioma, traduzi-la para outro e gerar saída de voz, permitindo conversas multilíngues eficazes. Também é possível integrar o Amazon Transcribe com o Amazon Elasticsearch para indexar e executar pesquisa baseada em texto em toda a biblioteca de áudio/vídeo. 

Como usar o Amazon Transcribe

P: Como os desenvolvedores acessarão o Transcribe?

A maneira mais fácil de começar a usar o Amazon Transcribe é enviar um trabalho pelo console para transcrever um arquivo de áudio. Você pode chamar o serviço diretamente da Interface da Linha de Comando da AWS ou usar um dos SDKs com suporte de sua escolha para integrar aos aplicativos. De qualquer modo, você pode começar a usar o Amazon Transcribe para gerar transcrições automatizadas para arquivos de áudio com apenas algumas linhas de código.

P: Para que tipos de entrada o Amazon Transcribe oferece suporte?

O Amazon Transcribe oferece suporte a streams de áudio de 16 kHz e 8 kHz, bem como a várias codificações de áudio, como WAV, MP3, MP4 e FLAC.

P: O Amazon Transcribe oferece suporte para transcrições em tempo real?

Sim. O Amazon Transcribe permite que usuários abram um fluxo bidirecional em HTTP2. Os usuários podem enviar um fluxo de áudio para o serviço enquanto recebem de volta um fluxo de texto em tempo real.  

P: Que codificação a transcrição em tempo real suporta?

A transcrição de streaming atualmente suporta codificação PCM Linear de 16 bits. 

P: Quais idiomas são aceitos pelo Amazon Transcribe?

Para obter mais informações sobre os idiomas aceitos, consulte esta página de documentação

P: Com quais dispositivos o Amazon Transcribe funciona?

Em sua maior parte, o Amazon Transcribe não especifica dispositivos. Em geral, o Amazon Transcribe funciona em qualquer dispositivo que inclua um microfone integrado, como telefones, PCs, tablets, e dispositivos de IoT (como sistemas de áudio de automóveis). A API do Amazon Transcribe detectará a qualidade do fluxo de áudio que chega ao dispositivo (8 kHz vs. 16 kHz) e selecionará corretamente os modelos acústicos para converter a fala em texto. Além disso, os desenvolvedores podem chamar a API do Transcribe por meio dos seus aplicativos para acessar o recurso de conversão de discurso em texto. 

P: Há restrições de tamanho no conteúdo de áudio que o Amazon Transcribe pode processar?

No serviço em lotes, as chamadas ao Amazon Transcribe estão limitadas a 4 horas (ou 2 GB) por chamada à API. O serviço de streaming pode acomodar conexões abertas por até 4 horas. 

P: Quais linguagens de programação são suportadas pelo Amazon Transcribe?

O serviço em lote do Amazon Transcribe oferece suporte a .NET, Go, Java, Javascript, PHP, Python e Ruby.
O serviço em tempo real do Amazon Transcribe oferece suporte a Java SDK, Ruby SDK e C++ SDK. Em breve, haverá suporte adicional a SDK. Para obter mais detalhes, visite a página Recursos

P: As palavras do meu vocabulário personalizado não estão sendo reconhecidas. O que posso fazer?

A saída do reconhecimento de fala depende de vários fatores além das entradas do vocabulário personalizado. Por isso, não há garantia de que um termo incluído no vocabulário personalizado será reconhecido corretamente.
No entanto, o motivo mais frequente é a falta da pronúncia correta em uma palavra personalizada. Se você não forneceu uma pronúncia para sua palavra personalizada, tente criar uma. Se você já forneceu uma pronúncia, verifique novamente se está correta ou inclua outras variantes, se necessário. Para isso, crie várias entradas no arquivo do vocabulário personalizado com diferenças no campo de pronúncia.

P: Por que vejo muitas palavras personalizadas em minha saída?

Os vocabulários personalizados ~são otimizados para uma pequena lista de palavras específicas. Os vocabulários maiores podem levar à geração excessiva de palavras personalizadas, especialmente quando esses vocabulários contêm palavras que são pronunciadas de maneira similar. Se você tem uma lista grande tente reduzi-la a palavras raras e a palavras que você realmente espera que ocorram em seus arquivos de áudio. Se você tem um vocabulário grande que abrange vários casos de uso, divida-o em listas separadas por diferentes casos de uso. As palavras que são curtas e soam de maneira semelhante a várias outras palavras podem levar à geração excessiva (muitas palavras personalizadas exibidas na saída). É melhor combinar essas palavras com outras ao redor e listá-las como frases separadas por hifens. Por exemplo, a palavra personalizada "A.D." poderia ser incluída como parte de uma frase, como "A.D.-converter".

P: Entre os campos IPA ou SoundsLike na tabela do vocabulário personalizado, qual é a melhor maneira de fornecer pronúncias?

O campo IPA permite pronúncias mais precisas. Você deve fornecer pronúncias IPA se conseguir gerá-las (por exemplo, de um dicionário com pronúncias IPA ou uma ferramenta de conversão on-line).

P: Gostaria de usar IPA, mas não sou um especialista linguístico. Há uma ferramenta on-line que eu possa usar?

Vários dicionários padrão, como o Oxford English Dictionary ou o Cambridge Dictionary, incluindo as respectivas versões on-line, incluem pronúncias em IPA. Também há conversores on-line, como o easypronunciation.com ou o tophonetics.com para inglês. No entanto, a maioria dessas ferramentas se baseia em dicionários subjacentes e pode não gerar o IPA correto para algumas palavras, como nomes próprios. O Amazon Transcribe não endossa nenhuma ferramenta de terceiros.

P: Preciso usar padrões IPA diferentes que sejam específicos de sotaques diferentes do mesmo idioma, como o inglês norte-americano e o inglês britânico?

Use o padrão IPA adequado aos arquivos de áudio que você vai processar. Por exemplo, se você espera processar áudio de falantes do inglês britânico, use o padrão de pronúncia do inglês britânico. O conjunto de símbolos IPA permitidos pode ser diferente para os diferentes idiomas e dialetos compatíveis com o Amazon Transcribe. Verifique se as suas pronúncias contêm somente os caracteres permitidos. Veja os detalhes sobre os conjuntos de caracteres IPA na documentação: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html#charsets

P: Posso fornecer a pronúncia usando o campo SoundsLike na tabela do vocabulário personalizado?

Você pode dividir a palavra ou frase em partes menores e fornecer uma pronúncia para cada parte usando a ortografia padrão do idioma para imitar a maneira como a palavra soa. Por exemplo, no inglês é possível fornecer dicas de pronúncia para a frase Los-Angeles assim: loss-ann-gel-es. A dica da palavra Etienne poderia ser assim: eh-tee-en. Cada parte da dica é separada por um hífen (-). Você pode usar qualquer um dos caracteres permitidos para o idioma de entrada.

P: Como funcionam as duas maneiras diferentes de fornecer acrônimos (a com pontos e a sem pontos com pronúncias)?

Se você usar um acrônimo com pontos, a pronúncia soletrada será gerada internamente. Se você não usar pontos, forneça a pronúncia no campo pronúncia. Para alguns acrônimos, não é óbvio se eles têm uma pronúncia soletrada ou uma pronúncia como palavra (por exemplo, NATO geralmente é pronunciado "n eɪ t oʊ" (nay-toh) em vez de "ɛn eɪ ti oʊ" (N. A. T. O.)).

P: Onde posso encontrar exemplos de como usar pronúncias personalizadas?

Encontre amostras e exemplos de formatos de entrada na documentação: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html.

P: O que acontece se eu usar o IPA errado? Se eu não tiver certeza, é melhor não colocar IPA algum?

O sistema usará a pronúncia que você fornecer. Isso deverá aumentar a probabilidade de reconhecimento correto da palavra se a pronúncia estiver correta e corresponder ao que foi falado. Se você não tem certeza de que está gerando o IPA correto, faça uma comparação processando seus arquivos de áudio com um vocabulário que contenha suas pronúncias IPA e com um vocabulário que contenha apenas as palavras (e, opcionalmente, as formas "exibir como"). Se você não fornecer nenhuma pronúncia, o serviço usará uma aproximação, que pode ou não funcionar melhor que sua entrada.

P: Ao usar as formas DisplayAs, posso exibir conjuntos de caracteres não relacionados ao idioma original sendo transcrito (por exemplo, "Rua" como "街道").

Sim. Embora as frases possam usar apenas um conjunto restrito de caracteres para o idioma específico, os caracteres UTF-8, com exceção de \t (TAB), são permitidos na coluna DisplayAs.

Definição de preço e disponibilidade

P: Qual é o custo?

Consulte a página Definição de preço do Amazon Transcribe para saber mais.

P: Quais regiões da AWS estão disponíveis para o Amazon Transcribe?

Consulte a Tabela de regiões da infraestrutura global da AWS.

Privacidade de dados

P: As entradas de voz processadas pelo Amazon Transcribe são armazenadas? Como são usadas pela AWS?

O Amazon Transcribe pode armazenar e usar entradas de voz processadas pelo serviço exclusivamente para oferecer e manter o serviço e para aprimorar e desenvolver a qualidade do Amazon Transcribe e de outras tecnologias de Machine Learning/inteligência artificial da Amazon. O uso do seu conteúdo é importante para o aprimoramento contínuo da experiência de cliente do Amazon Transcribe, incluindo o desenvolvimento e o treinamento de tecnologias relacionadas. Não usamos nenhuma informação de identificação pessoal presente no conteúdo para direcionar produtos, serviços ou marketing para você ou para seus usuários finais. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetada para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o uso que fazemos deles seja compatível com os compromissos que assumimos com você. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obter mais informações. Você pode optar por não ter seu conteúdo usado para melhorar e desenvolver a qualidade do Amazon Transcribe e de outras tecnologias de Machine Learning/inteligência artificial da Amazon entrando em contato com o AWS Support.

P: Posso excluir as entradas de voz armazenadas pelo Amazon Transcribe?

Sim. É possível solicitar a exclusão de entradas de voz associadas à sua conta, basta entrar em contato com o AWS Support. A exclusão de entradas de voz pode prejudicar a experiência com o Amazon Transcribe.

P: Quem tem acesso ao meu conteúdo processado e armazenado pelo Amazon Transcribe?

Somente funcionários autorizados terão acesso ao seu conteúdo que é processado pelo Amazon Transcribe. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetada para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o uso que fazemos deles seja compatível com os compromissos que assumimos com você. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obter mais informações.

P: Meu conteúdo processado e armazenado pelo Amazon Transcribe ainda é de minha propriedade?

Você sempre mantém a propriedade do conteúdo. Somente usaremos o seu conteúdo com o seu consentimento.

P: O conteúdo processado pelo Amazon Transcribe é movido para fora da região da AWS onde estou usando o Amazon Transcribe?

Todo o conteúdo processado pelo Amazon Transcribe é criptografado e armazenado quando ocioso na região da AWS onde você usa o Amazon Transcribe. Parte do conteúdo processado pelo Amazon Transcribe pode ser armazenado em outra região da AWS unicamente em conexão com a melhoria contínua e o desenvolvimento de sua experiência de cliente do Amazon Transcribe e outras tecnologias de machine learning/inteligência artificial da Amazon. Se você optar por não ter seu conteúdo usado para melhorar e desenvolver a qualidade do Amazon Transcribe e de outras tecnologias de machine learning/inteligência artificial da Amazon entrando em contato com o AWS Support, o conteúdo não será armazenado em outra região da AWS. É possível solicitar a exclusão de entradas de voz associadas à sua conta, basta entrar em contato com o AWS Support. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetados para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o uso que fazemos deles seja compatível com os compromissos que assumimos com você. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obter mais informações.

P: Posso usar o Amazon Transcribe em sites, programas ou outros aplicativos criados ou direcionados para crianças menores de 13 anos de idade e sujeitos à Children’s Online Privacy Protection Act (COPPA – Lei de proteção da privacidade infantil online)?

Sim. Sujeito à sua conformidade com os termos de serviços do Amazon Transcribe, que incluem a sua obrigação de disponibilizar qualquer notificação exigida e obter todos os consentimentos parentais verificáveis exigidos pela COPPA, você poderá usar o Amazon Transcribe em sites, programas ou outros aplicativos criados ou direcionados, no todo ou em parte, para crianças menores de 13 anos de idade.

P: Como posso determinar se um site, programa ou aplicativo está sujeito à COPPA?

Para obter informações sobre os requisitos da COPPA e as diretrizes para determinar se um site, programa ou outro aplicativo está sujeito à COPPA, consulte diretamente os recursos disponibilizados e mantidos pela United States Federal Trade Commission (Comissão Federal de Comércio dos Estados Unidos). Esse website também contém informações sobre de como determinar se um serviço é direcionado ou criado, de modo integral ou parcial, para crianças menores de 13 anos.

Saiba mais sobre a definição de preço do Amazon Transcribe

Acesse a página de definição de preço