Geral

P: O que é o Amazon Transcribe?

O Amazon Transcribe é um serviço da AWS que permite aos clientes converter facilmente discurso em texto. Usando a tecnologia Automatic Speech Recognition (ASR – Reconhecimento automático de fala), os clientes podem optar por usar o Amazon Transcribe em uma variedade de aplicativos de negócios, incluindo a transcrição de chamadas de voz do atendimento ao cliente, a geração de legendas em conteúdo de áudio/vídeo e a realização de análise de conteúdo (baseada em texto) de áudio/vídeo.  

P: Como o Amazon Transcribe interage com outros produtos da AWS?

O Amazon Transcribe converte entrada de áudio em texto, o que abre caminho para vários aplicativos de análise de texto com base na entrada de voz. Por exemplo, ao usar o Amazon Comprehend nos dados de texto convertidos do Amazon Transcribe, os clientes podem fazer análise de sentimentos ou extrair personalidades e frases-chave. Da mesma forma, ao integrar o Amazon Translate e o Amazon Polly, os clientes podem aceitar a entrada de voz em um idioma, traduzi-la para outro e gerar saída de voz, permitindo conversas multilíngues eficazes. Também é possível integrar o Amazon Transcribe com o Amazon Elasticsearch para indexar e executar pesquisa baseada em texto em toda a biblioteca de áudio/vídeo. 

P: O que mais devo saber antes de usar o serviço Amazon Transcribe?

O serviço Amazon Transcribe foi desenvolvido para lidar com uma ampla variedade de características acústicas e de fala, incluindo variações de volume, afinação e taxa de fala. A qualidade e o conteúdo do sinal de áudio (incluindo, mas sem limitação, fatores como ruído de fundo, oradores sobrepostos, fala acentuada ou trocas de idioma dentro de um único arquivo de áudio) podem afetar a precisão da saída do serviço. Estamos constantemente atualizando o serviço para melhorar sua capacidade de acomodar variações acústicas e tipos de conteúdo adicionais. 

Como usar o Amazon Transcribe

P: Como os desenvolvedores acessarão o Transcribe?

A maneira mais fácil de começar a usar o Amazon Transcribe é enviar um trabalho pelo console para transcrever um arquivo de áudio. Você pode chamar o serviço diretamente da Interface da Linha de Comando da AWS ou usar um dos SDKs com suporte de sua escolha para integrar aos aplicativos. De qualquer modo, você pode começar a usar o Amazon Transcribe para gerar transcrições automatizadas para arquivos de áudio com apenas algumas linhas de código.

P: O Amazon Transcribe oferece suporte para transcrições em tempo real?

Sim. O Amazon Transcribe permite que usuários abram um fluxo bidirecional em HTTP2. Os usuários podem enviar um fluxo de áudio para o serviço enquanto recebem de volta um fluxo de texto em tempo real.  

P: Que codificação a transcrição em tempo real suporta?

A transcrição de streaming atualmente suporta codificação PCM Linear de 16 bits. 

P: Quais idiomas são aceitos pelo Amazon Transcribe?

Para obter mais informações sobre os idiomas aceitos, consulte esta página de documentação

P: Com quais dispositivos o Amazon Transcribe funciona?

Em sua maior parte, o Amazon Transcribe não especifica dispositivos. Em geral, o Amazon Transcribe funciona em qualquer dispositivo que inclua um microfone integrado, como telefones, PCs, tablets, e dispositivos de IoT (como sistemas de áudio de automóveis). A API do Amazon Transcribe detectará a qualidade do fluxo de áudio que chega ao dispositivo (8 kHz vs. 16 kHz) e selecionará corretamente os modelos acústicos para converter a fala em texto. Além disso, os desenvolvedores podem chamar a API do Transcribe por meio dos seus aplicativos para acessar o recurso de conversão de discurso em texto. 

P: Há restrições de tamanho no conteúdo de áudio que o Amazon Transcribe pode processar?

No serviço em lotes, as chamadas ao Amazon Transcribe estão limitadas a 4 horas (ou 2 GB) por chamada à API. O serviço de streaming pode acomodar conexões abertas por até 4 horas. 

P: Quais linguagens de programação são suportadas pelo Amazon Transcribe?

O serviço em lote do Amazon Transcribe oferece suporte a .NET, Go, Java, Javascript, PHP, Python e Ruby.
O serviço em tempo real do Amazon Transcribe oferece suporte a Java SDK, Ruby SDK e C++ SDK. Em breve, haverá suporte adicional a SDK. Para obter mais detalhes, visite a página Recursos

P: As palavras do meu vocabulário personalizado não estão sendo reconhecidas. O que posso fazer?

A saída do reconhecimento de fala depende de vários fatores além das entradas do vocabulário personalizado. Por isso, não há garantia de que um termo incluído no vocabulário personalizado será reconhecido corretamente.
No entanto, o motivo mais frequente é a falta da pronúncia correta em uma palavra personalizada. Se você não forneceu uma pronúncia para sua palavra personalizada, tente criar uma. Se você já forneceu uma pronúncia, verifique novamente se está correta ou inclua outras variantes, se necessário. Para isso, crie várias entradas no arquivo do vocabulário personalizado com diferenças no campo de pronúncia.

P: Por que vejo muitas palavras personalizadas em minha saída?

Os vocabulários personalizados ~são otimizados para uma pequena lista de palavras específicas. Os vocabulários maiores podem levar à geração excessiva de palavras personalizadas, especialmente quando esses vocabulários contêm palavras que são pronunciadas de maneira similar. Se você tem uma lista grande tente reduzi-la a palavras raras e a palavras que você realmente espera que ocorram em seus arquivos de áudio. Se você tem um vocabulário grande que abrange vários casos de uso, divida-o em listas separadas por diferentes casos de uso. As palavras que são curtas e soam de maneira semelhante a várias outras palavras podem levar à geração excessiva (muitas palavras personalizadas exibidas na saída). É melhor combinar essas palavras com outras ao redor e listá-las como frases separadas por hifens. Por exemplo, a palavra personalizada "A.D." poderia ser incluída como parte de uma frase, como "A.D.-converter".

P: Entre os campos IPA ou SoundsLike na tabela do vocabulário personalizado, qual é a melhor maneira de fornecer pronúncias?

O campo IPA permite pronúncias mais precisas. Você deve fornecer pronúncias IPA se conseguir gerá-las (por exemplo, de um dicionário com pronúncias IPA ou uma ferramenta de conversão on-line).

P: Gostaria de usar IPA, mas não sou um especialista linguístico. Há uma ferramenta on-line que eu possa usar?

Vários dicionários padrão, como o Oxford English Dictionary ou o Cambridge Dictionary, incluindo as respectivas versões on-line, incluem pronúncias em IPA. Também há conversores on-line, como o easypronunciation.com ou o tophonetics.com para inglês. No entanto, a maioria dessas ferramentas se baseia em dicionários subjacentes e pode não gerar o IPA correto para algumas palavras, como nomes próprios. O Amazon Transcribe não endossa nenhuma ferramenta de terceiros.

P: Preciso usar padrões IPA diferentes que sejam específicos de sotaques diferentes do mesmo idioma, como o inglês norte-americano e o inglês britânico?

Use o padrão IPA adequado aos arquivos de áudio que você vai processar. Por exemplo, se você espera processar áudio de falantes do inglês britânico, use o padrão de pronúncia do inglês britânico. O conjunto de símbolos IPA permitidos pode ser diferente para os diferentes idiomas e dialetos compatíveis com o Amazon Transcribe. Verifique se as suas pronúncias contêm somente os caracteres permitidos. Veja os detalhes sobre os conjuntos de caracteres IPA na documentação: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html#charsets

P: Posso fornecer a pronúncia usando o campo SoundsLike na tabela do vocabulário personalizado?

Você pode dividir a palavra ou frase em partes menores e fornecer uma pronúncia para cada parte usando a ortografia padrão do idioma para imitar a maneira como a palavra soa. Por exemplo, no inglês é possível fornecer dicas de pronúncia para a frase Los-Angeles assim: loss-ann-gel-es. A dica da palavra Etienne poderia ser assim: eh-tee-en. Cada parte da dica é separada por um hífen (-). Você pode usar qualquer um dos caracteres permitidos para o idioma de entrada.

P: Como funcionam as duas maneiras diferentes de fornecer acrônimos (a com pontos e a sem pontos com pronúncias)?

Se você usar um acrônimo com pontos, a pronúncia soletrada será gerada internamente. Se você não usar pontos, forneça a pronúncia no campo pronúncia. Para alguns acrônimos, não é óbvio se eles têm uma pronúncia soletrada ou uma pronúncia como palavra (por exemplo, NATO geralmente é pronunciado "n eɪ t oʊ" (nay-toh) em vez de "ɛn eɪ ti oʊ" (N. A. T. O.)).

P: Onde posso encontrar exemplos de como usar pronúncias personalizadas?

Encontre amostras e exemplos de formatos de entrada na documentação: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html.

P: O que acontece se eu usar o IPA errado? Se eu não tiver certeza, é melhor não colocar IPA algum?

O sistema usará a pronúncia que você fornecer. Isso deverá aumentar a probabilidade de reconhecimento correto da palavra se a pronúncia estiver correta e corresponder ao que foi falado. Se você não tem certeza de que está gerando o IPA correto, faça uma comparação processando seus arquivos de áudio com um vocabulário que contenha suas pronúncias IPA e com um vocabulário que contenha apenas as palavras (e, opcionalmente, as formas "exibir como"). Se você não fornecer nenhuma pronúncia, o serviço usará uma aproximação, que pode ou não funcionar melhor que sua entrada.

P: Ao usar as formas DisplayAs, posso exibir conjuntos de caracteres não relacionados ao idioma original sendo transcrito (por exemplo, "Rua" como "街道").

Sim. Embora as frases possam usar apenas um conjunto restrito de caracteres para o idioma específico, os caracteres UTF-8, com exceção de \t (TAB), são permitidos na coluna DisplayAs.

P: A redação de conteúdo automática está disponível para APIs em lote e streaming do Transcribe?

Não. No momento, está disponível apenas para APIs em lote.

P: Quais são os idiomas aceitos para redação de conteúdo automática?

No momento, é o inglês norte-americano (en-US).

P: A redação de conteúdo automática também redige informações pessoais confidenciais do áudio de origem?

Não. Este recurso não remove informações pessoais confidenciais do áudio de origem. Contudo, você mesmo pode redigir informações pessoais do áudio de origem usando carimbos de data/hora de início e fim que são informados nas transcrições redigidas para cada instância de PII identificado pronunciado.

P: Posso usar a redação de conteúdo automática para redigir informações pessoais das transcrições de texto?

Não. A redação de conteúdo automática só funciona com entradas de um arquivo de áudio.

P: O que mais devo saber para usar a redação de conteúdo automática?

A redação de conteúdo automática foi desenvolvida para identificar e remover informações de identificação pessoal (PII), mas devido à natureza preditiva de machine learning, ela não identifica e remove todas as instâncias de PII em uma transcrição gerada pelo serviço. Verifique se a saída fornecida pela redação de conteúdo automática atende às suas necessidades.

P: Quais APIs têm suporte para a identificação de idioma automática?

A identificação de idioma automática atualmente tem suporte para APIs em lote.

P: Quais idiomas o Amazon Transcribe pode identificar automaticamente?

O Amazon Transcribe pode identificar quaisquer um dos idiomas compatíveis com a API em lote.

P: O Amazon Transcribe pode identificar vários idiomas no mesmo arquivo de áudio?

O Amazon Transcribe somente identifica o idioma dominante de um arquivo de áudio.

P: Existe alguma forma de restringir a lista de idiomas para a identificação automática de idiomas?

Sim, você pode especificar uma lista de idiomas que podem estar persentes na sua biblioteca de mídia. Quando você fornece uma lista de idiomas, o idioma identificado será escolhido por meio dessa lista. Se nenhum idioma é especificado, o sistema processa o arquivo de áudio com todos os idiomas compatíveis com o Amazon Transcribe e seleciona o mais provável. A precisão da identificação de idiomas é melhor quando uma lista de idiomas selecionados é fornecida.

Definição de preço e disponibilidade

P: Qual é o custo?

Consulte a página Definição de preço do Amazon Transcribe para saber mais.

P: Quais regiões da AWS estão disponíveis para o Amazon Transcribe?

Consulte a Tabela de regiões da infraestrutura global da AWS.

Privacidade de dados

P: As entradas de voz processadas pelo Amazon Transcribe são armazenadas? Como são usadas pela AWS?

O Amazon Transcribe pode armazenar e usar entradas de voz processadas pelo serviço exclusivamente para oferecer e manter o serviço e para aprimorar e desenvolver a qualidade do Amazon Transcribe e de outras tecnologias de machine learning/inteligência artificial da Amazon. O uso do seu conteúdo é importante para o aprimoramento contínuo da experiência de cliente do Amazon Transcribe, incluindo o desenvolvimento e o treinamento de tecnologias relacionadas. Não usamos nenhuma informação de identificação pessoal presente no conteúdo para direcionar produtos, serviços ou marketing para você ou para seus usuários finais. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetada para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o uso que fazemos deles seja compatível com os compromissos que assumimos com você. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obter mais informações. Você pode optar por não ter seu conteúdo usado para melhorar e desenvolver a qualidade do Amazon Transcribe e de outras tecnologias de machine learning/inteligência artificial da Amazon usando uma política de desativação do AWS Organizations. Para obter informações sobre como optar por não participar, consulte Gerenciando a política de desativação de serviços de IA.

P: Posso excluir dados e artefatos associados a trabalhos de transcrição armazenadas pelo Amazon Transcribe?

Sim. Você pode usar as Delete APIs para excluir dados e outros artefatos associados aos trabalhos de transcrição. Se você tiver problemas para fazer isso, entre em contato com o AWS Support.

P: Quem tem acesso ao meu conteúdo processado e armazenado pelo Amazon Transcribe?

Somente funcionários autorizados terão acesso ao seu conteúdo que é processado pelo Amazon Transcribe. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetada para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o uso que fazemos deles seja compatível com os compromissos que assumimos com você. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obter mais informações.

P: Meu conteúdo processado e armazenado pelo Amazon Transcribe ainda é de minha propriedade?

Você sempre mantém a propriedade do conteúdo. Somente usaremos o seu conteúdo com o seu consentimento.

P: O que acontece com meus dados usados no treinamento de modelos de idioma personalizados? Eu ainda os possuo?

Ao enviar dados de texto usados para treinar um modelo dedicado, o cliente tem a propriedade dos dados de texto originais e também do modelo personalizado gerado. Os dados de texto não serão armazenados nem usados para melhorar nosso mecanismo geral de reconhecimento de voz. Os modelos produzidos usando o CLM são reservados e podem ser acessados apenas pelo cliente.

P: Como o serviço não manterá meus dados de treinamento, há alguma desvantagem ou degradação na qualidade da transcrição ou na experiência geral do serviço?

Não haverá degradação da qualidade de transcrição resultante de o nosso serviço não armazenar seus dados de treinamento. Quando os dados de treinamento forem usados para realmente produzir um modelo de idioma personalizado, o modelo propriamente dito ficará disponível para uso repetido, a seu próprio critério. O conjunto de treinamento original que você enviou é eliminado dos nossos sistemas. A única desvantagem é se você precisar de suporte técnico. Como não mantemos seus dados de treinamento originais, não teremos acesso conveniente a esses ativos ou artefatos intermediários relacionados se você precisar que a nossa equipe de suporte investigue possíveis problemas de serviço. O suporte ainda estaria disponível, mas não tão conveniente, pois talvez precisemos solicitar informações adicionais de você.

P: Como posso reutilizar os dados para futuras atualizações ou melhorias de modelos?

Como os dados de treinamento não são armazenados, o mesmo conjunto de dados e quaisquer dados adicionais terão que ser carregados novamente para treinar novos modelos. Você será notificado quando houver uma atualização do modelo base fornecida pela Amazon Transcribe. Para aproveitar o modelo base mais recente, você deve enviar seus dados para treinar um novo modelo. Dessa forma, você terá o modelo personalizado original que gerou anteriormente e também a nova versão para usar.

P: Como excluo um modelo?

Os usuários podem excluir a seu próprio critério qualquer modelo de idioma personalizado que eles tenham gerado.

P: O conteúdo processado pelo Amazon Transcribe é movido para fora da região da AWS onde estou usando o Amazon Transcribe?

Todo o conteúdo processado pelo Amazon Transcribe é criptografado e armazenado quando ocioso na região da AWS onde você usa o Amazon Transcribe. Parte do conteúdo processado pelo Amazon Transcribe pode ser armazenado em outra região da AWS unicamente em conexão com a melhoria contínua e o desenvolvimento de sua experiência de cliente do Amazon Transcribe e outras tecnologias de machine learning/inteligência artificial da Amazon. Se você optar por não ter seu conteúdo usado para melhorar e desenvolver a qualidade do Amazon Transcribe e de outras tecnologias de machine learning/inteligência artificial da Amazon entrando em contato com o AWS Support, o conteúdo não será armazenado em outra região da AWS. É possível solicitar a exclusão de entradas de voz associadas à sua conta, basta entrar em contato com o AWS Support. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetados para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o uso que fazemos deles seja compatível com os compromissos que assumimos com você. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obter mais informações.

P: Posso usar o Amazon Transcribe em sites, programas ou outros aplicativos criados ou direcionados para crianças menores de 13 anos de idade e sujeitos à Children’s Online Privacy Protection Act (COPPA – Lei de proteção da privacidade infantil online)?

Sim. Sujeito à sua conformidade com os termos de serviços do Amazon Transcribe, que incluem a sua obrigação de disponibilizar qualquer notificação exigida e obter todos os consentimentos parentais verificáveis exigidos pela COPPA, você poderá usar o Amazon Transcribe em sites, programas ou outros aplicativos criados ou direcionados, no todo ou em parte, para crianças menores de 13 anos de idade.

P: Como posso determinar se um site, programa ou aplicativo está sujeito à COPPA?

Para obter informações sobre os requisitos da COPPA e as diretrizes para determinar se um site, programa ou outro aplicativo está sujeito à COPPA, consulte diretamente os recursos disponibilizados e mantidos pela United States Federal Trade Commission (Comissão Federal de Comércio dos Estados Unidos). Esse site também contém informações sobre como determinar se um serviço é direcionado, de modo integral ou parcial, a crianças menores de 13 anos.

Amazon Transcribe Medical

P: O que é o Amazon Transcribe Medical?

O Amazon Transcribe Medical é um serviço de Automatic Speech Recognition (ASR – Reconhecimento automático de fala) que permite que os desenvolvedores adicionem facilmente recursos de conversão de fala médica em texto aos seus próprios aplicativos. Usando o Amazon Transcribe Medical, você pode transcrever ditados e conversações da área médica para texto com rapidez e precisão para diversas finalidades, como registro de notas médicas ou processamento posterior de análises de texto para extrair insights significativos.

P: O que posso fazer com o Amazon Transcribe Medical?

O Amazon Transcribe Medical usa modelos avançados de machine learning para transcrever com precisão fala médica para texto. O Transcribe Medical é capaz de realizar transcrições de textos gerais que podem ser usadas para apoiar diversos casos de uso, abrangendo o fluxo de trabalho de documentação clínica e o monitoramento de segurança de medicamentos (farmacovigilância) para legendagem destinada à telemedicina e até mesmo análise de centrais de atendimento nas áreas de saúde e ciências biológicas.

P: Preciso ser um especialista em reconhecimento automático de fala (ASR) para usar o Amazon Transcribe Medical?

Não, você não precisa ser especialista em ASR ou machine learning para usar o Amazon Transcribe Medical. Basta chamar a API do Transcribe Medical. O serviço lidará com o machine learning necessário no back-end para transcrever falas médicas para texto.

P: Como começo a usar o Amazon Transcribe Medical?

Você pode começar a usar o Amazon Transcribe Medical no Console de Gerenciamento da AWS ou utilizando o SDK. Consulte esta página de documentação técnica para obter detalhes.

O Amazon Transcribe Medical oferece um nível gratuito para que você possa testar o serviço. Consulte esta página de definição de preço para obter mais informações.

P: Quais idiomas são aceitos pelo Amazon Transcribe Medical?

No momento, o Amazon Transcribe Medical oferece suporte à transcrição médica em inglês americano.

P: Quais especialidades médicas são aceitas pelo Amazon Transcribe Medical?

O Amazon Transcribe Medical oferece suporte à transcrição de cuidados primários, abrangendo especialidades como medicina familiar, medicina interna, pediatria e obstetrícia/ginecologia.

P: Em quais regiões da AWS o Amazon Transcribe Medical está disponível?

No momento, o Amazon Transcribe Medical está disponível nas regiões Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Canadá (Central), UE (Irlanda) e Ásia-Pacífico (Sydney).

P: Qual é a definição de preço do Amazon Transcribe Medical?

Consulte a página de definição de preço do Amazon Transcribe Medical para saber mais sobre os detalhes de preço.

P: O Amazon Transcribe Medical está qualificado pela HIPAA?

Sim.

P: O conteúdo processado pelo Amazon Transcribe Medical é usado para qualquer outra finalidade que não seja fornecer o serviço?

O Amazon Transcribe Medical não usa o conteúdo processado pelo serviço por qualquer outro motivo que não seja para fornecer e manter o serviço. O conteúdo processado pelo serviço não é usado para desenvolver ou melhorar a qualidade do Amazon Transcribe Medical ou de quaisquer outras tecnologias de machine learning/inteligência artificial da Amazon.

P: O Amazon Transcribe Medical aprende com o tempo?

Sim. O Amazon Transcribe Medical usa machine learning e é continuamente treinado para atender melhor aos casos de uso dos clientes. O Amazon Transcribe Medical não armazena ou utiliza os dados de clientes usados com o serviço para treinar os modelos.

P: O que mais devo saber antes de usar o serviço Amazon Transcribe Medical?

O Amazon Transcribe Medical não é um substituto para aconselhamento médico profissional, diagnósticos ou tratamentos. Você e seus usuários finais são responsáveis por exercer sua discrição, experiência e julgamento ao determinar a exatidão, a integridade, a conveniência e a adequação de qualquer informação fornecida pelo Amazon Transcribe Medical. Você e seus usuários finais são os únicos responsáveis por quaisquer decisões, conselhos, ações e/ou inações com base no uso do Amazon Transcribe Medical. Você é responsável por revisar quaisquer resultados fornecidos pelo Amazon Transcribe Medical para garantir que eles atendam às suas necessidades.

Modelos de idiomas personalizados

P: Que funcionalidade os modelos de idioma personalizados oferecem hoje?

Atualmente, o recurso CLM (Custom Language Models, Modelos de idiomas personalizados) oferece suporte para a transcrições em inglês (EUA). Ele está disponível como parte da API de processamento de áudio em lote do Amazon Transcribe. O CLM não oferece suporte simultâneo para o uso adicional do Vocabulário personalizado.

P: Quantos e que tipos de dados de treinamento são necessários? Como obtenho esses dados? Os dados precisam ter um formato específico?

Os dados de texto devem ser relevantes para o áudio que será transcrito usando o modelo personalizado. Eles devem conter o maior número possível de palavras específicas de domínio, frases e combinações de palavras. Recomendamos usar pelo menos 100 mil e no máximo 10 milhões palavras de texto corrido. Os recursos de dados de texto podem ser obtidos de qualquer fonte interna ou pública (por exemplo, usando texto de sites de clientes). Recomendamos que cada arquivo de texto simples contenha 200.000 palavras ou mais, mas não exceda 1 GB no tamanho geral do arquivo. O texto deve estar em UTF-8 e usar uma frase por linha. Cada frase deve conter pontuação. Os usuários são responsáveis pela verificação ortográfica, remoção de caracteres de formatação e validação da codificação.

P: Como faço para usar o recurso CLM (Custom Language Models, Modelos de idiomas personalizados)?

Para treinar um modelo de idioma personalizado, os clientes simplesmente fornecem os dados de texto em um bucket do Amazon S3. Os usuários podem usar o console de serviço do Amazon Transcribe para carregar e processar os dados com o objetivo de treinar um modelo de idioma personalizado. O treinamento é totalmente automatizado e requer intervenção mínima do usuário. Quando o modelo personalizado final estiver pronto, ele será disponibilizado na conta da AWS do cliente para transcrever arquivos de áudio específicos de domínios. Além disso, os clientes podem treinar vários modelos personalizados para usar em uma variedade de casos de uso diferentes.

P: As melhorias são garantidas? Vale a pena o esforço de coletar dados de texto?

As melhorias não são garantidas — a mudança no desempenho dependerá de quão próximo os dados de texto corresponderem ao áudio e da quantidade de dados fornecidos. Em geral, é melhor ter mais dados, mas, o que é mais importante, esses dados devem abranger palavras e sequências de palavras que ocorram nos arquivos de áudio que você pretende transcrever. As melhorias na precisão da transcrição dependerão da qualidade dos dados de treinamento, bem como no caso de uso. Em alguns cenários, o referencial geral indica uma melhoria de precisão relativa de 10% a 15%.

P: Quanto tempo demora o treinamento do modelo? Quando poderei usá-lo?

O treinamento do modelo geralmente demora de 6 e 10 horas. A duração do treinamento depende do tamanho do conjunto de dados. O modelo personalizado estará disponível logo após a conclusão do treinamento.

P: Como poderei usar o modelo? Como sei se ele funciona melhor que o modelo genérico fornecido pelo Amazon Transcribe?

O modelo será disponibilizado na conta de um cliente, com um ID de modelo atribuído pelo cliente antes do processo de treinamento. Para usar esse modelo, um sinalizador com o ID do modelo precisa ser adicionado à solicitação de transcrição. Os clientes devem testar o modelo em seus arquivos de áudio e comparar a saída com os resultados obtidos do mecanismo genérico.

P: Quantos modelos de idiomas personalizados posso treinar? Posso ter vários modelos habilitados simultaneamente para a minha conta?

Você pode treinar simultaneamente até 5 modelos diferentes a qualquer momento para cada conta da AWS. Para cada conta, você pode armazenar no máximo 10 modelos por padrão. Se forem necessários mais modelos, aumentos no limite do serviço poderão ser feitos aqui.

P: Há suporte para modelos acústicos personalizados?

Não. Não há suporte para modelos acústicos personalizados. Modelos de idiomas personalizados são construídos com base em dados de texto relevantes para o seu caso de uso ou domínio.

Saiba mais sobre a definição de preço do Amazon Transcribe

Acesse a página de definição de preço