Perguntas frequentes sobre o Amazon Transcribe

Geral

P: O que é o Amazon Transcribe?

O Amazon Transcribe é um serviço de inteligência artificial (IA) da AWS que permite converter facilmente discurso em texto. Usando a tecnologia Automatic Speech Recognition (ASR – Reconhecimento automático de fala), você pode usar o Amazon Transcribe em uma variedade de aplicações de negócios, incluindo a transcrição de chamadas de voz do atendimento ao cliente, a geração de legendas em conteúdo de áudio/vídeo e a realização de análise de conteúdo (baseada em texto) de áudio/vídeo.

P: Como o Amazon Transcribe interage com outros produtos da AWS?

O Amazon Transcribe converte entrada de áudio em texto, o que abre caminho para vários aplicativos de análise de texto com base na entrada de voz. Por exemplo, ao usar o Amazon Comprehend nos dados de texto convertidos do Amazon Transcribe, é possível fazer análise de sentimentos ou extrair personalidades e frases-chave. Da mesma forma, ao integrar o Amazon Translate e o Amazon Polly, você pode aceitar a entrada de voz em um idioma, traduzi-la para outro e gerar saída de voz, permitindo conversas multilíngues eficazes. Também é possível integrar o Amazon Transcribe com o Amazon Kendra ou o Amazon OpenSearch para indexar e executar pesquisa baseada em texto em uma biblioteca de áudio/vídeo. Para saber mais, consulte a solução Análise de chamada e assistência a atendente ao vivo, análise após chamadas, MediaSearch ou análise de conteúdo.

P: O que mais devo saber antes de usar o Amazon Transcribe?

O Amazon Transcribe foi desenvolvido para lidar com uma ampla variedade de características acústicas e de fala, incluindo variações de volume, afinação e taxa de fala. A qualidade e o conteúdo do sinal de áudio (incluindo, mas sem limitação, fatores como ruído de fundo, oradores sobrepostos, fala acentuada ou trocas de idioma dentro de um único arquivo de áudio) podem afetar a precisão da saída do serviço. Estamos constantemente atualizando o serviço para melhorar sua capacidade de acomodar variações acústicas e tipos de conteúdo adicionais.

Como usar o Amazon Transcribe

P: Como os desenvolvedores acessarão o Amazon Transcribe?

A maneira mais fácil de começar a usar é enviar um trabalho pelo console para transcrever um arquivo de áudio. Você pode chamar o serviço diretamente da Interface da Linha de Comando da AWS ou usar um dos SDKs com suporte de sua escolha para integrar às aplicações. De qualquer modo, você pode começar a usar o Amazon Transcribe para gerar transcrições automatizadas para arquivos de áudio com apenas algumas linhas de código.

P: O Amazon Transcribe oferece suporte para transcrições em tempo real?

Sim. O Amazon Transcribe permite abrir um fluxo bidirecional em HTTP2. Você pode enviar uma transmissão de áudio para o serviço enquanto recebe de volta uma transmissão de texto em tempo real. Consulte a página de documentação para obter mais detalhes.

P: Que codificação a transcrição em tempo real suporta?

Os tipos de mídia suportados diferem entre transcrições em lote e transcrições de transmissão, embora formatos sem perdas sejam recomendados para ambos. Consulte a página de documentação para obter mais detalhes.

P: Quais idiomas são aceitos pelo Amazon Transcribe?

Para obter mais informações sobre os idiomas aceitos, consulte esta página de documentação.

P: Com quais dispositivos o Amazon Transcribe funciona?

Em sua maior parte, o Amazon Transcribe não especifica dispositivos. Em geral, ele funciona em qualquer dispositivo que inclua um microfone integrado, como telefones, PCs, tablets, e dispositivos de IoT (como sistemas de áudio de automóveis). A API do Amazon Transcribe detectará a qualidade da transmissão de áudio que chega ao dispositivo (8 kHz vs. 16 kHz) e selecionará corretamente os modelos acústicos para converter a fala em texto. Além disso, os desenvolvedores podem chamar a API do Amazon Transcribe por meio das aplicações para acessar o recurso de conversão de discurso em texto.

P: Há restrições de tamanho no conteúdo de áudio que o Amazon Transcribe pode processar?

No serviço em lotes, as chamadas ao Amazon Transcribe estão limitadas a quatro horas (ou 2 GB) por chamada à API. O serviço de transmissão pode acomodar conexões abertas por até quatro horas.

P: Quais linguagens de programação são suportadas pelo Amazon Transcribe?

O serviço em lote do Amazon Transcribe oferece suporte a .NET, Go, Java, JavaScript, PHP, Python e Ruby. O serviço em tempo real do Amazon Transcribe oferece suporte a Java SDK, Ruby SDK e C++ SDK. Em breve, haverá suporte adicional a SDK. Para obter mais detalhes, visite a página de recursos e documentação.

P: As palavras do meu vocabulário personalizado não estão sendo reconhecidas. O que posso fazer?

A saída do reconhecimento de fala depende de vários fatores além das entradas do vocabulário personalizado. Por isso, não há garantia de que um termo incluído no vocabulário personalizado será reconhecido corretamente. No entanto, o motivo mais frequente é a falta da pronúncia correta em uma palavra personalizada. Se você não forneceu uma pronúncia para sua palavra personalizada, tente criar uma. Se você já forneceu uma pronúncia, verifique novamente se está correta ou inclua outras variantes, se necessário. Para isso, crie várias entradas no arquivo do vocabulário personalizado com diferenças no campo de pronúncia. Consulte a documentação de vocabulário personalizado para obter mais informações.

P: Por que vejo muitas palavras personalizadas em minha saída?

Os vocabulários personalizados ~são otimizados para uma pequena lista de palavras específicas. Os vocabulários maiores podem levar à geração excessiva de palavras personalizadas, especialmente quando esses vocabulários contêm palavras que são pronunciadas de maneira similar. Se você tem uma lista grande tente reduzi-la a palavras raras e a palavras que você realmente espera que ocorram em seus arquivos de áudio. Se você tem um vocabulário grande que abrange vários casos de uso, divida-o em listas separadas por diferentes casos de uso. As palavras que são curtas e soam de maneira semelhante a várias outras palavras podem levar à geração excessiva (muitas palavras personalizadas exibidas na saída). É melhor combinar essas palavras com outras ao redor e listá-las como frases separadas por hifens. Por exemplo, a palavra personalizada "A.D." poderia ser incluída como parte de uma frase, como "A.D.-converter".

P: Entre os campos IPA ou SoundsLike na tabela do vocabulário personalizado, qual é a melhor maneira de fornecer pronúncias?

O campo IPA permite pronúncias mais precisas. Você deve fornecer pronúncias IPA se conseguir gerá-las (como as de um dicionário com pronúncias IPA ou de uma ferramenta de conversão on-line).

P: Gostaria de usar IPA, mas não sou um especialista linguístico. Há uma ferramenta on-line que eu possa usar?

Vários dicionários padrão, como o Oxford English Dictionary ou o Cambridge Dictionary, incluindo as respectivas versões on-line, incluem pronúncias em IPA. Também há conversores on-line, como o easypronunciation.com ou o tophonetics.com para inglês. Porém, a maioria dessas ferramentas se baseia em dicionários subjacentes e pode não gerar o IPA correto para algumas palavras, como nomes próprios. O Amazon Transcribe não endossa nenhuma ferramenta de terceiros.

P: Preciso usar padrões IPA diferentes que sejam específicos de sotaques diferentes do mesmo idioma, por exemplo, o inglês norte-americano e o inglês britânico?

Você deve usar o padrão IPA apropriado para os arquivos de áudio que processará. Por exemplo, se você espera processar áudio de falantes de inglês britânico, use o padrão de pronúncia do inglês britânico. O conjunto de símbolos IPA permitidos pode ser diferente para os diferentes idiomas e dialetos compatíveis com o Amazon Transcribe. Verifique se as suas pronúncias contêm somente os caracteres permitidos. Detalhes sobre os conjuntos de caracteres IPA podem ser encontrados na documentação: Vocabulários personalizados

P: Posso fornecer a pronúncia usando o campo SoundsLike na tabela do vocabulário personalizado?

Você pode dividir a palavra ou frase em partes menores e fornecer uma pronúncia para cada parte usando a ortografia padrão do idioma para imitar a maneira como a palavra soa. Por exemplo, no inglês é possível fornecer dicas de pronúncia para a frase Los-Angeles dessa maneira: loss-ann-gel-es. A dica da palavra Etienne poderia ser assim: eh-tee-en. Cada parte da dica é separada por um hífen (-). Você pode usar qualquer um dos caracteres permitidos para o idioma de entrada. Para obter mais informações, visite a página Vocabulários personalizados.

P: Como funcionam as duas maneiras diferentes de fornecer acrônimos (com pontos e sem pontos com pronúncias)?

Se você usar um acrônimo com pontos, a pronúncia soletrada será gerada internamente. Se você não usar pontos, forneça a pronúncia no campo pronúncia. Para alguns acrônimos, não é óbvio se eles têm uma pronúncia ortográfica ou se devem ser pronunciados como uma palavra. Por exemplo, NATO é muitas vezes pronunciada 'n eɪ t oʊ' (nay-toh), em vez de 'ɛn eɪ ti oʊ' (N. A. T. O.). Para obter mais informações, visite a página Vocabulários personalizados.

P: Onde posso encontrar exemplos de como usar pronúncias personalizadas?

Você pode encontrar exemplos de formatos de entrada e exemplos na documentação aqui.

P: O que acontece se eu usar o IPA errado? Se eu não tiver certeza, é melhor não colocar IPA algum?

O sistema usará a pronúncia que você fornecer. Isso deverá aumentar a probabilidade de reconhecimento correto da palavra se a pronúncia estiver correta e corresponder ao que foi falado. Se você não tem certeza de que está gerando o IPA correto, faça uma comparação processando seus arquivos de áudio com um vocabulário que contenha suas pronúncias IPA e com um vocabulário que contenha apenas as palavras (e, opcionalmente, as formas "exibir como"). Se você não fornecer nenhuma pronúncia, o serviço usará uma aproximação, que pode ou não funcionar melhor que sua entrada.

P: Ao usar as formas DisplayAs, posso exibir conjuntos de caracteres não relacionados ao idioma original sendo transcrito (por exemplo, "Rua" como "街道")?

Sim. Embora as frases possam usar apenas um conjunto restrito de caracteres para o idioma específico, os caracteres UTF-8, com exceção de \t (TAB), são permitidos na coluna DisplayAs.

P: A redação automática de conteúdo ou redação de informações de identificação pessoal (PII) está disponível para APIs em lote e de transmissão do Transcribe?

Sim, o Amazon Transcribe oferece suporte à redação automática de conteúdo ou redação de PII para APIs em lote e de transmissão.

P: Quais são os idiomas aceitos para redação automática de conteúdo/redação de PII?

Consulte a documentação do Amazon Transcribe para obter informações sobre a disponibilidade de idiomas da redação automática de conteúdo/redação de PII.

P: A redação automática de conteúdo também redige informações pessoais confidenciais do áudio de origem?

Não. Este recurso não remove informações pessoais confidenciais do áudio de origem. No entanto, o Amazon Transcribe Call Analytics remove informações pessoais confidenciais das transcrições e do áudio de origem. Acesse este link para obter mais detalhes sobre como a análise de chamadas pode redigir o áudio. Você também pode redigir informações pessoais do áudio de origem usando carimbos de data/hora de início e fim que são informados nas transcrições redigidas para cada instância de PII identificado pronunciado. Consulte esta solução de redação de áudio para APIs de transcrição padrão.

No entanto, as APIs especializadas do Amazon Transcribe Call Analytics removem informações pessoais sigilosas das transcrições e do áudio de origem. Para saber mais, consulte a documentação de redação de áudio do Call Analytics.

P: Posso usar a redação automática de conteúdo para redigir informações pessoais das transcrições de texto?

Não, a redação automática de conteúdo só funciona com entradas de áudio.

P: O que mais devo saber para usar a redação automática de conteúdo?

A redação de conteúdo automática foi desenvolvida para identificar e remover informações de identificação pessoal (PII), mas, devido à natureza preditiva de machine learning, ela não identifica e remove todas as instâncias de PII em uma transcrição gerada pelo serviço. Verifique se a saída fornecida pela redação automática de conteúdo atende às suas necessidades.

P: Existe alguma diferença entre a redação automática de conteúdo para APIs de transmissão e em lote?

Sim, há dois outros recursos compatíveis com a redação automática de conteúdo para a API de transmissão que não são compatíveis com a API em lote. Você pode decidir identificar somente PII e não redigir ao usar a redação de conteúdo com API de transmissão. Além disso, você tem a capacidade de identificar ou redigir tipos específicos de PII com a API de transmissão. Por exemplo, você pode redigir apenas o número do seguro social e as informações do cartão de crédito e manter outras PII, como nomes e endereços de e-mail.

P: Em que regiões da AWS a redação automática de conteúdo ou redação de PII está disponível?

Consulte a documentação do Amazon Transcribe para obter informações sobre a disponibilidade de idiomas da redação automática de conteúdo e redação de PII para APIs em lote e de transmissão nas regiões da AWS.

P: Quais APIs têm suporte para a identificação automática de idioma?

A identificação automática de idioma atualmente tem suporte para APIs de lote e de transmissão.

P: Que idiomas o Amazon Transcribe pode identificar automaticamente?

O Amazon Transcribe pode identificar qualquer um dos idiomas compatíveis com as APIs de lote e transmissão. Acesse aqui para obter detalhes sobre os idiomas suportados e os recursos específicos do idioma.

P: O Amazon Transcribe pode identificar vários idiomas no mesmo arquivo de áudio?

O Amazon Transcribe oferece suporte a ID em vários idiomas para lote. Consulte este link para obter mais detalhes.

P: Existe alguma forma de restringir a lista de idiomas para a identificação automática de idiomas?

Sim, você pode especificar uma lista de idiomas que podem estar persentes na sua biblioteca de mídia. Quando você fornece uma lista de idiomas, o idioma identificado será escolhido por meio dessa lista. Se nenhum idioma é especificado, o sistema processa o arquivo de áudio com todos os idiomas compatíveis com o Amazon Transcribe e seleciona o mais provável. A precisão da identificação de idiomas é melhor quando uma lista de idiomas selecionados é fornecida. Consulte este link para obter mais detalhes.

Preço e disponibilidade

P: Qual é o custo?

Consulte a página Preço do Amazon Transcribe para saber mais.

P: Em quais regiões da AWS o Amazon Transcribe está disponível?

Consulte a tabela de regiões da infraestrutura global da AWS. Acesse aqui para obter detalhes adicionais sobre endpoints e cotas do Amazon Transcribe.

Privacidade de dados

P: As entradas de voz processadas pelo Amazon Transcribe são armazenadas? Como são usadas pela AWS?

O Amazon Transcribe pode armazenar e usar entradas de voz processadas pelo serviço exclusivamente para oferecer e manter o serviço e para aprimorar e desenvolver a qualidade do Amazon Transcribe e de outras tecnologias de machine learning/inteligência artificial da Amazon. O uso do seu conteúdo é importante para o aprimoramento contínuo da experiência de cliente do Amazon Transcribe, incluindo o desenvolvimento e o treinamento de tecnologias relacionadas. Não usamos nenhuma informação de identificação pessoal presente no conteúdo para direcionar produtos, serviços ou marketing para você ou para seus usuários finais. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetada para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o uso que fazemos deles seja compatível com os compromissos que assumimos com você. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obter mais informações. Você pode optar por não ter seu conteúdo usado para melhorar e desenvolver a qualidade do Amazon Transcribe e de outras tecnologias de machine learning/inteligência artificial da Amazon usando uma política de desativação do AWS Organizations. Para obter informações sobre desativação, consulte a política de desativação de serviços de IA.

P: Posso excluir dados e artefatos associados a trabalhos de transcrição armazenadas pelo Amazon Transcribe?

Sim. Você pode usar as APIs Delete (Excluir) disponíveis para excluir dados e outros artefatos associados aos trabalhos de transcrição. Se você tiver problemas para fazer isso, entre em contato com o AWS Support.

P: Quem tem acesso ao meu conteúdo processado e armazenado pelo Amazon Transcribe?

Somente funcionários autorizados terão acesso ao seu conteúdo que é processado pelo Amazon Transcribe. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetada para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o uso que fazemos deles seja compatível com os compromissos que assumimos com você. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obter mais informações.

P: Meu conteúdo processado e armazenado pelo Amazon Transcribe ainda é de minha propriedade?

Você sempre mantém a propriedade do conteúdo. Somente usaremos o seu conteúdo com o seu consentimento.

P: O que acontece com meus dados usados no treinamento de modelos de linguagem personalizados? Eu ainda os possuo?

Ao enviar dados de texto usados para treinar um modelo dedicado, você tem a propriedade dos dados de texto originais e do modelo personalizado gerado. Os dados de texto não serão armazenados nem usados para melhorar nosso mecanismo geral de reconhecimento de voz. Os modelos produzidos usando o CLM são reservados e podem ser acessados apenas por você.

P: Como o serviço não manterá meus dados de treinamento, há alguma desvantagem ou degradação na qualidade da transcrição ou na experiência geral do serviço?

Não haverá degradação da qualidade de transcrição resultante de o nosso serviço não armazenar seus dados de treinamento. Quando os dados de treinamento forem usados para realmente produzir um modelo de idioma personalizado, o modelo propriamente dito ficará disponível para uso repetido, a seu próprio critério. O conjunto de treinamento original que você enviou é eliminado dos nossos sistemas. A única desvantagem é se você precisar de suporte técnico. Como não mantemos seus dados de treinamento originais, não teremos acesso conveniente a esses ativos ou artefatos intermediários relacionados se você precisar que a nossa equipe de suporte investigue possíveis problemas de serviço. O suporte ainda estaria disponível, mas não tão conveniente, pois talvez precisemos solicitar informações adicionais de você.

P: Como posso reutilizar os dados para futuras atualizações ou melhorias de modelos?

Como os dados de treinamento não são armazenados, o mesmo conjunto de dados e quaisquer dados adicionais terão que ser carregados novamente para treinar novos modelos. Você será notificado quando houver uma atualização do modelo base fornecida pela Amazon Transcribe. Para aproveitar o modelo base mais recente, você deve enviar seus dados para treinar um novo modelo. Dessa forma, você terá o modelo personalizado original que gerou anteriormente e também a nova versão para usar.

P: Como faço para excluir um modelo?

Você pode excluir a seu próprio critério qualquer modelo de idioma personalizado que tenha gerado.

P: O conteúdo processado pelo Amazon Transcribe é movido para fora da região da AWS onde estou usando o Amazon Transcribe?

Todo o conteúdo processado pelo Amazon Transcribe é criptografado e armazenado quando ocioso na região da AWS onde você usa o Amazon Transcribe. Parte do conteúdo processado pelo Amazon Transcribe pode ser armazenado em outra região da AWS unicamente em conexão com a melhoria contínua e o desenvolvimento de sua experiência de cliente do Amazon Transcribe e outras tecnologias de machine learning/inteligência artificial da Amazon. Se você optar por não ter seu conteúdo usado para melhorar e desenvolver a qualidade do Amazon Transcribe e de outras tecnologias de machine learning/inteligência artificial da Amazon entrando em contato com o AWS Support, o conteúdo não será armazenado em outra região da AWS. É possível solicitar a exclusão de entradas de voz associadas à sua conta, basta entrar em contato com o AWS Support. A sua confiança, a sua privacidade e a segurança do seu conteúdo são a nossa maior prioridade. Para isso, implementamos controles técnicos e físicos adequados e sofisticados, incluindo a criptografia de dados ociosos e em trânsito, projetados para evitar acesso ou divulgação de conteúdo sem a sua autorização e garantir que o uso que fazemos deles seja compatível com os compromissos que assumimos com você. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obter mais informações.

P: Posso usar o Amazon Transcribe em sites, programas ou outros aplicativos criados ou direcionados para crianças menores de 13 anos de idade e sujeitos à Children’s Online Privacy Protection Act (COPPA – Lei de proteção da privacidade infantil online)?

Sim. Sujeito à sua conformidade com os termos de serviços do Amazon Transcribe, que incluem a sua obrigação de disponibilizar qualquer notificação exigida e obter todos os consentimentos parentais verificáveis exigidos pela COPPA, você poderá usar o Amazon Transcribe em sites, programas ou outros aplicativos criados ou direcionados, no todo ou em parte, para crianças menores de 13 anos de idade.

P: Como posso determinar se um site, programa ou aplicativo está sujeito à COPPA?

Para obter informações sobre os requisitos da COPPA e as diretrizes para determinar se um site, programa ou outra aplicação está sujeita à COPPA, consulte diretamente os recursos disponibilizados e mantidos pela United States Federal Trade Commission (Comissão Federal de Comércio dos Estados Unidos). Este site também contém informações sobre como determinar se um serviço é direcionado, de modo integral ou parcial, a crianças menores de 13 anos.

Amazon Transcribe Call Analytics

P: O que é o Amazon Transcribe Call Analytics?

O Amazon Transcribe Call Analytics é uma API baseada em IA que fornece transcrições completas de chamadas e insights úteis de conversação que você pode adicionar às aplicações de chamadas para melhorar a experiência do cliente e a produtividade do atendente. A API combina poderosos modelos de conversão de fala em texto e processamento de linguagem natural (PLN) treinados especificamente para compreender chamadas de atendimento ao cliente e vendas. Como parte das soluções do AWS Contact Center Intelligence (CCI), esta API é independente da central de atendimento e facilita para os clientes e ISVs adicionar recursos analíticos de chamadas em suas aplicações.

Q: O que posso fazer com o Amazon Transcribe Call Analytics?

O Amazon Transcribe Call Analytics pode fazer análises em tempo real e pós-chamada. Com o Call Analytics, os desenvolvedores podem adicionar rapidamente inteligência valiosa, como pontuações de sentimento do atendente e do cliente, motivações da chamada, categorias da chamada, resumos de chamada como uma saída de API para qualquer aplicação de chamada de saída ou entrada. Casos de uso comuns incluem assistência a atendente, resumos, alertas de supervisor e análise de chamadas. Aqui estão duas soluções de amostra de código aberto baseadas no Transcribe Call Analytics: análise de chamadas em tempo real com assistência de atendente e análise pós-chamadas.

Q: Como começo a usar o Amazon Transcribe Call Analytics?

Você pode usar o Transcribe Call Analytics por meio de APIs e do Console de Gerenciamento da AWS. Os trabalhos de análise podem ser criados e monitorados por meio da API ou do console. No console, você verá uma lista dos trabalhos de análise e a página de detalhes do trabalho com parâmetros de entrada e uma pré-visualização de saída JSON. Além disso, você poderá criar e editar categorias por meio de APIs ou do console para o recurso de categorização de contatos automatizada.

Q: Quais idiomas são compatíveis com o Amazon Transcribe Call Analytics?

Consulte a documentação do Amazon Transcribe para obter informações sobre a disponibilidade de idiomas do Amazon Transcribe Call Analytics.

Q: Em quais regiões da AWS o Amazon Transcribe Call Analytics está disponível?

Consulte a documentação dos serviços regionais da AWS para obter informações sobre a cobertura da região da AWS para o Amazon Transcribe Call Analytics. Observe que o resumo generativo de chamadas do Amazon Transcribe Call Analytics está disponível como um atributo de pré-visualização somente no Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon).

P: O resumo generativo de chamadas está disponível com a API Transcribe Call Analytics após a chamada e em tempo real?

Atualmente, o resumo generativo de chamadas está disponível apenas com a API Transcribe Call Analytics para análise pós-chamada.

P: Como são os preços no Amazon Transcribe Call Analytics?

A API do Amazon Transcribe Call Analytics é cobrada separadamente das APIs padrão do Amazon Transcribe. Consulte a página de preços do Amazon Transcribe para obter mais detalhes.

Amazon Transcribe Medical

P: O que é o Amazon Transcribe Medical?

O Amazon Transcribe Medical é um serviço de Automatic Speech Recognition (ASR – Reconhecimento automático de fala) que permite que os desenvolvedores adicionem facilmente recursos de conversão de fala médica em texto aos seus próprios aplicativos. Usando o Amazon Transcribe Medical, você pode transcrever ditados e conversações da área médica para texto com rapidez e precisão para diversas finalidades, como registro de notas médicas ou processamento posterior de análises de texto para extrair insights significativos.

P: O que posso fazer com o Amazon Transcribe Medical?

O Amazon Transcribe Medical usa modelos avançados de machine learning para transcrever com precisão fala médica para texto. O Transcribe Medical é capaz de gerar transcrições de textos gerais que podem ser usadas para apoiar diversos casos de uso, abrangendo o fluxo de trabalho de documentação clínica e o monitoramento de segurança de medicamentos (farmacovigilância) para legendagem destinada à telemedicina e até mesmo análise de centrais de atendimento nas áreas de saúde e ciências biológicas.

P: Preciso ser um especialista em reconhecimento automático de fala (ASR) para usar o Amazon Transcribe Medical?

Não, você não precisa ser especialista em ASR ou machine learning para usar o Amazon Transcribe Medical. Basta chamar a API do Transcribe Medical. O serviço lidará com o machine learning necessário no back-end para transcrever falas médicas para texto.

P: Como começo a usar o Amazon Transcribe Medical?

Você pode começar a usar o Amazon Transcribe Medical no Console de Gerenciamento da AWS ou utilizando o SDK. Consulte esta página de documentação técnica para obter detalhes.

O Amazon Transcribe Medical oferece um nível gratuito para que você possa testar o serviço. Consulte esta página de definição de preço para obter mais informações.

P: Quais idiomas são aceitos pelo Amazon Transcribe Medical?

No momento, o Amazon Transcribe Medical oferece suporte à transcrição médica em inglês americano.

P: Quais especialidades médicas são aceitas pelo Amazon Transcribe Medical?

O Amazon Transcribe Medical aceita a transcrição de uma lista cada vez maior de especialidades de atenção primária e especiais. Visite nossa documentação para ter uma lista completa das especialidades médicas com suporte.

P: Em quais regiões da AWS o Amazon Transcribe Medical está disponível?

Consulte a documentação dos serviços regionais da AWS para obter informações sobre a cobertura da região da AWS para o Amazon Transcribe Medical.

P: Qual é o preço do Amazon Transcribe Medical?

Consulte a página de preço do Amazon Transcribe Medical para saber mais sobre os detalhes de preço.

P: O Amazon Transcribe Medical está qualificado pela HIPAA?

Sim.

P: O conteúdo processado pelo Amazon Transcribe Medical é usado para qualquer outra finalidade que não seja fornecer o serviço?

O Amazon Transcribe Medical não usa o conteúdo processado pelo serviço por qualquer outro motivo que não seja para fornecer e manter o serviço. O conteúdo processado pelo serviço não é usado para desenvolver ou melhorar a qualidade do Amazon Transcribe Medical ou de quaisquer outras tecnologias de machine learning/inteligência artificial da Amazon.

P: O Amazon Transcribe Medical aprende com o tempo?

Sim. O Amazon Transcribe Medical usa machine learning e é continuamente treinado para atender melhor aos casos de uso dos clientes. O Amazon Transcribe Medical não armazena ou utiliza os dados de clientes usados com o serviço para treinar os modelos.

P: O que mais devo saber antes de usar o serviço Amazon Transcribe Medical?

O Amazon Transcribe Medical não é um substituto para aconselhamento médico profissional, diagnósticos ou tratamentos. Você e seus usuários finais são responsáveis por exercer sua discrição, experiência e julgamento ao determinar a exatidão, a integridade, a conveniência e a adequação de qualquer informação fornecida pelo Amazon Transcribe Medical. Você e seus usuários finais são os únicos responsáveis por quaisquer decisões, conselhos, ações e/ou inércia com base no uso do Amazon Transcribe Medical.

O Amazon Transcribe Medical pode não identificar com precisão informações de saúde protegidas em todas as circunstâncias e não atende aos requisitos para a desidentificação de informações de saúde protegidas de acordo com a HIPAA. Você é responsável por revisar quaisquer resultados fornecidos pelo Amazon Transcribe Medical para garantir que eles atendam às suas necessidades.

Modelos de idiomas personalizados

P: Que funcionalidade os modelos de idioma personalizados oferecem hoje?

Você pode usar modelos de idiomas personalizados (CLM) para treinar e desenvolver modelos de linguagem que são específicos do domínio. O CLM agora oferece suporte à transcrição em lotes dos idiomas inglês australiano, inglês britânico, hindi, inglês dos EUA e espanhol para transcrições de transmissão em inglês dos EUA. O CLM oferece suporte ao uso simultâneo de vocabulário personalizado para transcrições em lote.

P: Quantos e que tipos de dados de treinamento são necessários? Como obtenho esses dados? Os dados precisam ter um formato específico?

Os dados de texto devem ser relevantes para o áudio que será transcrito usando o modelo personalizado. Eles devem conter o maior número possível de palavras específicas de domínio, frases e combinações de palavras. Recomendamos usar pelo menos 100 mil e no máximo 10 milhões palavras de texto corrido. Os recursos de dados de texto podem ser obtidos de qualquer fonte interna ou pública (por exemplo, usando texto de sites de clientes). Recomendamos que cada arquivo de texto simples contenha 200 mil palavras ou mais, mas não exceda 1 GB no tamanho geral do arquivo. O texto deve estar em UTF-8 e usar uma frase por linha. Cada frase deve conter pontuação. Os usuários são responsáveis pela verificação ortográfica, remoção de caracteres de formatação e validação da codificação.

P: Como usar o recurso de modelos de idiomas personalizados (CLM)?

Para treinar um modelo de idioma personalizado, os clientes simplesmente fornecem os dados de texto em um bucket do Amazon S3. Os usuários podem usar o console de serviço do Amazon Transcribe para carregar e processar os dados com o objetivo de treinar um modelo de idioma personalizado. O treinamento é totalmente automatizado e requer intervenção mínima do usuário. Quando o modelo personalizado final estiver pronto, ele será disponibilizado na conta da AWS do cliente para transcrever arquivos de áudio específicos de domínios. Além disso, os clientes podem treinar vários modelos personalizados para usar em uma variedade de casos de uso diferentes.

P: As melhorias são garantidas? Vale a pena o esforço de coletar dados de texto?

As melhorias não são garantidas — a mudança no desempenho dependerá de quão próximo os dados de texto corresponderem ao áudio e da quantidade de dados fornecidos. Em geral, é melhor ter mais dados, mas, o que é mais importante, esses dados devem abranger palavras e sequências de palavras que ocorram nos arquivos de áudio que você pretende transcrever. As melhorias na precisão da transcrição dependerão da qualidade dos dados de treinamento, bem como no caso de uso. Em alguns cenários, o referencial geral indica uma melhoria de precisão relativa de 10% a 15%.

P: Quanto tempo demora o treinamento do modelo? Quando poderei usá-lo?

O treinamento do modelo geralmente demora de 6 e 10 horas. A duração do treinamento depende do tamanho do conjunto de dados. O modelo personalizado estará disponível logo após a conclusão do treinamento.

P: Como poderei usar o modelo? Como sei se ele funciona melhor que o modelo genérico fornecido pelo Amazon Transcribe?

O modelo será disponibilizado na sua conta, com um ID de modelo atribuído por você, antes do processo de treinamento. Para usar esse modelo, um sinalizador com o ID do modelo precisa ser adicionado à solicitação de transcrição. Você deve testar o modelo em seus arquivos de áudio e comparar a saída com os resultados obtidos do mecanismo genérico.

P: Quantos modelos de idiomas personalizados posso treinar? Posso ter vários modelos habilitados simultaneamente para minha conta?

Você pode treinar simultaneamente até 5 modelos diferentes a qualquer momento para cada conta da AWS. Para cada conta, você pode armazenar no máximo 10 modelos por padrão. Se forem necessários mais modelos, será possível aumentar o limite do serviço aqui.

P: Há suporte para modelos acústicos personalizados?

Não. Não há suporte para modelos acústicos personalizados. Modelos de idiomas personalizados são construídos com base em dados de texto relevantes para o seu caso de uso ou domínio.

Saiba mais sobre a definição de preço do Amazon Transcribe

Acesse a página de definição de preço

Pronto para começar?

Experimente o console do Amazon Transcribe

Mais dúvidas?

Entre em contato conosco