Amazon SageMaker JumpStart 现推出三款新的语音识别和文本转语音模型
今天,AWS 宣布在 Amazon SageMaker JumpStart 中推出 Qwen3-TTS-12Hz-1.7B-CustomVoice、Qwen3-TTS-12Hz-1.7B-Base 和 Qwen3-ASR-1.7B,进一步扩展了面向 AWS 客户的基础模型产品组合。这三款来自 Qwen 的模型具备覆盖 10 多种语言的先进语音合成和识别能力,使客户能够在 AWS 基础设施上构建智能的语音驱动应用程序。
这些模型可利用其专业功能解决企业面临的各种语音和音频挑战:
Qwen3-TTS-12Hz-1.7B-CustomVoice 在多语言文本转语音领域表现卓越,提供可自定义的语音风格,支持 10 种语言,并可通过指令控制音色、情感和语调。它非常适合构建实时交互式语音应用程序、面向客户的虚拟助手,以及需要自然、富有表现力的语音输出的内容创作工作流程。
Qwen3-TTS-12Hz-1.7B-Base 在多语言文本转语音方面表现卓越,可通过音频输入实现 3 秒快速语音克隆。它非常适合构建自定义语音应用程序、微调特定领域的语音合成,以及开发人员需要灵活的基础模型来生成语音的场景。
Qwen3-ASR-1.7B 擅长自动语音识别领域,支持 52 种语言和方言,并可在复杂的声学环境中具备业界领先的识别准确率。它非常适合转录服务、多语言客户支持、实时字幕生成,以及需要稳定的流式传输和离线语音转文本功能的应用场景。
借助 SageMaker JumpStart,客户只需点击几下即可部署这些模型中的任何一个,以解决其特定的人工智能使用案例。
要开始使用这些模型,请导航到 SageMaker Studio 的“模型”部分,或使用 SageMaker Python SDK 将模型部署到您的 AWS 账户。有关在 SageMaker JumpStart 中部署和使用基础模型的更多信息,请参阅 Amazon SageMaker JumpStart 文档。