Mô hình chuyển văn bản thành giọng nói Cartesia Sonic 3 hiện được cung cấp trên Amazon SageMaker JumpStart
Mô hình Sonic 3 của Cartesia hiện được cung cấp trong Amazon SageMaker JumpStart, mở rộng danh mục các mô hình nền tảng có sẵn cho khách hàng AWS. Sonic 3 là mô hình không gian trạng thái (SSM) mới nhất của Cartesia để truyền phát văn bản thành giọng nói (TTS), mang lại tính tự nhiên cao, theo dõi bản chép lời chính xác và độ trễ hàng đầu trong ngành với khả năng kiểm soát tinh tế về âm lượng, tốc độ và cảm xúc.
Sonic 3 hỗ trợ 42 ngôn ngữ và cung cấp khả năng kiểm soát nâng cao thông qua các tham số API và thẻ SSML để điều chỉnh âm lượng, tốc độ và cảm xúc. Mô hình bao gồm hỗ trợ tiếng cười tự nhiên, giọng nói ổn định được tối ưu hóa cho các tác tử giọng nói và giọng nói cảm xúc cho các nhân vật biểu cảm. Với độ trễ dưới 100 mili giây, Sonic 3 cho phép AI đàm thoại theo thời gian thực ghi lại các sắc thái giọng nói của con người bao gồm cảm xúc và sự thay đổi tông giọng.
Với SageMaker JumpStart, khách hàng có thể triển khai Sonic 3 chỉ với một vài cú nhấp chuột để giải quyết các trường hợp sử dụng AI giọng nói. Để bắt đầu sử dụng mô hình này, hãy điều hướng đến danh mục mô hình SageMaker JumpStart trong SageMaker Studio hoặc sử dụng SageMaker Python SDK để triển khai mô hình vào tài khoản AWS của bạn. Để biết thêm thông tin về việc triển khai và sử dụng mô hình nền tảng trong SageMaker JumpStart, hãy xem tài liệu về Amazon SageMaker JumpStart.