- Machine Learning›
- AWS Inferentia›
- Clientes de AWS Inferentia
Clientes de AWS Inferentia
Descubra cómo los clientes utilizan AWS Inferentia para implementar modelos de aprendizaje profundo.
NetoAI
NetOAI proporciona la suite TelcoCore, que incluye TSLAM, ViNG, DigiTwin y NAPI, para ayudar a las empresas de telecomunicaciones a automatizar sus complejas operaciones multidominio y a gestionar el ciclo de vida de los clientes. Una piedra angular de este proceso es el LLM TSLAM, el primer modelo de código abierto orientado a la acción para este sector. Para crearlo, necesitábamos refinar un modelo en nuestro enorme conjunto de datos patentados de 2 000 millones de tokens y, al usar Amazon SageMaker con instancias trn1 de AWS Trainium, logramos ahorrar costos de forma notable y completamos todo el refinamiento en menos de tres días. En el paso de producción, AWS Inferentia2 y el SDK de Neuron nos proporcionan una latencia de inferencia baja y constante, de entre 300 y 600 ms. Esta solución integral para chips de IA de AWS diseñados específicamente para AWS es fundamental para poder cumplir nuestra misión de ofrecer IA especializada y de alto rendimiento a todo el sector de las telecomunicaciones.
Ravi Kumar Palepu Fundador y director ejecutivo
SplashMusic
La capacitación de grandes modelos de conversión de audio a audio para HummingLM requiere realizar muchísimos cálculos e iteraciones. Al migrar nuestras cargas de trabajo de capacitación a AWS Trainium y organizarlas con Amazon SageMaker HyperPod, logramos reducir los costos de capacitación en un 54 por ciento y acelerar los ciclos de capacitación un 50 por ciento, a la vez que mantuvimos la precisión del modelo. También migramos más de 2 PB de datos a Amazon S3 en solo una semana y aprovechamos Amazon FSx para Lustre para conseguir un acceso de alto rendimiento y baja latencia a los puntos de control y los datos de capacitación. Con las instancias Inf2 impulsadas por AWS Inferentia2, podemos reducir nuestras latencias de inferencia hasta 10 veces, lo que permite una generación de música en tiempo real más rápida y con mayor capacidad de respuesta.