Amazon SageMaker AI anuncia la disponibilidad de instancias P5e y G6e para inferencia
Nos complace anunciar la disponibilidad general de las instancias G6e optimizadas para inferencia (con GPU Tensor Core NVIDIA L40S) y P5e (con GPU NVIDIA H200 Tensor Core) en Amazon SageMaker.
Con 1128 GB de memoria de GPU de alto ancho de banda en 8 GPU NVIDIA H200, 30 TB de almacenamiento SSD NVMe local, 192 vCPU y 2 TiB de memoria de sistema, las instancias ml.p5e.48xlarge pueden ofrecer un rendimiento excepcional para cargas de trabajo de inferencia de IA que requieren un uso intensivo de la computación, como modelos de lenguaje grandes con más de 100 000 millones de parámetros, modelos básicos multimodales, generación de datos sintéticos y aplicaciones de IA generativa complejas, que incluyen respuestas a preguntas, generación de códigos, video y generación de imágenes.
Equipadas con 8 GPU Tensor Core NVIDIA L40 con 48 GB de memoria por GPU y procesadores EPYC AMD de 3.a generación, las instancias ml.g6e pueden ofrecer un rendimiento hasta 2,5 veces superior en comparación con las instancias ml.g5. Los clientes pueden usar las instancias ml.g6e para ejecutar la inferencia de IA para modelos de lenguaje grandes (LLM) con hasta 13 000 millones de parámetros y modelos de difusión para generar imágenes, video y audio.
Las instancias ml.p5e y ml.g6e ya están disponibles para su uso en SageMaker en las regiones Este de EE. UU. (Ohio) y Oeste de EE. UU. (Oregón). Para empezar, solo tiene que solicitar un aumento del límite a través de AWS Service Quotas. Para obtener información sobre estas instancias, consulte nuestra página de precios. Si quiere obtener más información sobre los modelos de implementación con SageMaker, consulte la descripción general aquí y la documentación aquí. Para obtener más información sobre estas instancias en general, visite las páginas de productos de P5e y G6e.