Clientes de Amazon SageMaker HyperPod

Las principales startups y organizaciones de IA de todos los tamaños están entrenando e implementando modelos básicos a escala en SageMaker HyperPod

  • Hugging Face

    Hugging Face ha utilizado SageMaker HyperPod para crear nuevos e importantes modelos fundacionales abiertos, como StarCoder, IDEFICS y Zephyr, que se han descargado millones de veces. Las capacidades de resiliencia y rendimiento de SageMaker HyperPod, diseñadas de forma específica, han permitido a nuestro equipo de ciencia abierta centrarse en innovar y publicar mejoras importantes en la forma en que se crean los modelos fundacionales, en lugar de en administrar la infraestructura. Nos gustó especialmente la forma en que SageMaker HyperPod puede detectar fallos de hardware de ML y reemplazar con rapidez el hardware defectuoso sin interrumpir el entrenamiento continuo del modelo. Dado que nuestros equipos necesitan innovar con rapidez, esta característica automatizada de recuperación de trabajos nos ayudó a minimizar las interrupciones durante el proceso de entrenamiento del modelo básico, lo que nos permitió ahorrar cientos de horas de entrenamiento en tan solo un año.

    Jeff Boudier, jefe de producto de Hugging Face
  • Perplexity AI

    Buscábamos la infraestructura de ML adecuada para aumentar la productividad y reducir los costos con el fin de crear modelos de lenguajes grandes de alto rendimiento. Tras realizar algunos experimentos satisfactorios, cambiamos a AWS desde otros proveedores de la nube para utilizar Amazon SageMaker HyperPod. Hemos estado utilizando HyperPod durante los últimos cuatro meses para crear y ajustar los LLM para impulsar el motor de respuestas conversacionales de Perplexity, que responde a las preguntas junto con las referencias proporcionadas en forma de citas. Como SageMaker HyperPod supervisa de forma automática el estado del clúster y corrige los fallos de la GPU, nuestros desarrolladores pueden centrarse en la creación de modelos en lugar de dedicar tiempo a administrar y optimizar la infraestructura subyacente. Las bibliotecas paralelas de modelos y datos integradas de SageMaker HyperPod nos ayudaron a optimizar el tiempo de entrenamiento en las GPU y a duplicar el rendimiento del entrenamiento. Como resultado, nuestros experimentos de entrenamiento ahora pueden ejecutarse dos veces más rápido, lo que significa que nuestros desarrolladores pueden iterar con mayor rapidez y así acelerar el desarrollo de nuevas experiencias de IA generativa para nuestros clientes.

    Aravind Srinivas, cofundador y CEO de Perplexity AI
  • Articul8 AI

    Lea el caso práctico

    La gobernanza de tareas de Amazon SageMaker HyperPod ayuda a maximizar la utilización de la GPU en varios equipos y proyectos. Como startup de GenAI de rápido crecimiento, Articul8 AI optimiza constantemente su entorno de computación para asignar los recursos de computación acelerada de la manera más eficiente posible. Con la priorización automática de tareas y la asignación de recursos en SageMaker HyperPod, han observado una mejora espectacular en la utilización de la GPU, lo que reduce el tiempo de inactividad y acelera el proceso de desarrollo de modelos mediante la optimización de tareas que van desde el entrenamiento y refinamiento hasta la inferencia. La capacidad de transferir automáticamente los recursos a tareas de alta prioridad ha aumentado la productividad de su equipo, lo que le permite lanzar al mercado las nuevas innovaciones de GenAI más rápido que nunca.

    Amazon SageMaker HyperPod nos ayudó mucho a administrar y operar nuestros recursos computacionales de manera más eficiente con un tiempo de inactividad mínimo. Fuimos los primeros en adoptar el servicio HyperPod basado en Slurm y nos beneficiamos de sus características de facilidad de uso y resiliencia, lo que se tradujo en una mejora de la productividad de hasta un 35 % y una rápida ampliación de nuestras operaciones de GenAI. Como empresa de Kubernetes, nos complace dar la bienvenida al lanzamiento de la compatibilidad de Amazon EKS con SageMaker HyperPod. Esto supone un punto de inflexión para nosotros, ya que se integra perfectamente con nuestros canales de entrenamiento existentes y nos facilita aún más la administración y el funcionamiento de nuestros clústeres de Kubernetes a gran escala. Además, esto también ayuda a nuestros clientes finales, ya que ahora podemos empaquetar y producir esta capacidad en nuestra plataforma GenAI, lo que permite a nuestros clientes ejecutar sus propias cargas de trabajo de entrenamiento y ajuste de forma más ágil.

    Arun Subramaniyan, fundador y director ejecutivo de Articul8 AI
  • Thomson Reuters

    Lea el blog

    Thomson Reuters, una empresa global de tecnología basada en la inteligencia artificial y el contenido, ha estado probando la capacidad de gobernanza de tareas de Amazon SageMaker HyperPod para abordar un desafío clave relacionado con la priorización de las cargas de trabajo. Con la gobernanza de tareas, ahora pueden administrar las cargas de trabajo de los clientes, como las solicitudes de inferencia, junto con sus propios proyectos de desarrollo de modelos en curso, lo que garantiza la priorización de las solicitudes urgentes de los clientes, sin interrumpir la investigación interna. Esto se traduce en una mejor utilización de los recursos y en la satisfacción del cliente. “Pudimos cumplir con nuestros requisitos de entrenamiento del modelo de lenguaje de gran tamaño mediante Amazon SageMaker HyperPod”, dijo John Duprey, ingeniero distinguido de Thomson Reuters Labs. “Al usar Amazon EKS en SageMaker HyperPod, logramos escalar verticalmente la capacidad y ejecutar trabajos de entrenamiento con facilidad, lo que nos permitió aprovechar los beneficios de los modelos de lenguaje de gran tamaño (LLM) en áreas como la clasificación y el resumen jurídico”.

    Thomson Reuters ha estado a la vanguardia del desarrollo de la IA durante más de 30 años y nos comprometemos a ofrecer soluciones significativas que ayuden a nuestros clientes a obtener resultados más rápido, con un mejor acceso a información fiable. Para acelerar nuestra innovación en IA generativa, además de asociarnos con proveedores de LLM, también estamos explorando el entrenamiento de modelos personalizados de manera más eficiente con nuestro contenido único y patentado y nuestra experiencia humana. Las bibliotecas de entrenamiento distribuido de SageMaker HyperPod nos ayudan a mejorar el rendimiento del entrenamiento de modelos a gran escala. Además, su característica de resiliencia ahorra tiempo a medida que supervisamos y administramos la infraestructura. El entrenamiento de nuestros modelos fundacionales en SageMaker HyperPod aumentará nuestra velocidad de comercialización y nos ayudará a ofrecer soluciones de calidad a nuestros clientes a buen ritmo.

    Joel Hron, director de IA y laboratorios de Thomson Reuters, y John Duprey, ingeniero distinguido de Thomson Reuters Labs
  • Stability AI

    Como empresa líder en IA generativa de código abierto, nuestro objetivo es maximizar la accesibilidad de la IA moderna. Estamos creando modelos fundacionales con decenas de miles de millones de parámetros, que requieren una infraestructura que pueda escalar un rendimiento de entrenamiento optimizado. Con la infraestructura administrada y las bibliotecas de optimización de SageMaker HyperPod, podemos reducir el tiempo y los costos de formación en más de un 50 %. Hace que nuestro entrenamiento del modelo sea más resistente y eficaz para crear modelos de última generación con mayor rapidez.

    Emad Mostaque, fundador y CEO de Stability AI
  • Recursal AI

    Se simplificó todo el proceso. Con SageMaker HyperPod, podemos aprovechar las características de resiliencia de los clústeres que identifican y recuperan automáticamente los trabajos de entrenamiento desde el último punto de control guardado en caso de que se produzca un fallo de hardware. Ejecutamos cargas de trabajo muy diversas, desde aplicaciones, inferencias y entrenamiento, con Kubernetes como hilo conductor. Para nosotros, Amazon EKS con SageMaker HyperPod simplemente funciona: los nodos entran en nuestro clúster.

    Nathan Wilce, jefe de infraestructura y datos de Recursal
  • Hippocratic AI

    Hippocratic AI, una empresa de inteligencia artificial que desarrolla el primer modelo de lenguaje grande (LLM) centrado en la seguridad para la atención médica. Para entrenar sus modelos principales de LLM y de supervisor, Hippocratic AI requería recursos de computación potentes, que tenían una gran demanda y eran difíciles de obtener. Los planes de entrenamiento flexibles de Amazon SageMaker HyperPod les facilitaron el acceso a las instancias P5 de Amazon Elastic Compute Cloud (Amazon EC2). Hippocratic AI también aprovecha los servicios de AWS, como Grafana, para realizar un seguimiento de las métricas importantes de utilización de la GPU. Con las instancias P5 de Amazon EC2, Hippocratic AI ha aumentado cuatro veces la velocidad de entrenamiento del modelo y escala su solución para adaptarse a cientos de casos de uso. Los ayudó a asegurar los recursos de computación necesarios y a entrenar modelos rápidamente.

  • NinjaTech

     

    NinjaTech AI, una empresa de IA generativa que ofrece un SuperAgent integrado para una productividad ilimitada, utilizó los planes de entrenamiento flexible de Amazon SageMaker HyperPod para acelerar el refinamiento de varios modelos internos, incluido el modelo Llama 3.1 405B, a fin de reducir los costos de entrenamiento del modelo y automatizar el proceso. El objetivo de la empresa es brindarles una experiencia perfecta a los usuarios que desean acceder a varios agentes de IA que impulsan su tecnología SuperAgent. Para lograrlo, necesitaban un modelo que pudiera predecir automáticamente la intención del usuario y determinar qué agente de IA sería adecuado para ello. Este mecanismo requería realizar actualizaciones frecuentes del modelo incorporando los comentarios de los clientes y nuevas características de forma iterativa, lo que implicaba entre 10 y 100 millones de tokens en cada ronda de refinamiento de LoRa. Para una startup, adquirir y operar recursos de computación de alto rendimiento es un desafío debido a los problemas de ancho de banda y costo, en especial en los clústeres de varios nodos que implican redes y almacenamiento rápidos, además de una computación acelerada. Además, el proceso de entrenamiento lleva mucho tiempo e implica pasos como la descarga de modelos, el entrenamiento distribuido, el punto de control, la supervisión, la corrección automática, la fusión y la cuantización. Los planes de entrenamiento flexibles de HyperPod proporcionaron a la empresa un procesamiento fiable y asequible antes del entrenamiento, lo que se ajustó a sus requisitos de computación y cronogramas específicos y, al mismo tiempo, garantizó un entrenamiento del modelo eficiente.

  • OpenBabylon

    Los desarrolladores y científicos de datos de OpenBabylon, una empresa de inteligencia artificial que personaliza modelos de lenguaje grandes para lenguajes subrepresentados, llevan unos meses utilizando los planes de entrenamiento flexible de SageMaker HyperPod a fin de optimizar su acceso a los recursos de la GPU para ejecutar experimentos a gran escala. Con las capacidades de entrenamiento distribuido de varios nodos de SageMaker HyperPod, realizaron 100 experimentos de entrenamiento del modelo a gran escala y lograron resultados vanguardistas en la traducción del inglés al ucraniano. Este avance se logró a tiempo y de forma rentable, lo que demuestra la capacidad de SageMaker HyperPod para entregar con éxito proyectos complejos a tiempo y dentro del presupuesto.

  • Salesforce

    Los investigadores de Salesforce buscaban formas de comenzar rápidamente con el entrenamiento y el refinamiento de los modelos fundamentales, sin tener que preocuparse por la infraestructura ni dedicar semanas a optimizar su paquete de capacitación para cada nuevo modelo. Con las recetas de Amazon SageMaker HyperPod, los investigadores de Salesforce pueden crear prototipos rápidamente cuando personalizan los FM. Ahora, los equipos de investigación de IA de Salesforce pueden empezar en cuestión de minutos con una variedad de recetas de preentrenamiento y refinamiento, y pueden poner en práctica modelos de vanguardia con un alto rendimiento.

Socios de Amazon SageMaker HyperPod

 

Impulse la innovación y genere un mayor valor empresarial con la ayuda de los socios de AWS que cuentan con un amplio conocimiento técnico y un éxito comprobado entre los clientes

  • Accenture

    Ampliamos nuestra asociación con AWS como socio de lanzamiento para la gobernanza de tareas de Amazon SageMaker HyperPod. Nuestra colaboración con AWS nos permitirá guiar a los clientes hacia los últimos avances tecnológicos y, al mismo tiempo, reducir los costos de las aplicaciones de IA generativa. Si combinamos las capacidades de gobernanza centralizada de SageMaker HyperPod y nuestra experiencia en proyectos de IA generativa, podemos ayudar a las empresas a aprovechar el valor de la IA generativa aún más rápido y así, mejorar la experiencia del cliente y aumentar el retorno de la inversión.

    Jennifer Jackson, Global Lead de Accenture AWS Business Group y Senior Managing Director
  • Slalom

    Estamos encantados de colaborar con AWS como socio de lanzamiento para la gobernanza de tareas de Amazon SageMaker HyperPod. Gracias al trabajo en conjunto con AWS, ahora podemos ayudar a nuestros clientes a adoptar rápidamente los últimos avances tecnológicos y reducir los costos de sus aplicaciones de IA generativa. Si combinamos las capacidades de gobernanza centralizada de SageMaker HyperPod con la amplia experiencia de Slalom en IA y en la nube, podemos ofrecer experiencias de cliente excepcionales junto con un mayor retorno de la inversión.

    Jeff Kempiners, Managing Director del Centro de Excelencia (CoE) de Amazon de Slalom
  • Rackspace Technology

    Nos complace colaborar con AWS como socio de lanzamiento para la gobernanza de tareas de SageMaker HyperPod. Juntos, podemos ayudar a nuestros clientes a reducir los costos de las aplicaciones de IA generativa y, al mismo tiempo, estar al tanto de los últimos avances tecnológicos. Si combinamos las capacidades de gobernanza centralizada de SageMaker HyperPod con la profunda experiencia en IA y nube de Rackspace, podemos transformar las experiencias de los clientes y mejorar su retorno de la inversión simultáneamente.

    Srini Koushik, President, AI, Technology and Sustainability de Rackspace Technology