Cómo reducen las startups los costos de IA y ML e innovan con AWS Inferentia

¿Qué le pareció este contenido?

Como startup de machine learning (ML), probablemente sea consciente de los retos que conlleva entrenar e implementar modelos de ML en sus aplicaciones (“productización del ML”). La productización del ML es un reto porque las startups trabajan tanto para lograr un gran rendimiento de las aplicaciones, como para crear una experiencia de usuario atractiva y administrar los costos de forma eficiente, todo ello mientras crean una startup que sea competitiva y sostenible.

A la hora de elegir la infraestructura para las cargas de trabajo de ML, las startups deben considerar cuál es la mejor manera de plantear el entrenamiento y la inferencia. El entrenamiento es el proceso mediante el cual se crea y pone a punto un modelo para una tarea específica aprendiendo de los datos existentes. La inferencia es el proceso de utilizar ese modelo para hacer predicciones basadas en datos de entrada nuevos. Durante los últimos cinco años, AWS ha estado invirtiendo en aceleradores propios creados específicamente para superar los límites de rendimiento y costo de computación de las cargas de trabajo de ML. Los aceleradores de AWS Trainium y AWS Inferentia proporcionan el costo más bajo para el entrenamiento de modelos y la ejecución de inferencias en la nube.

Las instancias Inf1 de Amazon EC2 basadas en AWS Inferentia son perfectas para las startups que deseen ejecutar aplicaciones de inferencia de ML como:

  • Búsqueda
  • Motores de recomendaciones
  • Visión artificial
  • Reconocimiento de voz
  • Procesamiento de lenguaje natural (NLP)
  • Personalización
  • Detección de fraude

Para entrenar e implementar modelos más complejos, como los modelos de IA generativa (grandes modelos lingüísticos y modelos de difusión), podría echar un vistazo a las nuevas instancias Trn1 de Amazon EC2 basadas en AWS Trainium y a las instancias Inf2 de Amazon EC2 basadas en AWS Inferentia2.

En esta publicación, trataremos los casos de uso de dos startups (Actuate y Finch Computing) y el éxito que han obtenido con las instancias Inf1 con tecnología de Inferentia.

Actuate | Detección de amenazas mediante análisis de video con IA en tiempo real | Ahorro del 91 % en costos de inferencia

Caso de uso: Actuate proporciona una plataforma de software como servicio (SaaS) destinada a convertir cualquier cámara en una cámara inteligente de detección de amenazas en tiempo real para detectar al instante y con precisión armas, intrusos, multitudes y merodeadores. La plataforma de software de Actuate se integra en los sistemas de cámaras de video existentes para crear sistemas de seguridad avanzados. Con el software de detección de amenazas de inteligencia artificial (IA) de Actuate, los clientes reciben alertas en tiempo real en cuestión de segundos y pueden actuar con rapidez para proteger sus instalaciones.

Oportunidad: Actuate necesitaba garantizar una gran precisión en la detección. Esto significaba reentrenar constantemente sus modelos utilizando más datos, lo que consumía un tiempo valioso a los desarrolladores. Además, como necesitaban tiempos de respuesta rápidos, dependían de una infraestructura basada en GPU, cuyo costo era prohibitivo a gran escala. Como startup con recursos limitados, minimizar los costos de inferencia y el tiempo de desarrollo podía ayudar a Actuate a utilizar esos recursos para crear funciones mejores y proporcionar más valor a los usuarios finales.

Solución e impacto: en primer lugar, Actuate implementó Amazon SageMaker para entrenar e implementar sus modelos. Esto redujo su tiempo de implementación (medido desde el etiquetado de datos hasta la implementación del modelo) de 4 semanas a 4 minutos. En la siguiente fase, migraron los modelos de ML de todo el conjunto de sus productos de instancias basadas en GPU a instancias Inf1 basadas en AWS Inferentia. Esta migración requirió una participación mínima de los desarrolladores, ya que no tuvieron que reescribir el código de la aplicación y solo necesitaron unas pocas líneas de cambios en el código. Actuate observó un ahorro de costos inmediato de hasta el 70 % con AWS Inferentia. Con una mayor optimización, redujeron los costos de inferencia en un 91 %. Esto les permitió utilizar sus recursos para centrarse en las mejoras de la experiencia del usuario y en la investigación fundamental de la IA.

Recursos: para obtener más sobre el caso de uso de Actuate, puede ver su presentación en re:Invent. Para iniciarse en el uso de modelos de visión artificial en instancias Inf1, visite la página de documentación de Neuron y consulte este cuaderno para el modelo Yolov5 en GitHub.

Finch Computing | Información en tiempo real con NLP en activos informativos | 80 % de ahorro en costos de inferencia

Caso de uso: Finch (la combinación de las palabras “find” [encontrar] y “search” [buscar]) presta sus servicios a empresas de medios de comunicación y agregadores de datos, organizaciones gubernamentales y de inteligencia estadounidenses y empresas de servicios financieros. Sus productos utilizan algoritmos de procesamiento de lenguaje natural (NLP) para proporcionar información procesable sobre grandes volúmenes de datos de texto en una gran variedad de activos informativos. Un ejemplo de ello es la asignación de sentimientos, que consiste en identificar un contenido como positivo, negativo o neutro y devolver una puntuación numérica indicativa del nivel y el tipo de opinión.

Oportunidad: después de agregar localización a su producto para el neerlandés, Finch Computing quería ampliarlo para que se localizara al francés, el alemán, el español y otros idiomas. Esto proporcionaría a los clientes existentes contenidos en estos idiomas, y también atraería a nuevos clientes en toda Europa. Finch Computing había creado e implantado sus propios modelos de traducción de aprendizaje profundo en GPU, lo que resultaba prohibitivo desde el punto de vista de los costos para dar servicio a idiomas adicionales. La empresa buscaba una solución alternativa que le permitiera crear y ejecutar modelos lingüísticos nuevos de manera rápida y rentable.

Solución e impacto: en tan solo unos meses, Finch Computing migró sus modelos de traducción de gran carga de computación de instancias basadas en GPU a instancias Inf1 de Amazon EC2 impulsadas por AWS Inferentia. Las instancias Inf1 permitieron el mismo rendimiento que las GPU, pero ayudaron a Finch a ahorrar más de un 80 % en sus costos. Finch Computing localizó su producto a tres idiomas adicionales y atrajo a nuevos clientes. En la actualidad, todos sus modelos de traducción se ejecutan en Inf1 y tienen previsto explorar las instancias Inf2 para nuevos casos de uso de IA generativa, como el resumen de textos y la generación de titulares.

Recursos: para saber más sobre el caso de uso de Finch Computing, puede leer este estudio de caso. Para iniciarse en el modelo de traducción, visite la página de documentación de Neuron y consulte este cuaderno para el modelo MarianMT en GitHub.

AWS Inferentia para lograr una inferencia de ML rentable y de alto rendimiento

En este blog, analizamos dos startups que implementaron de forma rentable modelos de ML en producción en AWS Inferentia, al tiempo que conseguían un alto rendimiento y una latencia baja.

¿Está listo para iniciarse con las instancias Inf1? Puede utilizar el SDK de AWS Neuron, que se integra de forma nativa con marcos de ML conocidos como PyTorch y TensorFlow. Para saber cómo, visite la página de documentación de Neuron y explore este repositorio de modelos de muestra en GitHub.

Consulte cómo otras startups de AIML crean y escalan en AWS 🚀:

Shruti Koparkar

Shruti Koparkar

Shruti Koparkar es Directora senior de Marketing de productos en AWS. Ayuda a los clientes a explorar, evaluar y adoptar la infraestructura de computación acelerada Amazon EC2 para sus necesidades de machine learning.

¿Qué le pareció este contenido?