Saltar al contenido principal

Amazon FSx para Lustre

Amazon FSx para clientes de Lustre

Datología

DatologyAI crea herramientas que seleccionan automáticamente los mejores datos para entrenar modelos de aprendizaje profundo.

«Nos entusiasma utilizar la solución de observabilidad con un solo clic de Amazon SageMaker HyperPod. Los miembros de nuestro personal sénior necesitaban información sobre cómo utilizamos los recursos de la GPU. Los paneles Grafana prediseñados nos brindarán exactamente lo que necesitábamos, con visibilidad inmediata de las métricas críticas, desde la utilización de la GPU para tareas específicas hasta el rendimiento del sistema de archivos (FSx for Lustre), sin necesidad de mantener ninguna infraestructura de monitoreo. Como alguien que aprecia el poder del lenguaje de consulta Prometheus, me gusta el hecho de poder escribir mis propias consultas y analizar métricas personalizadas sin preocuparme por los problemas de infraestructura».

Josh Wills, miembro del personal técnico de DatologyAI

Missing alt text value

Grupo Apoidea

Apoidea desarrolla soluciones basadas en inteligencia artificial para bancos multinacionales utilizando tecnologías de aprendizaje profundo e inteligencia artificial generativa de vanguardia. Su producto estrella, SuperAcc, es un sofisticado servicio de procesamiento de documentos que emplea modelos patentados para gestionar diversos documentos financieros, incluidos estados de cuenta bancarios y formularios KYC. Esta tecnología ha mejorado drásticamente la eficiencia en el sector bancario, reduciendo el tiempo de procesamiento de la distribución financiera de 4 a 6 horas a solo 10 minutos.

Para respaldar este desarrollo, Apoidea utiliza Amazon SageMaker HyperPod, que proporciona un entorno escalable y flexible para el entrenamiento de modelos a gran escala. SageMaker HyperPod ofrece una administración de entrenamiento distribuida, una sincronización de datos perfecta con FSx for Lustre y entornos personalizables, todo lo cual mejora la eficiencia del flujo de trabajo de ML.

Missing alt text value

Adobe

Adobe se fundó hace 40 años con la simple idea de crear productos innovadores que cambien el mundo. Adobe ofrece una tecnología innovadora que permite a todos, en cualquier lugar, imaginar, crear y dar vida a cualquier experiencia digital. En lugar de confiar en modelos de código abierto, Adobe decidió entrenar sus propios modelos de IA generativa fundamentales diseñados para casos de uso creativos. Adobe creó una autopista de inteligencia artificial en AWS para crear una plataforma de entrenamiento de inteligencia artificial y canalizaciones de datos para iterar modelos rápidamente. Adobe usó Amazon FSx para el almacenamiento de archivos de alto rendimiento de Lustre, para acceder rápidamente a los datos y garantizar que los recursos de la GPU nunca se queden inactivos.

«Es fácil pensar que voy a crear mi propia nube de IA, pero la asociación con AWS nos permite centrarnos en nuestros factores diferenciadores»

Alexandru Costin, vicepresidente de IA generativa y sensei de Adobe

Missing alt text value

Investigación de IA de LG

LG AI Research, el centro de investigación de inteligencia artificial (IA) del conglomerado surcoreano LG Group, se fundó para promover la IA como parte de su estrategia de transformación digital para impulsar el crecimiento futuro. El instituto de investigación desarrolló su modelo básico de motor EXAONE en el plazo de un año con Amazon SageMaker y Amazon FSx for Lustre. El modelo básico imita a los humanos mientras piensan, aprenden y toman medidas por sí solos mediante el entrenamiento de datos a gran escala. El modelo de base multipropósito se puede emplear en diversas industrias para llevar a cabo una variedad de tareas.

The logo of LG Electronics, featuring a stylized 'L' and 'G' inside a circle with the text 'LG Electronics' next to it.

Paige

Paige, un proveedor líder de patología digital, buscó mejorar sus modelos de inteligencia artificial y aprendizaje automático para el diagnóstico del cáncer, pero se enfrentó a limitaciones con las soluciones locales. Para superar este problema, Paige adoptó las instancias P4d de Amazon EC2 y Amazon FSx for Lustre, integrando esta última con los buckets de Amazon S3 para gestionar de manera eficiente los petabytes de datos de entrada de ML. Esta infraestructura de AWS permitió a Paige procesar datos sin necesidad de preconfigurarlos manualmente en sistemas de archivos de alto rendimiento. Como resultado, Paige logró un aumento de diez veces en la capacidad de entrenamiento de datos y flujos de trabajo internos un 72% más rápidos.

«Al conectar Amazon FSx for Lustre a Amazon S3, podemos entrenar con una cantidad de datos 10 veces mayor que la que hemos probado en la infraestructura local sin ningún problema. »

Alexander van Eck, Staff AI Engineer - Paige

The logo for Paige, featuring a stylized abstract circular design and the text 'Paige'.

Toyota

El Instituto de Investigación de Toyota (TRI) recopila y procesa grandes cantidades de datos de sensores de sus pruebas de vehículos autónomos (AV). Cada conjunto de datos de entrenamiento se almacena en un dispositivo NAS local y se transfiere a Amazon Simple Storage Service (Amazon S3) antes de procesarse en un potente clúster de procesamiento de GPU. El TRI necesitaba un sistema de archivos de alto rendimiento para combinarlo con sus recursos de computación, acelerar el entrenamiento de sus modelos de machine learning y acelerar la obtención de información para sus científicos de datos. El Instituto de Investigación de Toyota elige FSx para Lustre con el objetivo de reducir los tiempos de entrenamiento de machine learning con reconocimiento de objetos.

«Necesitábamos un sistema de archivos paralelo para nuestros conjuntos de datos de entrenamiento de aprendizaje automático y elegimos Amazon FSx for Lustre por su mayor disponibilidad y durabilidad, en comparación con nuestra oferta de sistemas de archivos antiguos. La integración con los servicios de AWS, incluido S3, también la convirtió en la opción preferida para nuestro almacenamiento de archivos de alto rendimiento. »

David Fluck, ingeniero de software del Instituto de Investigación de Toyota

Logo of the Toyota Research Institute featuring a geometric design with red, black, and gray elements and the text 'TOYOTA RESEARCH INSTITUTE' below it.

Shell

Shell ofrece una cartera dinámica de opciones energéticas (desde petróleo, gas y productos petroquímicos hasta energía eólica, solar e hidrógeno). Shell se enorgullece de suministrar la energía que sus clientes necesitan para alimentar sus vidas. Shell confía en HPC para la creación, las pruebas y la validación de modelos. De 2020 a 2022, la utilización media de la GPU ha sido inferior al 90 %, lo que ha provocado retrasos en los proyectos y limitaciones en la experimentación con nuevos algoritmos. Shell aumenta su capacidad informática local al irrumpir en la nube con clústeres de Amazon EC2 y Amazon FSx for Lustre. Esta solución le da a Shell la capacidad de escalar y desescalar verticalmente con rapidez, y solo adquirir capacidad de cómputo adicional cuando sea necesario. Las GPU de Shell ahora se utilizan al completo, lo que reduce el costo de la computación y acelera las pruebas de modelos de machine learning.

Missing alt text value

Netflix

Netflix utiliza la formación distribuida a gran escala para modelos de aprendizaje automático multimedia, miniaturas de posproducción, efectos visuales y generación de tráilers para miles de vídeos y millones de clips. Netflix estaba experimentando largas esperas debido a la replicación entre nodos y a un tiempo de inactividad de la GPU del 40 %.

Netflix rediseñó su canal de carga de datos y mejoró su eficiencia calculando previamente todos los clips de vídeo y audio. El rendimiento de Amazon FSx para Lustre permite a Netflix aprovechar al máximo las GPU y eliminar prácticamente el tiempo de inactividad de la GPU. Netflix ahora experimenta una mejora de 3 a 4 veces al utilizar precomputación y FSx para Lustre, lo que reduce el tiempo de entrenamiento del modelo de una semana a uno o dos días.

Ver el vídeo de Netflix

La producción de la cuarta temporada de la serie dramática de Netflix “The Crown” se enfrentó a desafíos inesperados, ya que el mundo entró en confinamiento por la pandemia de COVID-19 justo cuando estaba previsto que comenzara el trabajo de efectos visuales de postproducción. Al adoptar un flujo de trabajo basado en la nube en AWS, incluido el servidor de archivos Amazon FSx Lustre para mejorar el rendimiento, el equipo interno de 10 artistas de efectos visuales de Netflix pudo completar sin problemas más de 600 tomas de efectos visuales para los 10 episodios de la temporada en solo 8 meses, todo ello mientras trabajaba de forma remota.

Missing alt text value

Storengy

Storengy, una filial de ENGIE Group, es un proveedor líder de gas natural. La compañía ofrece almacenamiento de gas, soluciones geotérmicas, producción de energía libre de carbono y tecnologías de almacenamiento a empresas de todo el mundo.

Para garantizar que sus productos se almacenen correctamente, Storengy utiliza simuladores de alta tecnología para evaluar el almacenamiento subterráneo de gas, un proceso que requiere un uso generalizado de cargas de trabajo de computación de alto rendimiento (HPC). La empresa también utiliza la tecnología de HPC para ejecutar trabajos de descubrimiento y exploración de gas natural.

«Gracias a AWS, tenemos la escalabilidad y la alta disponibilidad para realizar cientos de simulaciones a la vez. Además, la solución se amplía o reduce automáticamente para soportar nuestros períodos de máxima carga de trabajo, lo que significa que no tenemos sorpresas con nuestro entorno de HPC. »

Jean-Frederic Thebault, ingeniero, Storengy

Missing alt text value

Smartronix

Smartronix aprovecha FSx para Lustre a fin de ofrecer un alto rendimiento confiable en sus implementaciones de SAS Grid.

Smartronix ofrece soluciones en la nube, ciberseguridad, integración de sistemas, análisis de datos y C5ISR en todo el mundo. También ofrece ingeniería centrada en la misión de muchas de las principales organizaciones comerciales y federales del mundo. Smartronix confió en SAS Grid para analizar y ofrecer estadísticas diarias sobre la COVID en todo el estado y descubrió que su sistema de archivos paralelos autoadministrado era difícil de gestionar y proteger.

«Colaborar con AWS y aprovechar sus soluciones gestionadas, como FSx for Lustre, nos ha permitido ofrecer un mejor servicio a nuestros clientes, con una mayor disponibilidad y un coste un 29% inferior al de los sistemas de archivos autogestionados. »

Rob Mounier, arquitecto de soluciones sénior, Smartronix

Missing alt text value

Hyundai

Hyundai Motor Company, un fabricante mundial de automóviles que exporta a más de 200 países, utiliza la segmentación semántica para la conducción autónoma para clasificar los píxeles de las imágenes en categorías como carreteras, personas y edificios.

Para mejorar la precisión de los modelos y cumplir con los plazos, Hyundai implementó Amazon SageMaker para el entrenamiento automatizado y el paralelismo de datos en varias GPU, junto con Amazon FSx for Lustre y S3 para un almacenamiento y procesamiento de datos eficientes. Estas soluciones ayudaron a Hyundai a lograr una eficiencia de escalado del 93% con 64 GPU y, al mismo tiempo, a eliminar los tiempos de espera de datos.

A plain solid dark blue background image.

Rivian

Amazon FSx for Lustre desempeñó un papel crucial en la transformación de la nube de Rivian, ya que les proporcionó el acceso rápido al almacenamiento compartido necesario para sus cargas de trabajo de diseño e ingeniería asistidas por ordenador. Al utilizar FSx for Lustre como parte de su solución de AWS, Rivian mejoró drásticamente sus métricas de rendimiento, incluido un aumento del 66% en la velocidad de interacción de la administración del ciclo de vida del producto y la reducción del tiempo de sincronización de las copias de seguridad de un día a menos de una hora.

El servicio de almacenamiento totalmente gestionado se implementó junto con otros servicios de AWS, como Amazon EC2 y Auto Scaling, lo que ayudó a Rivian a superar las limitaciones de su infraestructura local y a lograr capacidades informáticas escalables y de alto rendimiento en solo tres semanas, en comparación con el plazo previsto de seis meses.

Missing alt text value

Denso

Denso desarrolla sensores de imagen para sistemas avanzados de asistencia al conductor (ADAS), que ayudan a los conductores con funciones como estacionar y cambiar de carril. Para desarrollar los modelos de aprendizaje automático necesarios para el reconocimiento de imágenes ADAS, DENSO creó clústeres de GPU en su entorno local. Sin embargo, varios ingenieros de machine learning compartieron recursos de GPU limitados, lo que afectó a la productividad, especialmente durante el ajetreado período previo al lanzamiento de un nuevo producto.

Al adoptar Amazon SageMaker y Amazon FSx for Lustre, Denso pudo acelerar la creación de modelos de reconocimiento de imágenes ADAS al reducir el tiempo de adquisición de datos, desarrollo de modelos, aprendizaje y evaluación.

«La práctica de pasar a la nube seguirá acelerándose en el campo de la inteligencia artificial y el aprendizaje automático. Estoy seguro de que AWS seguirá apoyándonos a medida que sigamos agregando funciones”.

Kensuke Yokoi, General Manager - DENSO

DENSO logo with the tagline 'Crafting the Core' in red text on a white background.

T-Mobile

T-Mobile transformó su infraestructura SAS Grid al implementar Amazon FSx for Lustre para abordar los problemas de rendimiento y los altos gastos de administración con su sistema autogestionado.

La implementación de FSx for Lustre, junto con su integración con Amazon S3, permitieron a T-Mobile duplicar las velocidades de carga de trabajo de la red SAS y, al mismo tiempo, lograr un ahorro anual de 1,5 millones de dólares y una reducción del 83% en el costo total de propiedad.

La solución eliminó las cargas operativas y permitió a T-Mobile centrarse en su negocio principal de desarrollar productos innovadores para los clientes y, al mismo tiempo, aprovechar las capacidades de almacenamiento avanzadas de AWS.

Missing alt text value

Maxar

Maxar Technologies, un socio de confianza e innovador en inteligencia terrestre e infraestructura espacial, necesitaba ofrecer pronósticos meteorológicos más rápido en comparación con su supercomputadora local. Maxar trabajó con AWS para crear una solución de HPC con tecnologías clave, como AMAZON EC2 para obtener recursos informáticos seguros y altamente confiables, Amazon FSx para Lustre para acelerar el rendimiento de lectura/escritura de su aplicación y AWS ParallelCluster para crear rápidamente entornos de computación HPC en AWS.

«Maxar usó Amazon FSx for Lustre en nuestra solución HPC de AWS para ejecutar el modelo numérico de previsión meteorológica de la NOAA. Esto nos permitió reducir el tiempo de computación en un 58 % y generar la previsión en unos 45 minutos a un precio mucho más rentable. La maximización de nuestros recursos informáticos de AWS supuso un aumento de rendimiento increíble para nosotros. »

Stefan Cecelski, doctor, ingeniero y científico de datos sénior, Maxar Technologies

Missing alt text value

Terapéutica BlackThorn (Neumora)

El procesamiento de los datos de imágenes por resonancia magnética (IRM) utilizando sistemas de archivos en la nube estándar de bricolaje requería mucho tiempo y recursos. BlackThorn necesitaba una solución de almacenamiento de archivos compartidos con uso intensivo de computación para ayudar a simplificar sus flujos de trabajo de ciencia de datos y machine learning. Amazon FSx for Lustre está integrado con Amazon S3 y Amazon SageMaker, lo que proporciona un procesamiento rápido para sus conjuntos de datos de entrenamiento de aprendizaje automático, así como un acceso sin problemas a la computación mediante instancias de Amazon EC2.

«FSx for Lustre nos ha permitido crear una línea de procesamiento de datos de IRM de alto rendimiento. El tiempo de procesamiento de datos para nuestros flujos de trabajo basados en ML se redujo a minutos en comparación con días y semanas. »

Oscar Rodriguez, director sénior de Innovación y Tecnología de BlackThorn Therapeutics

Logo for BlackThorn Therapeutics, featuring a stylized network globe design in blue and the company name.

Qubole

Qubole buscaba una solución de almacenamiento de alto rendimiento para procesar las cargas de trabajo analíticas y de inteligencia artificial y aprendizaje automático para sus clientes. Necesitaban almacenar y procesar fácilmente los datos intermedios contenidos en su flota de spot de EC2. Qubole usó Amazon FSx for Lustre para almacenar y procesar datos intermedios a través de su sistema de archivos paralelo de alta velocidad.

«Los dos principales problemas de nuestros usuarios, los altos costos y la pérdida de datos intermedios, se derivaron del uso de instancias EC2 e instancias EC2 Spot inactivas para procesar y almacenar datos intermedios generados por marcos de procesamiento distribuidos como Hive y Spark. Pudimos solucionar este problema con Amazon FSx para Lustre, un sistema de archivos de alto rendimiento, a fin de descargar datos intermedios. Ahora, nuestros usuarios no tienen que pagar para mantener las instancias inactivas y no se ven afectados por la interrupción de los nodos de spot de EC2. Amazon FSx ayudó a nuestros usuarios a reducir los costos totales en un 30%. »

Joydeep Sen Sarma, director de tecnología, Qubole

The Qubole company logo featuring the text 'Qubole' with the 'Qu' in white on a blue square background and 'bole' in black text on a white background.