Nuevas métricas de EFA para mejorar la observabilidad de las redes de AWS
Hoy, AWS ha presentado cinco nuevas métricas de Elastic Fabric Adapter (EFA) para mejorar la observabilidad de la red para las cargas de trabajo de IA y ML y de computación de alto rendimiento (HPC). Estas nuevas métricas ayudan a diagnosticar los problemas de rendimiento mediante el seguimiento de los paquetes y bytes retransmitidos, los eventos de tiempo de espera de retransmisión, los eventos de conexión remota alterada y los eventos de receptores remotos sin respuesta.
Con estas nuevas métricas, puede monitorear la congestión de la red o los problemas de configuración de las instancias. Esto le permite tomar medidas oportunas para mantener el rendimiento de las aplicaciones. Las métricas se implementan como contadores a nivel de cada dispositivo EFA, acumulando datos desde el inicio de la instancia o el restablecimiento del controlador más reciente. Se puede acceder a estos contadores de métricas (almacenados en sys filesystem) a través de la línea de comandos de la instancia. Para mejorar las capacidades de monitoreo y alerta, puede integrar estas métricas en los scripts de Prometheus, lo que facilita la exportación a herramientas de terceros, como Grafana, con el objetivo de crear paneles y configurar alarmas. Las nuevas métricas están disponibles en las instancias de Nitro v4 (y posteriores) y requieren la versión 1.43.0 o superior del instalador de EFA. Para obtener una lista completa de las métricas y más información sobre cómo usarlas, consulte la guía del usuario de Monitorización de EFA. Para obtener una lista completa de las instancias creadas en diferentes versiones de Nitro, consulte la documentación de AWS Nitro Systems.
Estas nuevas métricas son compatibles con todas las regiones comerciales de AWS, las regiones de AWS GovCloud (EE. UU.) y las regiones de China. Para obtener más información, visite la documentación sobre EFA.