Nuove metriche EFA per una migliore osservabilità della rete AWS
Oggi AWS ha introdotto cinque nuove metriche Elastic Fabric Adapter (EFA) per migliorare l'osservabilità della rete nei carichi di lavoro di IA/ML e calcolo ad alte prestazioni (HPC). Queste nuove metriche aiutano a diagnosticare i problemi di prestazioni monitorando i pacchetti e i byte ritrasmessi, gli eventi di timeout di ritrasmissione, gli eventi di connessione remota compromessa e gli eventi di ricevitore remoto non responsivo.
In questo modo è possibile monitorare la congestione della rete o eventuali problemi di configurazione delle istanze, consentendo di intervenire tempestivamente per garantire la continuità delle prestazioni delle applicazioni. Le metriche sono implementate come contatori a livello di dispositivo EFA, che accumulano dati dal lancio dell'istanza o dall'ultimo ripristino del driver. Memorizzati nel file system sys, questi contatori di metriche sono accessibili tramite la riga di comando dell'istanza. Per funzionalità avanzate di monitoraggio e creazione di avvisi, è possibile integrare queste metriche negli script Prometheus, facilitando l'esportazione verso strumenti di terze parti come Grafana per la creazione di dashboard e la definizione di allarmi. Le nuove metriche sono disponibili sulle istanze Nitro v4 (e successive) e richiedono la versione 1.43.0 o superiore del programma di installazione EFA. Per conoscere l'elenco completo delle metriche e per maggiori dettagli sul loro utilizzo, consulta la guida utente Monitorare un EFA. Per un elenco completo delle istanze basate su diverse versioni del sistema Nitro, consulta la documentazione di AWS Nitro System.
Queste nuove metriche sono disponibili in tutte le regioni AWS commerciali, nelle regioni AWS GovCloud (Stati Uniti) e nelle regioni Cina. Per ulteriori informazioni su EFA, consulta la relativa documentazione.