Novas métricas do EFA para melhorar a observabilidade das redes da AWS
Hoje, a AWS introduziu cinco novas métricas do Elastic Fabric Adapter (EFA) para aprimorar a observabilidade da rede para workloads de IA/ML e computação de alta performance (HPC). Essas novas métricas ajudam a diagnosticar problemas de performance rastreando pacotes e bytes retransmitidos e eventos de esgotamento de tempo limite de retransmissão, conexão remota insatisfatória e receptores remotos que não respondem.
Com essas novas métricas, você pode monitorar problemas de congestionamento de rede ou de configuração de instâncias e tomar medidas oportunas para manter a performance das aplicações. As métricas são implementadas como contadores no nível de EFA por dispositivo, acumulando dados desde o lançamento da instância ou a redefinição mais recente de driver. Armazenados no sistema de arquivos sys, esses contadores de métricas podem ser acessados por meio da linha de comando da instância. Para obter recursos aprimorados de monitoramento e alertas, você pode integrar essas métricas aos scripts do Prometheus, facilitando a exportação para ferramentas de terceiros, como o Grafana, para criação de painéis e configuração de alarmes. As novas métricas estão disponíveis nas instâncias do Nitro v4 (e posteriores) e exigem a versão 1.43.0 ou superior do instalador do EFA. Para obter uma lista completa de métricas e saber mais sobre como usá-las, acesse Monitore um EFA no Guia do usuário. Para obter uma lista abrangente de instâncias criadas nas diferentes versões do sistema Nitro, consulte a documentação do AWS Nitro Systems.
Essas novas métricas têm suporte em todas as regiões comerciais da AWS e nas regiões AWS GovCloud (EUA) e China. Para saber mais sobre o EFA, acesse a documentação do EFA.