Metrik EFA baru untuk meningkatkan observabilitas jaringan AWS
Hari ini, AWS telah memperkenalkan lima metrik Elastic Fabric Adapter (EFA) baru untuk meningkatkan observabilitas jaringan untuk beban kerja AI/ML dan Komputasi Performa Tinggi (HPC). Metrik baru ini membantu mendiagnosis masalah kinerja dengan melacak paket dan byte yang dikirim ulang, peristiwa batas waktu pengiriman ulang, peristiwa koneksi jarak jauh yang terputus, dan peristiwa penerima jarak jauh yang tidak responsif.
Dengan metrik baru ini, Anda dapat memantau kemacetan jaringan atau masalah konfigurasi instans, yang memungkinkan tindakan tepat waktu untuk mempertahankan kinerja aplikasi. Metrik diimplementasikan sebagai penghitung pada tingkat perangkat per-EFA, yang mengakumulasikan data sejak peluncuran instans atau pengaturan ulang driver terkini. Disimpan dalam sistem file sys, penghitung metrik ini dapat diakses melalui baris perintah instans. Untuk kemampuan pemantauan dan peringatan yang ditingkatkan, Anda dapat mengintegrasikan metrik ini ke dalam skrip Prometheus, yang memfasilitasi ekspor ke alat pihak ketiga seperti Grafana untuk pembuatan dasbor dan pengaturan alarm. Metrik baru tersedia pada instans Nitro v4 (dan yang lebih baru) dan memerlukan versi penginstal EFA 1.43.0 atau yang lebih tinggi. Untuk daftar lengkap metrik dan mempelajari lebih lanjut tentang cara menggunakannya, kunjungi panduan pengguna Monitor EFA. Untuk daftar lengkap instans yang dibangun pada berbagai versi sistem Nitro, lihat dokumentasi AWS Nitro Systems.
Metrik baru ini didukung di semua AWS Region komersial, Region AWS GovCloud (AS), dan Region Cina. Untuk mempelajari lebih lanjut tentang EFA, silakan kunjungi dokumentasi EFA.