AWS 네트워킹 가시성 향상을 위한 새로운 EFA 지표
오늘 AWS는 AI/ML 및 고성능 컴퓨팅(HPC) 워크로드의 네트워크 관찰성을 강화하기 위해 5개의 새로운 Elastic Fabric Adapter(EFA) 지표를 도입했습니다. 새로 도입된 지표는 재전송된 패킷 및 바이트, 재전송 시간 초과 이벤트, 손상된 원격 연결 이벤트, 응답하지 않는 원격 수신기 이벤트를 추적하여 성능 문제를 진단하는 데 도움을 줍니다.
이 새로운 지표를 사용하면 네트워크 혼잡이나 인스턴스 구성 문제를 모니터링하여 애플리케이션 성능 유지를 위한 조치를 적시에 취할 수 있습니다. 지표는 EFA 디바이스 수준에서 카운터로 구현되며, 인스턴스 시작 시점 또는 가장 최근의 드라이버 재설정 이후부터 데이터를 누적합니다. 이러한 지표 카운터는 sys 파일 시스템에 저장되며, 인스턴스 명령줄을 통해 액세스할 수 있습니다. 향상된 모니터링 및 알림 기능을 위해, 이 지표를 Prometheus 스크립트에 통합하여 Grafana와 같은 서드 파티 도구로 내보내 좀 더 쉽게 대시보드를 생성하고 경보를 설정할 수 있습니다. 새로운 지표는 Nitro v4 이상 인스턴스에서 제공되며, EFA 설치 프로그램 버전 1.43.0 이상이 필요합니다. 전체 지표 목록과 사용 방법에 대한 자세한 내용은 EFA 모니터링 사용 설명서에서 확인하세요. 다양한 Nitro 시스템 버전을 기반으로 구축된 인스턴스의 전체 목록은 AWS Nitro Systems 설명서를 참조하세요.
새로운 지표는 모든 상용 AWS 리전, AWS GovCloud(미국) 리전, 중국 리전에서 지원됩니다. EFA에 대한 자세한 내용은 EFA 설명서를 참조하세요.