Veröffentlicht am: Jun 6, 2018
Die AWS Deep Learning AMIs für Ubuntu und Amazon Linux enthalten ab sofort eine vorinstallierte und vollständig konfigurierte Version von Horovod. Horovod ist ein beliebtes verteiltes Open-Source-Trainingsframework zur Skalierung von TensorFlow-Trainings auf mehrere GPUs.
Machine Learning-Entwickler erhalten mit Horovod eine Möglichkeit, die Trainingsperformance des optimierten Builds von TensorFlow 1.8 in den AMIs zu steigern, indem Trainings auf mehrere GPUs in Amazon EC2 P3 Instances verteilt werden.
Horovod nutzt das MPI-Modell (Message Passing Interface), einen weit verbreiteten Standard zur Übergabe von Nachrichten und Verwaltung der Kommunikation zwischen Knoten in verteilten High-Performance-Computing-Umgebungen. Im Vergleich zum standardmäßigen verteilten TensorFlow-Trainingsmodell zeichnet sich die MPI-Implementierung von Horovod durch ein vereinfachtes Programmiermodell aus, das zur Skalierung vorhandener Single-GPU-Trainingsprogramme mit minimalen Codeänderungen auskommt.
Horovod nutzt außerdem die NVIDIA Collective Communications Library (NCCL), die optimierte Implementierungen von Multi-GPU- und Multi-Knoten-Kommunikationsgrundobjekten bietet, wie „all-reduce“ zur Beschleunigung auf P3 Instances.
In unseren Tests trainierte Horovod ein ResNet-50-Modell mit einem ImageNet-Dataset mit unserem optimierten Build von TensorFlow 1.8 und OpenMPI 1.10.7 auf einer einzelnen p3.16xlarge P3 Instance 1,2-mal schneller als mit dem standardmäßigen verteilten TensorFlow-Trainingsmodell.
Die neuesten AWS Deep Learning AMIs sind jetzt im AWS Marketplace verfügbar. Für eine Einführung in AMIs sehen Sie sich bitte unser Erste-Schritte-Tutorial an oder besuchen Sie den Entwicklerleitfaden, der weitere Tutorials, Ressourcen und Versionshinweise enthält. Sie können sich auch in unserem Diskussionsforum registrieren, um Ankündigungen zu erhalten und Fragen zu stellen.