Publié le: Dec 20, 2023

AWS annonce aujourd'hui la sortie d'une version majeure de la bibliothèque de parallélisme de modèles (SMP) d’Amazon SageMaker, qui est désormais compatible avec les API PyTorch Fully Sharded Data Parallel (FSDP) et peut accélérer la formation des modèles de deep learning jusqu'à 20 %. SMP vous permet d'accélérer la formation de grands modèles comportant des milliards de paramètres en partitionnant et en répartissant automatiquement le modèle sur plusieurs accélérateurs et instances de calcul. Vous pouvez commencer à utiliser SMP en quelques minutes et accélérer vos scripts de formation PyTorch FSDP existants en quelques lignes de code.

PyTorch FSDP est une technique d'entraînement distribuée populaire qui réduit l'empreinte mémoire de l'entraînement en répartissant les pondérations, les gradients et les états d'optimisation d'un modèle entre les accélérateurs d'un cluster. Avec cette version, les nouvelles API de la bibliothèque de parallélisme de modèles SageMaker sont désormais compatibles avec les scripts de formation PyTorch FSDP et les accélèrent encore davantage, ce qui permet aux clients de mettre à niveau facilement leurs charges de travail existantes lors de la formation sur SageMaker. En quelques lignes de code, les clients peuvent utiliser des techniques de formation de pointe, telles que le parallélisme hybride des données partagées, qui permet aux clients de modifier le degré de partage des modèles et de contrôler ainsi les exigences de mémoire et de communication liées à leur travail de formation. Cette nouvelle version étend également les capacités de FSDP pour inclure des techniques d'entraînement parallèle aux tenseurs pour les clients de SageMaker, permettant ainsi la formation de modèles comportant des centaines de milliards de paramètres en partitionnant et en répartissant les couches du modèle entre différents dispositifs d'accélération. Pour commencer à utiliser le parallélisme des modèles de SageMaker, consultez notre documentation.