Publié le: Sep 9, 2022
Amazon SageMaker permet aux clients de déployer des modèles de ML afin d'établir des prévisions (aussi connues sous le nom d'inférences), quel que soit le cas d'utilisation. Vous pouvez désormais déployer des modèles volumineux (jusqu'à 500 Go) pour l'inférence sur les options d'inférence en temps réel et asynchrone d'Amazon SageMaker en configurant la taille maximale des volumes EBS et les quotas de délais d'expiration. Ce lancement permet aux clients de tirer parti des capacités d'inférence en temps réel et asynchrone entièrement gérées de SageMaker pour déployer et gérer de volumineux modèles de ML tels que les variantes de GPT et OPT.
Auparavant, SageMaker attachait des volumes EBS d'une taille maximale de 30 Go à un point de terminaison SageMaker, ce qui limitait la taille maximale du modèle que vous pouviez déployer. Désormais, la taille du volume EBS peut être configurée jusqu'à 500 Go, ce qui vous permet d'utiliser des modèles de plus grande taille et de regrouper davantage de ressources pour vos besoins d'inférence. En outre, le conteneur de surveillance de l'état et les quotas de délais d'expiration des téléchargements peuvent également être configurés jusqu'à 60 minutes. Vous disposez donc de plus de temps pour télécharger et charger votre modèle et les ressources associées. Combinés, ces changements vous permettent d'utiliser SageMaker pour déployer des modèles de deep learning plus avancés, généralement plus volumineux. Par exemple, grâce aux instances ml.p4d et ml.g5 récemment lancées, vous pouvez utiliser ce changement pour déployer des modèles volumineux qui peuvent exploiter la mémoire de plusieurs GPU pour une inférence de haute performance.
Ces nouvelles options de configuration sont disponibles dans toutes les régions de commercialisation de SageMaker.
Pour commencer, consultez notre documentation ici. Pour un exemple de cas d'utilisation, lisez notre article de blog sur la façon dont vous pouvez tirer parti de ce changement avec DeepSpeed sur SageMaker pour distribuer des modèles volumineux sur plusieurs périphériques GPU pour une inférence haute performance.