Publié le: Sep 30, 2020

Nous avons le plaisir d'annoncer qu'Amazon SageMaker prend désormais en charge Apache Spark en tant que conteneur de traitement de Big Data pré-intégré. Vous pouvez maintenant utiliser ce conteneur avec Amazon SageMaker Processing et bénéficier d'un environnement Spark entièrement géré pour le traitement de données ou les charges de travail d'ingénierie de fonctionnalités.

Apache Spark est un moteur d'analyse unifié pour le traitement des données à grande échelle. Amazon SageMaker fournit maintenant des images Docker pré-intégrées qui comprennent Apache Spark et d'autres dépendances nécessaires à l'exécution de tâches de traitement de données distribuées. La gestion et la mise à l'échelle de l'infrastructure nécessaire à l'exécution des tâches de Spark nécessitent beaucoup de travail. Les développeurs et les scientifiques des données consacrent beaucoup de temps à gérer l'infrastructure pour une utilisation partagée et à régler l'infrastructure pour la performance, l'échelle et le coût. Conserver une infrastructure Spark permanente qui est seulement utilisée pour la durée des tâches de traitement des données est coûteux, puisque les coûts sont engagés même lorsque les tâches ne sont pas en cours d'exécution.

Avec Amazon SageMaker Processing et le conteneur Spark intégré, vous pouvez exécuter des tâches de traitement Spark facilement et à l'échelle pour préparer les données. Les clients profitent des avantages d'un environnement Spark entièrement géré et d'une infrastructure évolutive à la demande, avec toutes les capacités de sécurité et de conformité d'Amazon SageMaker. Vous pouvez gérer facilement les configurations Spark et soumettre des tâches personnalisées pour un traitement distribué. Lorsque vous soumettez des tâches, Amazon Sagemaker gérera l'infrastructure d'approvisionnement, le démarrage du cluster Spark, l'exécution de votre application et la libération des ressources une fois l'opération terminée.

Amazon SageMaker Processing est généralement disponible dans toutes les régions AWS sur le continent américain, en Europe, dans certaines régions d'Asie-Pacifique et prochainement dans d'autres régions. Pour en savoir plus sur les régions spécifiques concernées, vous pouvez consulter cette page. Consultez la documentation pour en savoir plus et voir des exemples de bloc-notes. Pour apprendre à utiliser cette fonctionnalité, lisez notre article de blog.