Publié le: May 1, 2024
Amazon EMR sans serveur est une option sans serveur d'Amazon EMR qui permet aux ingénieurs et aux spécialistes des données d'exécuter facilement des cadres d'analytique du big data open source sans avoir à configurer, gérer ni dimensionner des clusters ou des serveurs. Une application EMR sans serveur utilise des travailleurs pour exécuter les charges de travail, ce qui permet aux utilisateurs de configurer le stockage éphémère par travailleur en fonction des besoins de la charge de travail. Aujourd'hui, nous sommes ravis de présenter les disques optimisés pour le mode Shuffle sur Amazon EMR sans serveur, qui offrent une capacité de stockage accrue (jusqu'à 2 To) et des IOPS plus élevées, offrant de meilleures performances pour les charges de travail Spark et Hive exigeantes en E/S.
Le mode Shuffle est une étape fondamentale d'une tâche Apache Spark ou Apache Hive. Elle implique des opérations exigeantes en E/S qui redistribuent ou réorganisent les données pour des calculs parallèles lors d'opérations telles que les jointures, les agrégations ou encore les transformations. Les charges de travail complexes impliquant de grands jeux de données à mélanger nécessitent une capacité de disque et des performances d'E/S suffisantes pour un traitement aléatoire optimisé. Les disques optimisés pour le mode Shuffle offrent jusqu'à 2 To de capacité de stockage et des IOPS de base plus élevés, ce qui vous permet d'exécuter efficacement des charges de travail Spark et Hive exigeantes en E/S.
Les disques optimisés pour le mode Shuffle sont généralement disponibles dans les versions 7.1.0 d'EMR dans toutes les régions AWS où EMR sans serveur est disponible, à l'exception des régions AWS GovCloud (US) et Chine. Pour en savoir plus sur les disques optimisés pour le mode Shuffle, consultez le Guide de l'utilisateur d’EMR sans serveur. Pour en savoir plus sur la tarification des disques optimisés pour le mode Shuffle, consultez la page de tarification d'EMR sans serveur.