Q : Qu'est-ce qu'un cluster HPC élastique ?

Un cluster élastique offre un environnement HPC de la même façon qu'un cluster HPC conventionnel, mais avec l'avantage supplémentaire d'être évolutif : les tâches sont soumises à une file d'attente et les nœuds tournent lorsque c'est nécessaire. Les tâches sont automatiquement lancées dès qu'elles sont inactives et les nœuds sont automatiquement arrêtés lorsqu'ils ne sont plus nécessaires.

Q : Quels sont les avantages d'utiliser Amazon Web Services pour HPC ?

AWS est élastique. Plutôt que de payer un coût d'investissement initial conséquent, vous payez uniquement en fonction de votre consommation. Lancez un cluster à 1 000 nœuds pour un jour et vous ne payerez qu'un jour. De plus, un cluster sur le cloud vous offre un accès en continu au dernier matériel et la possibilité de personnaliser chaque cluster par rapport à l'application qui sera exécutée sur le matériel. De nombreux clients HPC AWS activent (et annulent) des clusters au quotidien. AWS opère dans un grand nombre de régions géographiques, chacune composée de plusieurs zones de disponibilité à grande échelle comprenant un ou plusieurs centres de données. Ainsi, les clients AWS ont facilement accès à une capacité de calcul de grande taille sans limites et efficace, à l'endroit de leur choix.

Q : Quelles sont mes options pour l'exécution des applications HPC sur AWS ?

Nombre de solutions HPC open source et commerciales prennent en charge AWS. De nombreux utilisateurs HPC choisissent de commencer avec AWS ParallelCluster, personnalisant ainsi le logiciel pour qu'il réponde à leurs besoins uniques. D'autres utilisateurs HPC préféreront déployer les instances de calcul manuellement ou en utilisant leurs propres scripts qui appellent les API EC2 grâce à l'interface de ligne de commande AWS. Enfin, certains utilisateurs favoriseront une approche avec une offre SaaS entièrement gérée. Toutes ces options sont valables et utilisées par les clients AWS. 

Q : Qu'est-ce qu'AWS ParallelCluster ?

AWS ParallelCluster est un outil qui permet de créer et lancer un modèle AWS CloudFormation. Il s'agit d'une application Python qui appelle des services AWS, notamment Amazon EC2, Amazon EBS et Amazon S3. Il utilise également Amazon SQS, Amazon DynamoDB, Amazon CloudWatch et AWS CloudFormation pour surveiller et tenir à jour le cluster. Pour plus d'informations, consultez la documentation AWS ParallelCluster

Q : Quels sont les avantages de l'utilisation d'AWS ParallelCluster pour l'exécution de mon application HPC ?

AWS ParallelCluster offre un accès rapide à un environnement de clusters avec de nombreux outils de développement de logiciel, un disque partagé, une sélection de capacité de logiciels de planification, d'instances et de surveillance de l'exécution. Le logiciel de files d'attente AWS ParallelCluster est lancé par plusieurs utilisateurs. De plus, les environnements lancés par AWS ParallelCluster sont complètement configurés pour exécuter des applications MPI en utilisant les fonctionnalités de mise en réseau améliorées d'AWS.

Q : Quel est le coût du logiciel AWS ParallelCluster ?

CfnCluster est un outil open source gratuit conçu par AWS.

Q : Quel est le coût des ressources AWS dans mon cluster HPC ?

Une fois déployée, l'infrastructure AWS de base est exposée à des coûts pour l'instance maîtresse, les nœuds de calcul, les volumes EBS et le stockage Amazon S3 utilisé. Pour en savoir plus, consultez la section Services utilisés et coûts.

Q : Qu'en est-il si mon application exige des configurations d'infrastructure différentes ? Puis-je facilement utiliser AWS ParallelCluster pour expérimenter ?

Oui. AWS ParallelCluster convient parfaitement pour l'expérimentation, car vos clusters peuvent facilement être reconfigurés en fonction de vos besoins et de leur évolution. De plus, votre fichier de configuration pcluster peut être placé sous le contrôle de version pour documenter le paramétrage utilisé pour chaque expérimentation. Lorsque vous cherchez la meilleure performance ou les coûts les plus bas, AWS ParallelCluster facilite les tests de différents aspects de la configuration des clusters tels que le type d'instance, le système d'exploitation et les configurations de stockage.