Plateforme de Big Data - Amazon EMR

Amazon EMR

Exécuter facilement et mettez à l’échelle Apache Spark, Hive, Presto et d'autres charges de travail big data

Démarrer avec Amazon EMR

Pourquoi Amazon EMR ?

Amazon EMR est un service de traitement de big data qui accélère les charges de travail analytiques avec une flexibilité et une évolutivité inégalées. EMR propose des environnements d'exécution optimisés pour les performances d'Apache Spark, Trino, Apache Flink et Apache Hive, ce qui permet de réduire considérablement les coûts et les temps de traitement. Le service s'intègre parfaitement à AWS, simplifiant les flux de travail des lacs de données et les architectures à l'échelle de l'entreprise. Grâce à une mise à l'échelle automatique intégrée, à une surveillance intelligente et à une infrastructure gérée, EMR vous permet de vous concentrer sur l'extraction d'informations, et non sur la gestion des clusters, en fournissant des analytiques efficaces à l'échelle du pétaoctet sans les frais opérationnels des solutions traditionnelles.

Options de déploiement flexibles

Pourquoi EMR sans serveur ?

Amazon EMR sans serveur permet aux analystes de données et aux ingénieurs d'exécuter facilement des frameworks d'analytique du big data open source tels qu'Apache Spark sans configurer, gérer et dimensionner des clusters ou des serveurs. EMR sans serveur est le moyen le plus rapide de commencer à profiter de toutes les fonctionnalités et avantages d'Amazon EMR sans avoir à faire appel à des experts pour planifier et gérer les clusters.

EMR sans serveur

Pourquoi Amazon EMR sur Amazon EC2 ?

Amazon EMR sur Amazon EC2 permet de contrôler la configuration des clusters et prend en charge les clusters de longue durée, ce qui en fait la solution idéale pour les tâches de traitement continu des données qui nécessitent des configurations matérielles spécifiques. Vous pouvez installer des applications personnalisées parallèlement à des frameworks populaires tels qu'Apache Spark et Trino, tout en proposant un large éventail de types d'instances EC2 pour optimiser à la fois les coûts et les performances. L'intégration avec d'autres services AWS et la possibilité d'utiliser des instances Spot en font une solution rentable pour les organisations qui ont besoin d'un contrôle granulaire de leurs opérations de big data.

Pourquoi Amazon EMR sur Amazon EKS ?

Amazon EMR sur Amazon Elastic Kubernetes Service (EKS) vous permet de soumettre des tâches Apache Spark à la demande sur EKS sans provisionner de clusters. Avec EMR on EKS, vous pouvez exécuter vos charges de travail analytiques sur le même cluster Amazon EKS que vos autres applications basées sur Kubernetes afin d'améliorer l'utilisation des ressources et de simplifier la gestion de l'infrastructure.

Amazon EMR sur Amazon EKS

Traiter vos données avec Amazon EMR dans la prochaine génération d'Amazon SageMaker

Amazon EMR est disponible dans la prochaine génération d'Amazon SageMaker, ce qui vous permet d'exécuter facilement Apache Spark, Trino et d'autres frameworks d'analytique open source dans un environnement de développement de données et d'IA unifié.

Fonctionnalités

Amazon EMR exécute les tâches de lecture Apache Spark et Iceberg 4,5 fois plus rapidement que les versions open source Spark et Iceberg

Amazon EMR exécute les tâches d'écriture d'Apache Spark et d'Apache Iceberg deux fois plus vite que les versions open source Spark et Iceberg

Avantages

Amazon EMR associe Apache Spark aux performances optimisées pour un traitement plus rapide et rentable à la flexibilité de choisir les types d'instances, y compris les instances Spot, et à un autoscaling entièrement géré qui adapte dynamiquement la taille du cluster, éliminant ainsi le surprovisionnement et réduisant les dépenses globales.

Amazon EMR est 5,4 fois plus rapide qu'Apache Spark open source, tout en préservant la compatibilité des API. Il permet aux clients de déployer les frameworks open source de leur choix - Apache Spark, Trino, Apache Flink ou Apache Hive. EMR prend en charge les formats de table ouverts les plus courants tels que Iceberg, Hudi et Delta afin d’obtenir le temps nécessaire à l’obtention d’informations exploitables.

EMR offre plusieurs choix en matière de déploiement, notamment EMR sans serveur pour un traitement entièrement géré et sans infrastructure, EMR sur EC2 pour un contrôle précis des clusters et EMR sur EKS pour les charges de travail big data natives de Kubernetes. Qu'il s'agisse de gérer des clusters à court terme pour des tâches à la demande ou des clusters de longue durée pour des tâches persistantes, EMR s'adapte à vos besoins opérationnels tout en optimisant les coûts grâce à une allocation flexible des ressources et à une évolutivité efficace.

Amazon EMR, la nouvelle génération d'Amazon SageMaker, vous permet d'exécuter des frameworks open source tels qu'Apache Spark, Trino et Apache Flink, ce qui vous permet de dimensionner facilement les charges de travail analytiques, le tout sans provisionner ni gérer d'infrastructure. Grâce aux fonctionnalités d'EMR dans Amazon SageMaker, vous pouvez unifier le traitement des données et le développement de modèles, permettant ainsi des flux de travail de bout en bout, de la transformation des données brutes au déploiement de l'IA dans un environnement collaboratif unique.

Transformez les mises à niveau d'Apache Spark qui durent plusieurs mois en des projets efficaces d'une semaine grâce à une automatisation intelligente. L'agent de mise à niveau Spark simplifie les migrations à l'échelle de l'entreprise en analysant et en validant automatiquement les modifications apportées aux API sur l'ensemble de votre base de code, réduisant ainsi considérablement les coûts et la complexité.

Cas d'utilisation

Exécuter un traitement de données et des analyses basées sur les hypothèses à grande échelle à l'aide d'algorithmes statistiques et de modèles prédictifs afin de découvrir des modèles cachés, des corrélations, des tendances du marché et des préférences de client.

Extraire des données de sources diverses, les traiter à grande échelle et les mettre à la disposition des applications et des utilisateurs.

Analyser les événements provenant de sources de données de streaming en temps réel pour créer des pipelines de données de streaming à exécution longue, hautement disponibles et tolérants aux pannes.

Analyser les données à l'aide de cadres ML open source tels qu'Apache Spark MLlib, TensorFlow et Apache MXNet. Se connecter à Amazon SageMaker Studio pour l'entraînement des modèles à grande échelle, l'analyse et la génération de rapports.

Démarrer avec Amazon EMR

Page des fonctionnalités

Découvrir le fonctionnement d'Amazon EMR

Explorer les fonctionnalités d’Amazon EMR

Tarification

Découvrir la tarification Amazon EMR

En savoir plus sur la tarification d'Amazon EMR

Amazon EMR

Pourquoi Amazon EMR ?

Options de déploiement flexibles

Pourquoi EMR sans serveur ?

Pourquoi Amazon EMR sur Amazon EC2 ?

Pourquoi Amazon EMR sur Amazon EKS ?

Traiter vos données avec Amazon EMR dans la prochaine génération d'Amazon SageMaker

Fonctionnalités

Amazon EMR exécute les tâches de lecture Apache Spark et Iceberg 4,5 fois plus rapidement que les versions open source Spark et Iceberg

Amazon EMR exécute les tâches d'écriture d'Apache Spark et d'Apache Iceberg deux fois plus vite que les versions open source Spark et Iceberg

Avantages

Cas d'utilisation

Démarrer avec Amazon EMR

Découvrir le fonctionnement d'Amazon EMR

Découvrir la tarification Amazon EMR

Apprendre

Ressources

Développeurs

Aide

Amazon EMR

Pourquoi Amazon EMR ?

Options de déploiement flexibles

Pourquoi EMR sans serveur ?

Pourquoi Amazon EMR sur Amazon EC2 ?

Pourquoi Amazon EMR sur Amazon EKS ?

Traiter vos données avec Amazon EMR dans la prochaine génération d'Amazon SageMaker

Fonctionnalités

Amazon EMR exécute les tâches de lecture Apache Spark et Iceberg 4,5 fois plus rapidement que les versions open source Spark et Iceberg

Amazon EMR exécute les tâches d'écriture d'Apache Spark et d'Apache Iceberg deux fois plus vite que les versions open source Spark et Iceberg

Avantages

Traitement avantageux des big data

Accélérer le délai d'obtention d'informations et optimiser les performances

Flexibilité de déploiement inégalée

Optimisez le traitement des données dans Amazon SageMaker

Accélérez les mises à niveau de Spark avec l'assistance IA

Cas d'utilisation

Effectuer des analytiques du big data

Créer des pipelines de données évolutifs

Traiter les flux de données en temps réel

Accélérer la science des données et l'adoption du ML

Démarrer avec Amazon EMR

Découvrir le fonctionnement d'Amazon EMR

Découvrir la tarification Amazon EMR

Apprendre

Ressources

Développeurs

Aide