- Analytique›
- Amazon SageMaker›
- Traitement des données
Amazon SageMaker Data Processing
Analysez, préparez et intégrez les données pour l’analytique et l’IA à toute échelle
Pourquoi choisir SageMaker Data Processing ?
Préparez, intégrez et orchestrez vos données grâce aux fonctionnalités de traitement des données d'Amazon Athena, Amazon EMR, AWS Glue et Amazon Managed Workflows for Apache Airflow (Amazon MWAA). Traitez et intégrez vos données, où qu’elles se trouvent, grâce à une connectivité rapide et facile à des centaines de sources de données.
Utilisez des cadres de traitement de données open source comme Apache Spark, Trino et Apache Flink. Analysez les données à mise à l’échelle avec Trino, sans gérer l’infrastructure, et créez facilement des analytiques en temps réel avec Apache Flink et Apache Spark.
Assurez-vous que vos données sont exactes et sécurisées en automatisant la qualité des données, l'identification des données sensibles, le suivi du lignage et en appliquant des contrôles d'accès précis.
Avantages
Amazon SageMaker Data Processing fournit un accès complet aux infrastructures de traitement des données et des flux, aux moteurs de requêtes SQL distribués open source et aux outils les plus populaires tels que les blocs-notes, les éditeurs de requêtes et les processus d’extraction, de transformation et de chargement (ETL) visuels.
Vous pouvez accéder aux frameworks les plus populaires tels qu’Apache Spark pour préparer et intégrer vos données à n’importe quelle échelle. Répondez aux besoins commerciaux en temps réel grâce au traitement des flux avec Apache Flink et Apache Spark Streaming et analysez vos données à l’aide des principaux cadres SQL open source tels que Trino. Simplifiez l’orchestration des flux de travail sans avoir à gérer l’infrastructure grâce à l’intégration native à l’aide d’Amazon MWAA.
SageMaker Data Processing permet d'accéder aux données depuis le lakehouse d'Amazon SageMaker, ce qui vous permet de traiter et d'intégrer vos données à l'aide d'une copie unique pour tous vos cas d'utilisation, notamment les analyses, les requêtes ad hoc, l'apprentissage automatique (ML) et l'IA générative.
L'architecture Lakehouse ouverte Amazon SageMaker unifie les données entre les lacs de données Amazon Simple Storage Service (Amazon S3) et les entrepôts de données Amazon Redshift, fournissant ainsi un accès unifié à vos données. Vous pouvez découvrir et analyser des données unifiées dans le lakehouse grâce à des centaines de connecteurs, à des intégrations zéro ETL et à des sources de données fédérées, qui vous donneront une image complète de votre activité. SageMaker fonctionne immédiatement avec votre architecture de données existante, sans être limité par des choix de formats de stockage ou de moteurs de requêtes spécifiques.
Gagnez en efficacité grâce à des performances de requêtes rapides sur les tables Apache Iceberg. Obtenez des informations jusqu’à 2 fois plus rapidement que les systèmes open source traditionnels grâce à des versions hautement performantes et compatibles avec les API open source d’Apache Spark, Apache Airflow, Apache Flink, Trino, etc.
SageMaker Data Processing vous permet de vous concentrer sur la transformation et l’analyse de vos données sans gérer la capacité de calcul ni les applications open source, ce qui vous permet de gagner du temps et de réduire les coûts. Vous pouvez allouer automatiquement votre capacité avec Amazon EMR sur Amazon Elastic Compute Cloud (Amazon EC2) ou Amazon EMR sur Amazon Elastic Kubernetes Service (Amazon EKS). Les règles de mise à l’échelle gèrent les modifications apportées à votre demande de calcul afin d’optimiser les performances et les temps d’exécution.
Gagnez en confiance et en transparence grâce à des rapports automatisés sur la qualité des données, à la détection des données sensibles et au suivi du lignage des données et des modèles d’IA grâce à l’intégration à Amazon SageMaker Catalog. Renforcez la confiance dans la qualité de vos données grâce à des mesures automatiques, à une surveillance et à des recommandations concernant les règles de qualité des données.
Traitez et analysez vos données en toute sécurité en respectant et en appliquant des contrôles d'accès précis définis sur les ensembles de données du Lakehouse, ce qui vous permet de définir les autorisations une seule fois et de rendre vos données accessibles aux utilisateurs autorisés de votre organisation. The Lakehouse s'intègre à AWS Glue Data Quality, réunissant l'intégration des données sans serveur, la gestion de la qualité des données et des fonctionnalités avancées de machine learning dans un environnement unifié.
Services AWS
Intégration simplifiée des données
AWS SageMaker fournit une intégration de données sans serveur, simplifiant ainsi l'exploration, la préparation et l'intégration des données provenant de sources multiples. Connectez-vous à diverses sources de données, gérez vos données dans un catalogue de données centralisé et créez, exécutez, orchestrez et surveillez visuellement des pipelines ETL et des tâches pour charger des données dans votre lakehouse. Si les tâches Apache Spark échouent, vous pouvez utiliser le dépannage génératif de l'IA pour identifier les causes premières et résoudre les problèmes rapidement. Amazon SageMaker évolue automatiquement en fonction de la demande, afin que vous puissiez vous concentrer sur l'obtention d'informations à partir de vos données sans gérer l'infrastructure.
Exécutez et mettez à l’échelle Apache Spark, Apache Hive, Trino et d’autres charges de travail
Amazon EMR facilite et rentabilise l’exécution de charges de travail de traitement de données telles qu’Apache Spark, Apache Airflow, Apache Flink, Trino, etc. Créez et exécutez des pipelines de traitement de données et mettez à l’échelle automatiquement votre système plus rapidement que les solutions sur site.
Suivre les coûts
Athena offre un moyen simplifié et flexible d’analyser vos données à n’importe quelle échelle. Athena est un service de requête interactif qui simplifie l’analyse des données dans Amazon S3 à l’aide du langage SQL normalisé. Athena fonctionne sans serveur, ce qui signifie que vous n’avez pas d’infrastructure à configurer ou à gérer, et vous pouvez choisir de payer en fonction des requêtes que vous exécutez ou des ressources de calcul nécessaires à vos requêtes. Vous pouvez utiliser Athena pour traiter des journaux, réaliser l’analytique des données et exécuter des requêtes interactives. Athena se met automatiquement à l’échelle, en exécutant les requêtes en parallèle. Les résultats sont donc rapides, même avec de grands jeux de données et des requêtes complexes.
Orchestration de flux de travail gérée, axée sur la sécurité et hautement disponible pour Apache Airflow
Amazon MWAA est un service géré pour Apache Airflow qui vous permet d'utiliser votre plate-forme Apache Airflow actuelle et familière pour orchestrer vos tâches de traitement de données. Vous bénéficiez d'une capacité de mise à l'échelle, d'une disponibilité et d'une sécurité améliorées sans la charge opérationnelle de la gestion de l'infrastructure sous-jacente. Amazon MWAA orchestre vos flux de travail à l'aide de graphes acycliques orientés (DAG) écrits en Python ou d'un studio de flux de travail visuel. Vous fournissez à Amazon MWAA un compartiment S3 dans lequel se trouvent vos DAG, vos plugins et vos exigences Python. Déployez Apache Airflow à grande échelle sans la charge opérationnelle de la gestion de l'infrastructure sous-jacente.
Cas d'utilisation
Identifiez rapidement et bénéficiez d’un accès unifié aux données sur AWS, sur site et dans d’autres clouds, puis rendez-les instantanément disponibles pour les interroger et les transformer. Utilisez la fédération de requêtes et Zero-ETL pour simplifier l'accès aux données sur les services de base de données AWS et depuis des applications tierces.
Traitez les données à l’aide de frameworks tels qu’Apache Spark, Apache Flink et Trino, ainsi que de diverses charges de travail, notamment le batch, le microbatch et le streaming.
Exécuter un traitement de données et des analyses basées sur les hypothèses à grande échelle à l'aide d'algorithmes statistiques et de modèles prédictifs afin de découvrir des modèles cachés, des corrélations, des tendances du marché et des préférences de client.