Apache HBase sur Amazon EMR

Amazon EMR prend en charge Apache HBase de manière native pour vous donner un accès en temps réel à des tables pouvant mettre à l'échelle des milliards de lignes et des millions de colonnes. Amazon EMR combine les avantages de l'Apache HBase open source, un magasin de données orienté colonnes sur des systèmes distribués, avec la durabilité, les performances, l'intégration et les fonctionnalités d'outillage d'Amazon EMR. Vous pouvez obtenir des écritures et des lectures très cohérentes, et vous pouvez interroger des résultats sur des pétaoctets de données en quelques millisecondes pour alimenter les charges de travail critiques dans les services financiers, les technologies publicitaires, les analyses Web et les applications utilisant des données de séries temporelles. Vos applications Apache HBase existantes fonctionneront sur Amazon EMR sans aucune modification de code. En savoir plus sur Apache HBase sur Amazon EMR.

Fonctionnalités et avantages

Durabilité

Amazon EMR vous permet d'utiliser Amazon S3 en tant que magasin de données pour Apache HBase à l'aide du système de fichiers EMR. L'utilisation d'Amazon S3 en tant que magasin de données dissocie votre calcul du stockage et offre plusieurs avantages par rapport au système de fichiers distribué Hadoop (HDFS) sur cluster d'Apache Hadoop. Vous pouvez réduire les coûts en dimensionnant votre cluster en fonction de vos besoins de calcul plutôt que des besoins de stockage de données HDFS, tout en bénéficiant de la disponibilité et de la durabilité d'Amazon S3 pour votre stockage de données. Vous pouvez mettre à l'échelle les nœuds de calcul sans affecter votre stockage sous-jacent, mettre fin à votre cluster lorsque votre tâche est terminée pour réduire les coûts et restaurer rapidement votre cluster lorsque vous en avez besoin. Vous pouvez également créer et configurer un cluster de réplique en lecture dans une zone de disponibilité Amazon EC2 où réside le cluster primaire, afin d'obtenir un accès en lecture seule aux mêmes données et de garantir un accès ininterrompu à vos données même si le cluster primaire devient indisponible. Amazon EMR conserve également les fichiers de données Apache HBase (HFiles) dans Amazon S3.

Performances

Apache HBase est conçu pour maintenir les performances tout en montant en puissance jusqu'à des centaines de nœuds, en prenant en charge l'accès aléatoire à des milliards de lignes et à des millions de colonnes. Le service utilise Amazon S3 (avec EMRFS) ou le système de fichiers distribués Hadoop (HDFS) comme entrepôt de données tolérant aux pannes. Amazon EMR prend en charge un large éventail de types d'instance et de volumes Amazon EBS pour vous permettre de personnaliser le matériel de votre cluster afin d'optimiser le coût et les performances.

Intégration

Vous pouvez facilement lancer un cluster Amazon EMR entièrement configuré exécutant Apache HBase et d'autres applications de l'écosystème Apache Hadoop et Apache Spark en quelques minutes. Amazon EMR remplaçant automatiquement les nœuds peu performants, vous pouvez facilement redimensionner votre cluster pour répondre à vos besoins. Vous pouvez gérer les tables et parcourir les données dans Apache HBase à l'aide de l'interface utilisateur Hue et sauvegarder et restaurer facilement des tables sur Amazon S3 à l'aide du système EMRFS et d'Hadoop MapReduce. De plus, Apache HBase sur Amazon EMR peut utiliser les ensembles de fonctionnalités d'autorisation et de chiffrement d'Amazon EMR, ainsi que l'authentification Kerberos. Cliquez ici pour en savoir plus sur les fonctionnalités d'Amazon EMR.

Outils

Amazon EMR vous permet d'utiliser Amazon S3 en tant que magasin de données pour Apache HBase à l'aide du système de fichiers EMR. Séparer le stockage et les nœuds de calcul de votre cluster en utilisant Amazon S3 en tant que magasin de données présente plusieurs avantages par rapport au système HDFS dans le cluster. Vous pouvez réaliser des économies en dimensionnant votre cluster en fonction de vos exigences de calcul au lieu du stockage de données HDFS, profiter de la disponibilité et de la durabilité du stockage S3, dimensionner les nœuds de calcul sans affecter votre stockage sous-jacent et mettre fin à votre cluster pour réaliser des économies et le restaurer rapidement. Vous pouvez également créer et configurer un cluster réplica en lecture dans une autre zone de disponibilité Amazon EC2 qui offre un accès en lecture seule aux mêmes données que le cluster principal, en assurant un accès ininterrompu à vos données même en cas d'indisponibilité du cluster principal.

Témoignages de réussite avec HBase et Amazon EMR

FINRA utilise Amazon EMR pour exécuter Apache HBase sur Amazon S3 afin d'accéder rapidement à des milliards d'enregistrements commerciaux et de réaliser des économies de plus de 60 %.

Monster utilise Apache HBase sur Amazon EMR pour stocker les données relatives au flux de clics et aux campagnes publicitaires et exécuter des requêtes SQL avec Apache Hive.