Apache HBase sur Amazon EMR

Apache HBase est un magasin Big Data distribué et hautement évolutif de l'écosystème Apache Hadoop. Il s'agit d'une base de données open source, non relationnelle et faisant l'objet d'un contrôle de version, exécutée sur le système de fichiers distribués Hadoop (HDFS) et conçue pour offrir un accès en temps réel aléatoire et rigoureusement cohérent à des tables contenant des milliards de lignes et des millions de colonnes. Apache Phoenix s'intègre à Apache HBase pour un accès SQL à faible latence à travers les tables Apache HBase et l'indexation secondaire pour de meilleures performances. Additionnellement, Apache HBase s'intègre étroitement à Apache Hadoop, Apache Hive et Apache Pig, afin d'associer facilement des analyses parallèles massives à un accès rapide aux données. Le modèle de données, le débit et la tolérance aux pannes d'Apache HBase sont parfaitement adaptés aux charges de travail dans le domaine des technologies publicitaires, des analyses d'audience de site Web, des services financiers, des applications utilisant des données de série chronologique, etc.

Apache HBase est pris en charge de manière native sur Amazon EMR et vous pouvez rapidement et facilement créer des clusters Apache HBase gérés à partir d'AWS Management Console, de la CLI (interface ligne de commande) AWS ou de l'API Amazon EMR. De plus, vous pouvez profiter d'autres fonctionnalités d'Amazon EMR. Vous pouvez notamment choisir parmi un large éventail d'instances Amazon EC2 et de volumes Amazon EBS pour le matériel de votre cluster, réaliser des sauvegardes et des restaurations sur Amazon S3 à l'aide du système de fichiers Amazon EMR (EMRFS), remplacer automatiquement des nœuds et redimensionner facilement des commandes pour ajouter ou supprimer des instances dans votre cluster. Vous pouvez également utiliser Hue pour visualiser vos tables HBase et explorer vos données. En savoir plus sur Apache HBase sur Amazon EMR.

Démarrez avec Apache HBase sur Amazon EMR

Créez un compte gratuit

Avez-vous besoin d'aide ? Demandez-nous !

Fonctionnalités et avantages

Des performances élevées à n'importe quelle échelle

Apache HBase est conçu pour maintenir un niveau de performance élevé tout en procédant à un dimensionnement afin de s'adapter à des centaines de nœuds, en prenant en charge des milliards de lignes et des millions de colonnes. La solution utilise le système de fichiers distribués Hadoop (HDFS) comme datastore tolérant aux pannes qui stocke les fichiers avec un facteur de réplication de 3x dans votre cluster. Amazon EMR prend en charge un large éventail de types d'instance et de volumes Amazon EBS pour vous permettre de personnaliser le matériel de votre cluster afin d'optimiser le coût et les performances. En outre, vous pouvez utiliser Apache Phoenix pour bénéficier d'un accès SQL à faible latence sur des tables HBase massives ou créer des index secondaires pour de meilleures performances.

Exécution de charges de travail d'analyse sur les tables HBase

HBase s'intégrant parfaitement aux projets dans l'écosystème Apache Hadoop, vous pouvez facilement exécuter des charges de travail d'analyses parallèles massives sur les données stockées dans les tables HBase. Vous pouvez facilement installer Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig et d'autres applications de Big Data open source sur votre cluster Amazon EMR, en association avec Apache HBase, et utiliser ces outils pour exécuter des rapports, des requêtes SQL ou d'autres charges de travail d'analyse sur vos données dans Apache HBase. Vous pouvez également utiliser ces outils pour importer/exporter en masse des données d'Amazon S3 ou du système HDFS dans des tables Apache HBase, ou utiliser Apache Hive pour associer des données d'Apache HBase à des tables externes sur Amazon S3.

Modèle de données flexible

Apache HBase étant un magasin à larges colonnes, vous pouvez définir des colonnes arbitraires pour chaque ligne afin de filtrer les données. De plus, HBase ajoute un horodatage à chaque cellule et peut conserver les versions précédentes, ce qui vous permet de stocker et de consulter facilement la lignée d'un ensemble de données. Chaque cellule est un tableau d'octets capable de stocker plusieurs mégaoctets de données utiles, ce vous permet de stocker tout type de données dans votre table. Apache Phoenix et Apache Hive créent un accès SQL sur des tables Apache HBase.

Intégration à l'ensemble de fonctionnalités d'Amazon EMR

Vous pouvez facilement lancer un cluster Amazon EMR entièrement configuré exécutant Apache HBase et d'autres applications de l'écosystème Apache Hadoop et Apache Spark en quelques minutes. Amazon EMR remplaçant automatiquement les nœuds peu performants, vous pouvez facilement redimensionner votre cluster pour répondre à vos besoins. Vous pouvez gérer les tables et parcourir les données dans Apache HBase à l'aide de l'interface utilisateur Hue et sauvegarder et restaurer facilement des tables sur Amazon S3 à l'aide du système EMRFS et d'Hadoop MapReduce. De plus, Apache HBase sur Amazon EMR peut utiliser les ensembles de fonctionnalités d'autorisation et de chiffrement d'Amazon EMR. Cliquez ici pour en savoir plus sur les fonctionnalités d'Amazon EMR.

Témoignages de réussite avec HBase et Amazon EMR

Monster, leader mondial de la recherche d'emploi et du recrutement, utilise Apache HBase sur Amazon EMR pour stocker des données sur les parcours de navigation et les campagnes publicitaires afin de réaliser des analyses en aval. L'entreprise peut ainsi surveiller l'efficacité des différents segments de clients pendant une campagne donnée avec la granularité d'une seule impression. L'équipe d'analyse de Monster peut facilement parcourir les lignes pour comptabiliser le nombre de vues et de clics par utilisateur afin d'identifier l'activité de la campagne. De plus, l'équipe profite de l'intégration étroite d'Apache HBase à l'écosystème Apache Hadoop. Monster exécute Apache Hive sur un cluster Amazon EMR séparé pour interroger sa table HBase avec SQL, ce qui est utile pour mener des analyses supplémentaires et exporter des données d'Apache HBase vers Amazon Redshift.

Démarrez avec Apache HBase

Instructions concernant la création d'un cluster Amazon EMR avec Apache HBase

Pour en savoir plus sur HBase, consultez le site Web d'Apache Software Foundation consacré au projet HBase

Article concernant le lancement de HBase 1.2 sur Amazon EMR publié sur le blog AWS

Tutoriel : SQL à faible latence et index secondaires avec Phoenix et HBase

Tutoriel : Utilisation de HBase avec Hive pour les charges de travail NoSQL et d'analyse sur le blog AWS Big Data

Démarrez avec Apache HBase sur Amazon EMR

Fin de la prise en charge d'Internet Explorer