Apache HBase est un magasin de Big Data distribué et hautement scalable de l'écosystème Apache Hadoop. Il s'agit d'une base de données open source, non relationnelle et faisant l'objet d'un contrôle de version, exécutée sur Amazon S3 (avec EMRFS) ou le système de fichiers distribués Hadoop (HDFS) et conçue pour offrir un accès en temps réel aléatoire et rigoureusement cohérent à des tables contenant des milliards de lignes et des millions de colonnes. Apache Phoenix s'intègre à Apache HBase pour un accès SQL à faible latence à travers les tables Apache HBase et l'indexation secondaire pour de meilleures performances. Additionnellement, Apache HBase s'intègre étroitement à Apache Hadoop, Apache Hive et Apache Pig, afin d'associer facilement des analyses parallèles massives à un accès rapide aux données. Le modèle de données, le débit et la tolérance aux pannes d'Apache HBase sont parfaitement adaptés aux charges de travail dans le domaine des technologies publicitaires, des analyses d'audience de site Web, des services financiers, des applications utilisant des données de série chronologique, etc.
Apache HBase est pris en charge de manière native sur Amazon EMR. Vous pouvez donc rapidement et facilement créer des clusters Apache HBase gérés à partir d'AWS Management Console, de l'interface de ligne de commande AWS ou de l'API Amazon EMR. Vous pouvez également profiter d'autres fonctionnalités d'Amazon EMR. Vous pouvez notamment utiliser Amazon S3 comme entrepôt de données pour limiter les coûts, créer des clusters réplicas en lecture pour améliorer la disponibilité, choisir parmi un large éventail d'instances Amazon EC2 et de volumes Amazon EBS pour le matériel de votre cluster, réaliser des sauvegardes et des restaurations sur Amazon S3 à l'aide du système de fichiers Amazon EMR (EMRFS), remplacer automatiquement des nœuds et redimensionner facilement des commandes pour ajouter ou supprimer des instances dans votre cluster. Vous pouvez également utiliser Hue pour visualiser vos tables HBase et explorer vos données. Découvrez-en davantage sur Apache HBase et sur Apache HBase sur Amazon EMR.
Fonctionnalités et avantages
Performances à l'échelle
Apache HBase est conçu pour maintenir un niveau de performance élevé tout en procédant à une mise à l’échelle afin de s'adapter à des centaines de nœuds, en prenant en charge des milliards de lignes et des millions de colonnes. Le service utilise Amazon S3 (avec EMRFS) ou le système de fichiers distribués Hadoop (HDFS) comme magasin de données tolérant aux pannes. Amazon EMR prend en charge un large éventail de types d'instance et de volumes Amazon EBS pour vous permettre de personnaliser le matériel de votre cluster afin d'optimiser le coût et les performances. En outre, vous pouvez utiliser Apache Phoenix pour bénéficier d'un accès SQL à faible latence sur des tables HBase massives ou créer des index secondaires pour de meilleures performances.
Charges de travail d’analyse
HBase s'intégrant parfaitement aux projets dans l'écosystème Apache Hadoop, vous pouvez facilement exécuter des charges de travail d'analyses parallèles massives sur les données stockées dans les tables HBase. Vous pouvez facilement installer Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig et d'autres applications de Big Data open source sur votre cluster Amazon EMR, en association avec Apache HBase, et utiliser ces outils pour exécuter des rapports, des requêtes SQL ou d'autres charges de travail d'analyse sur vos données dans Apache HBase. Vous pouvez également utiliser ces outils pour importer/exporter en masse des données dans des tables Apache HBase, ou utiliser Apache Hive pour associer des données d'Apache HBase à des tables externes sur Amazon S3.
Intégration avec Amazon EMR
Vous pouvez facilement lancer un cluster Amazon EMR entièrement configuré exécutant Apache HBase et d'autres applications de l'écosystème Apache Hadoop et Apache Spark en quelques minutes. Amazon EMR remplaçant automatiquement les nœuds peu performants, vous pouvez facilement redimensionner votre cluster pour répondre à vos besoins. Vous pouvez gérer les tables et parcourir les données dans Apache HBase à l'aide de l'interface utilisateur Hue et sauvegarder et restaurer facilement des tables sur Amazon S3 à l'aide du système EMRFS et d'Hadoop MapReduce. De plus, Apache HBase sur Amazon EMR peut utiliser les ensembles de fonctionnalités d'autorisation et de chiffrement d'Amazon EMR, ainsi que l'authentification Kerberos. Cliquez ici pour en savoir plus sur les fonctionnalités d'Amazon EMR.
Stockage Amazon S3 pour HBase
Amazon EMR vous permet d'utiliser Amazon S3 en tant que magasin de données pour Apache HBase à l'aide du système de fichiers EMR. Séparer le stockage et les nœuds de calcul de votre cluster en utilisant Amazon S3 en tant que magasin de données présente plusieurs avantages par rapport au système HDFS dans le cluster. Vous pouvez réaliser des économies en dimensionnant votre cluster en fonction de vos exigences de calcul au lieu du stockage de données HDFS, profiter de la disponibilité et de la durabilité du stockage S3, dimensionner les nœuds de calcul sans affecter votre stockage sous-jacent et mettre fin à votre cluster pour réaliser des économies et le restaurer rapidement. Vous pouvez également créer et configurer un cluster réplica en lecture dans une autre zone de disponibilité Amazon EC2 qui offre un accès en lecture seule aux mêmes données que le cluster principal, en assurant un accès ininterrompu à vos données même en cas d'indisponibilité du cluster principal.
Témoignages de réussite avec HBase et Amazon EMR

La FINRA (Financial Industry Regulatory Authority, ou Autorité de règlementation du secteur financier) est le plus grand organisme indépendant de règlementation de titres des États-Unis. Elle est chargée de surveiller et de règlementer les pratiques de transaction financières. La FINRA utilise Amazon EMR pour exécuter Apache HBase sur Amazon S3 et disposer d'un accès aléatoire à 3 billions de dossiers (avec plusieurs milliards de dossiers ajoutés chaque jour), afin de soutenir une application interactive permettant de chercher et d'afficher des événements de marché associés. En découpant sa capacité de stockage et de calcul, la FINRA peut stocker une copie unique de ses données dans Amazon S3 et dimensionner son cluster selon la puissance de calcul nécessaire, au lieu de dimensionner son cluster pour le stockage des données dans HDFS avec une triple réplication. Cela lui permet de réaliser 60 % d'économies par an, de bénéficier d'une puissance de calcul scalable et de réduire le délai de restauration d'un cluster dans une nouvelle zone de disponibilité EC2, en passant de plusieurs jours à moins de 30 minutes.

Monster, leader mondial de la recherche d'emploi et du recrutement, utilise Apache HBase sur Amazon EMR pour stocker des données sur les parcours de navigation et les campagnes publicitaires afin de réaliser des analyses en aval. L'entreprise peut ainsi surveiller l'efficacité des différents segments de clients pendant une campagne donnée avec la granularité d'une seule impression. L'équipe d'analyse de Monster peut facilement parcourir les lignes pour comptabiliser le nombre de vues et de clics par utilisateur afin d'identifier l'activité de la campagne. De plus, l'équipe profite de l'intégration étroite d'Apache HBase à l'écosystème Apache Hadoop. Monster exécute Apache Hive sur un cluster Amazon EMR séparé pour interroger sa table HBase avec SQL, lui permettant ainsi de mener des analyses supplémentaires et d'exporter des données d'Apache HBase vers Amazon Redshift.
Billets de blog


En savoir plus sur la tarification d'Amazon EMR