Apache HBase est un magasin de Big Data distribué et hautement évolutif de l'écosystème Apache Hadoop. Il s'agit d'une base de données open source, non relationnelle et faisant l'objet d'un contrôle de version, exécutée sur Amazon S3 (avec EMRFS) ou le système de fichiers distribués Hadoop (HDFS) et conçue pour offrir un accès en temps réel aléatoire et rigoureusement cohérent à des tables contenant des milliards de lignes et des millions de colonnes. Apache Phoenix s'intègre à Apache HBase pour un accès SQL à faible latence à travers les tables Apache HBase et l'indexation secondaire pour de meilleures performances. Additionnellement, Apache HBase s'intègre étroitement à Apache Hadoop, Apache Hive et Apache Pig, afin d'associer facilement des analyses parallèles massives à un accès rapide aux données. Le modèle de données, le débit et la tolérance aux pannes d'Apache HBase sont parfaitement adaptés aux charges de travail dans le domaine des technologies publicitaires, des analyses d'audience de site Web, des services financiers, des applications utilisant des données de série chronologique, etc.

Apache HBase est pris en charge de manière native sur Amazon EMR. Vous pouvez donc rapidement et facilement créer des clusters Apache HBase gérés à partir d'AWS Management Console, de l'interface de ligne de commande AWS ou de l'API Amazon EMR. Vous pouvez également profiter d'autres fonctionnalités d'Amazon EMR. Vous pouvez notamment utiliser Amazon S3 comme entrepôt de données pour limiter les coûts, créer des clusters réplicas en lecture pour améliorer la disponibilité, choisir parmi un large éventail d'instances Amazon EC2 et de volumes Amazon EBS pour le matériel de votre cluster, réaliser des sauvegardes et des restaurations sur Amazon S3 à l'aide du système de fichiers Amazon EMR (EMRFS), remplacer automatiquement des nœuds et redimensionner facilement des commandes pour ajouter ou supprimer des instances dans votre cluster. Vous pouvez également utiliser Hue pour visualiser vos tables HBase et explorer vos données. En savoir plus sur Apache HBase sur Amazon EMR.

hbase_logo_with_orca_large

Démarrez avec Apache HBase sur Amazon EMR

Créez un compte gratuit

Avez-vous besoin d'aide ? Demandez-nous !


S3_Sketch_Available

Apache HBase est conçu pour maintenir un niveau de performance élevé tout en procédant à un dimensionnement afin de s'adapter à des centaines de nœuds, en prenant en charge des milliards de lignes et des millions de colonnes. Le service utilise Amazon S3 (avec EMRFS) ou le système de fichiers distribués Hadoop (HDFS) comme magasin de données tolérant aux pannes. Amazon EMR prend en charge un large éventail de types d'instance et de volumes Amazon EBS pour vous permettre de personnaliser le matériel de votre cluster afin d'optimiser le coût et les performances. En outre, vous pouvez utiliser Apache Phoenix pour bénéficier d'un accès SQL à faible latence sur des tables HBase massives ou créer des index secondaires pour de meilleures performances.

S3_Sketch_HighPerformance

HBase s'intégrant parfaitement aux projets dans l'écosystème Apache Hadoop, vous pouvez facilement exécuter des charges de travail d'analyses parallèles massives sur les données stockées dans les tables HBase. Vous pouvez facilement installer Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig et d'autres applications de Big Data open source sur votre cluster Amazon EMR, en association avec Apache HBase, et utiliser ces outils pour exécuter des rapports, des requêtes SQL ou d'autres charges de travail d'analyse sur vos données dans Apache HBase. Vous pouvez également utiliser ces outils pour importer/exporter en masse des données dans des tables Apache HBase, ou utiliser Apache Hive pour associer des données d'Apache HBase à des tables externes sur Amazon S3.

Benefit_Compliance_Orange

Apache HBase étant un magasin à larges colonnes, vous pouvez définir des colonnes arbitraires pour chaque ligne afin de filtrer les données. De plus, HBase ajoute un horodatage à chaque cellule et peut conserver les versions précédentes, ce qui vous permet de stocker et de consulter facilement la lignée d'un ensemble de données. Chaque cellule est un tableau d'octets capable de stocker plusieurs mégaoctets de données utiles, ce vous permet de stocker tout type de données dans votre table. Apache Phoenix et Apache Hive créent un accès SQL sur des tables Apache HBase.

Benefit_Integration_Green

Vous pouvez facilement lancer un cluster Amazon EMR entièrement configuré exécutant Apache HBase et d'autres applications de l'écosystème Apache Hadoop et Apache Spark en quelques minutes. Amazon EMR remplaçant automatiquement les nœuds peu performants, vous pouvez facilement redimensionner votre cluster pour répondre à vos besoins. Vous pouvez gérer les tables et parcourir les données dans Apache HBase à l'aide de l'interface utilisateur Hue et sauvegarder et restaurer facilement des tables sur Amazon S3 à l'aide du système EMRFS et d'Hadoop MapReduce. De plus, Apache HBase sur Amazon EMR peut utiliser les ensembles de fonctionnalités d'autorisation et de chiffrement d'Amazon EMR, ainsi que l'authentification KerberosCliquez ici pour en savoir plus sur les fonctionnalités d'Amazon EMR.

Benefit_Simple_Red

Amazon EMR vous permet d'utiliser Amazon S3 en tant que magasin de données pour Apache HBase à l'aide du système de fichiers EMR. Séparer le stockage et les nœuds de calcul de votre cluster en utilisant Amazon S3 en tant que magasin de données présente plusieurs avantages par rapport au système HDFS dans le cluster. Vous pouvez réaliser des économies en dimensionnant votre cluster en fonction de vos exigences de calcul au lieu du stockage de données HDFS, profiter de la disponibilité et de la durabilité du stockage S3, dimensionner les nœuds de calcul sans affecter votre stockage sous-jacent et mettre fin à votre cluster pour réaliser des économies et le restaurer rapidement. Vous pouvez également créer et configurer un cluster réplica en lecture dans une autre zone de disponibilité Amazon EC2 qui offre un accès en lecture seule aux mêmes données que le cluster principal, en assurant un accès ininterrompu à vos données même en cas d'indisponibilité du cluster principal.


FINRA

La FINRA (Financial Industry Regulatory Authority, ou Autorité de règlementation du secteur financier) est le plus grand organisme indépendant de règlementation de titres des États-Unis. Elle est chargée de surveiller et de règlementer les pratiques de transaction financières. La FINRA utilise Amazon EMR pour exécuter Apache HBase sur Amazon S3 et disposer d'un accès aléatoire à 3 billions de dossiers (avec plusieurs milliards de dossiers ajoutés chaque jour), afin de soutenir une application interactive permettant de chercher et d'afficher des événements de marché associés. En découpant sa capacité de stockage et de calcul, la FINRA peut stocker une copie unique de ses données dans Amazon S3 et dimensionner son cluster selon la puissance de calcul nécessaire, au lieu de dimensionner son cluster pour le stockage des données dans HDFS avec une triple réplication. Cela lui permet de réaliser 60 % d'économies par an, de bénéficier d'une puissance de calcul évolutive et de réduire le délai de restauration d'un cluster dans une nouvelle zone de disponibilité EC2, en passant de plusieurs jours à moins de 30 minutes.

Monster.com

Monster, leader mondial de la recherche d'emploi et du recrutement, utilise Apache HBase sur Amazon EMR pour stocker des données sur les parcours de navigation et les campagnes publicitaires afin de réaliser des analyses en aval. L'entreprise peut ainsi surveiller l'efficacité des différents segments de clients pendant une campagne donnée avec la granularité d'une seule impression. L'équipe d'analyse de Monster peut facilement parcourir les lignes pour comptabiliser le nombre de vues et de clics par utilisateur afin d'identifier l'activité de la campagne. De plus, l'équipe profite de l'intégration étroite d'Apache HBase à l'écosystème Apache Hadoop. Monster exécute Apache Hive sur un cluster Amazon EMR séparé pour interroger sa table HBase avec SQL, ce qui est utile pour mener des analyses supplémentaires et exporter des données d'Apache HBase vers Amazon Redshift.