Concepts liés aux entrepôts de données
Qu'est-ce qu'un entrepôt de données ?
Un entrepôt de données est un dépôt central contenant des informations qui peuvent analysées dans le but de prendre des décisions plus éclairées. Les données stockées dans l'entrepôt de données proviennent de systèmes transactionnels, de bases de données relationnelles et d'autres sources, et arrivent généralement à intervalle régulier. Les analystes d'affaires, les ingénieurs des données, les scientifiques des données et les dirigeants accèdent aux données via des outils de Business Intelligence (BI), des clients SQL et d'autres applications d'analyse.
Les données et leur analyse sont indispensables pour les entreprises qui souhaitent rester compétitives. Les utilisateurs des entreprises utilisent des rapports, des tableaux de bord et des outils d'analyse pour exploiter leurs données, surveiller leurs performances et soutenir la prise de décision. Ces rapports, tableaux de bord et outils d'analyse sont alimentés par les entrepôts de données, qui stockent les données efficacement pour minimiser le taux d'E/S et fournir des résultats de requêtes ultra rapidement à des centaines de milliers d'utilisateurs en même temps.
Comment un entrepôt de données est-il architecturé ?
Une architecture d'entrepôt de données est constituée de différents niveaux. Le niveau supérieur représente le client frontal qui affiche les résultats via des outils de création de rapports, d'analyse et d'exploration de données. Le niveau intermédiaire comprend le moteur d'analyse utilisé pour accéder et analyser les données. Le niveau inférieur de l'architecture représente le serveur de base de données, soit l'endroit où les données sont chargées et stockées. Les données sont stockées de deux manières différentes : 1) les données consultées fréquemment sont stockées dans des stockages très rapides (tels que des disques SSD) et, 2) les données rarement consultées sont stockées dans des stockages d'objets peu coûteux, tel Amazon S3. L'entrepôt de données s'assure automatiquement que les données consultées fréquemment sont stockées dans le stockage rapide afin que la vitesse de traitement des requêtes soit optimale.
Comment fonctionne un entrepôt de données ?
Un entrepôt de données peut contenir plusieurs bases de données. Dans chacune d'elles, les données sont organisées en tableaux et colonnes. Dans chaque colonne, vous pouvez définir une description des données, telles qu'une valeur entière, un champ de données ou une chaîne. Les tableaux sont organisés à l'intérieur de schémas, qui peuvent être considérés comme des sortes de dossier. Lorsque les données sont intégrées, elles sont stockées dans différents tableaux décrits par le schéma. Les outils de recherche se servent de ce schéma afin de déterminer quels tableaux peuvent être consultés et analysés.
Quels sont les avantages de l'utilisation d'un entrepôt de données ?
Les avantages d'un entrepôt de données sont notamment :
- La prise de décision informée
- Des données consolidées provenant de sources différentes
- L'analyse des données historiques
- La qualité, la cohérence et la précision des données
- La séparation du traitement analytique et des bases de données transactionnelles, ce qui améliore les performances des deux systèmes.
Comment les entrepôts de données, les bases de données et les lacs de données travaillent-ils ensemble ?
En règle générale, les entreprises utilisent une combinaison comprenant une base de données, un lac de données et un entrepôt de données pour stocker et analyser celles-ci. L'architecture Lake House d'Amazon Redshift facilite une telle intégration.
Compte tenu de l'augmentation du volume et de la variété des données, il est avantageux de suivre un ou deux modèles communs pour travailler avec les données sur votre base de données, votre lac de données et votre entrepôt de données :

Image (au-dessus) : déposer les données dans une base ou un lac de données, préparer les données, déplacer les données sélectionnées vers un entrepôt de données, puis exécuter le reporting.

Image (au-dessus) : déposer les données dans un entrepôt de données, analyser les données, puis partager les données avec d'autres produits d'analyse et de machine learning.
Un entrepôt de données est conçu spécialement pour analyser des données, ce qui implique la lecture de grandes quantités de données dans le but de comprendre les relations et les tendances entre ces données. Une base de données sert à saisir et stocker les données, en enregistrant les détails liés à une transaction, par exemple.
Contrairement à un entrepôt de données, un lac de données est un dépôt centralisé pour toutes les données, y compris les données structurées, semi-structurées et non structurées. Un entrepôt de données requiert que les données soient organisées dans un format tabulaire, et c'est ici qu'intervient le schéma. Le format tabulaire est nécessaire afin que SQL puisse être utilisé pour interroger les données. Cependant, toutes les applications ne réclament pas que les données soient dans un format tabulaire. Certaines applications, comme l'analyse du big data, la recherche plein texte ou le machine learning peuvent accéder aux données même si elles sont semi-structurées, ou complètement non structurées.
Comparaison entre l'entrepôt de données et le lac de données
Caractéristiques | Entrepôt de données | Lac de données |
---|---|---|
Données | Données relationnelles provenant de systèmes transactionnels, de bases de données opérationnelles et d'applications métier |
Toutes les données, structurées, semi-structurées comme non structurées |
Schéma | Souvent conçu préalablement au déploiement de l'entrepôt de données, mais pouvant être également écrit au moment de l'analyse (schéma sur écriture ou schéma sur lecture) |
Conçu au moment de l'analyse (schéma sur lecture) |
Prix/performance |
Résultats de recherches les plus rapides via un système de stockage local |
Résultats de recherches de plus en plus rapides via un système de stockage peu coûteux et découplés du calcul et du stockage |
Qualité des données |
Données hautement organisées servant de véritable référence |
Toutes les données qui peuvent ou ne peuvent être conservées (c'est-à-dire les données brutes) |
Utilisateurs | Les analystes d'affaires, les spécialistes des données et les développeurs de base de données |
Les analystes d'affaires (utilisant des données conservées), les scientifiques des données, les développeurs de base de données, les ingénieurs de données et les architectes de données |
Analyse | Rapport de production par lot, BI et visualisation |
Machine learning, analyse exploratoire, découverte de données, streaming, analyse opérationnelle, big data et profilage |
Data warehouse vs database (Comparaison entre l'entrepôt de données et la base de données)
Caractéristiques | Entrepôt de données | Base de données transactionnelle |
---|---|---|
Charges de travail adaptées |
Analyses, rapport, big data |
Traitement des transactions |
Source de données | Les données sont collectées et normalisées à partir de nombreuses sources. | Les données saisies en l'état proviennent d'une source unique, comme un système transactionnel, par exemple. |
Saisie de données |
Opérations d'écriture en masse sur un programme de lots prédéterminé |
Idéale pour les opérations d'écriture en continu lorsque de nouvelles données sont disponibles afin d'optimiser le débit des transactions. |
Normalisation des données |
Schémas dénormalisés, tels que le schéma en étoile ou en flocon |
Schémas statiques normalisés |
Stockage de données | Idéal, car simple d'accès et rapide pour l'exécution des recherches grâce au stockage en colonnes |
Idéal pour effectuer de nombreuses opérations d'écriture dans un bloc unique en colonne |
Accès aux données | Idéal pour minimiser le nombre d'E/S et optimiser le débit des données |
Très nombreuses petites opérations de lecture |
How does a data mart compare to a data warehouse? (Comparaison entre le datamart et l'entrepôt de données)
Le datamart représente un entrepôt de données qui répond aux besoins d'une équipe ou d'une unité commerciale spécifique, comme la finance, le marketing ou les ventes. Il s'agit d'un entrepôt plus petit, plus ciblé, pouvant contenir des résumés de données pour servir au mieux ses utilisateurs. Un datamart peut également être une partie d'un entrepôt de données.
Comparaison entre l'entrepôt de données et le datamart
Caractéristiques | Entrepôt de données | Datamart |
---|---|---|
Étendue | Centralisé, plusieurs domaines thématiques intégrés ensemble |
Décentralisé, domaine spécifique |
Utilisateurs | Organisation |
Une seule communauté ou un seul département |
Source de données |
Plusieurs sources |
Une seule ou quelques sources, ou une partie des données déjà collectées dans un entrepôt de données |
Taille |
Grand, peut mesurer de 100 gigaoctets à plusieurs pétaoctets |
Petit, généralement jusqu'à 10 gigaoctets |
Conception | De haut en bas |
De bas en haut |
Détails des données | Données complètes et détaillées |
Peut contenir des données résumées. |
How can a data warehouse be deployed on AWS? (Comment déployer un entrepôt de données sur AWS ?)
AWS vous permet de profiter de tous les avantages clés associés au calcul à la demande, notamment l'accès à des capacités de stockage et de calcul sans limite apparente, et la possibilité de faire évoluer votre système en parallèle avec le volume croissant de données collectées, stockées et interrogées, en payant uniquement les ressources que vous mettez en service. AWS propose une large gamme de services gérés qui s'intègrent les uns aux autres de façon transparente pour vous permettre de déployer rapidement une solution d'analyse et d'entreposage de données de bout en bout.
L'illustration suivante montre les étapes clés d'un processus d'analyse de bout en bout, également appelé pile. AWS offre une grande variété de services gérés à chaque étape.

Image (au-dessus) : AWS offre une grande variété de produits et services à chaque étape du processus d'analyse.
Amazon Redshift est notre service d'entreposage des données rapide, entièrement géré et économique. Il vous offre un entreposage de données à l'échelle du pétaoctet et une analyse des lacs de données à l'échelle de l'exaoctet réunis en un seul service, pour lequel vous ne payez que pour ce que vous utiliser.
Étapes suivantes
- Suivez ce guide détaillé et déployez un entrepôt de données Amazon Redshift »
- Faites vos premiers pas en profitant de cet essai gratuit de deux mois »