Cloud AWS
Démarrer avec Amazon Redshift

Un entrepôt de données représente un dépôt central rempli d'informations pouvant être analysées dans le but de prendre des décisions plus éclairées. Les données stockées dans l'entrepôt de données proviennent de systèmes transactionnels, de bases de données relationnelles et d'autres sources, généralement à intervalle régulier. Les analystes d'affaires, les data scientists et les dirigeants accèdent aux données via des outils de Business Intelligence (BI), des clients SQL et d'autres applications d'analyse.

Les données et les analyses sont indispensables pour les entreprises qui souhaitent rester compétitives. Les entreprises utilisent des rapports, des tableaux de bord et des outils d'analyse pour exploiter leurs données, surveiller leurs performances et soutenir la prise de décision. Ces rapports, tableaux de bord et outils d'analyse sont alimentés par les entrepôts de données, qui stockent les données efficacement pour minimiser le taux d'E/S et fournir des résultats de requêtes ultra rapidement à des centaines de milliers d'utilisateurs en même temps.

Téléchargez le livre blanc : Enterprise Data Warehousing on AWS

Un entrepôt de données se compose de trois niveaux. Le niveau inférieur de l'architecture représente le serveur de base de données, soit l'endroit où les données sont chargées et stockées. Le niveau intermédiaire comprend le moteur d'analyse utilisé pour accéder et analyser les données. Le niveau supérieur représente le client frontal qui affiche les résultats via des outils de création de rapports, d'analyse et d'exploration de données.

Un entrepôt de données organise les données dans un schéma qui décrit l'affichage et le type de données, soit un nombre entier, un champ de données ou une chaîne, par exemple. Lorsque les données sont intégrées, elles sont stockées dans différents tableaux décrits par le schéma. Les outils de recherche se servent de ce schéma afin de déterminer quels tableaux peuvent être consultés et analysés.

Les entrepôts de données permettent de :

  • Prendre de meilleures décisions
  • Consolider des données provenant de sources différentes
  • Posséder des données de qualité, cohérentes et précises
  • Conserver un historique intelligent
  • Séparer le traitement analytique des bases de données transactionnelles, en améliorant les performances des deux systèmes

 

Un entrepôt de données est conçu spécialement pour analyser des données, ce qui implique la lecture de grandes quantités de données dans le but de comprendre les relations et les tendances entre ces données. Une base de données sert à saisir et stocker les données, en enregistrant les détails liés à une transaction, par exemple.

Caractéristiques Entrepôt de données Base de données transactionnelle
Charges de travail adaptées Analyses, rapport, big data  Traitement des transactions
Source de données Les données sont collectées et normalisées à partir de nombreuses sources Les données saisies en l'état proviennent d'une source unique, comme un système transactionnel, par exemple
Saisie de données Opérations d'écriture en masse sur un programme de lots prédéterminé

Idéale pour les opérations d'écriture en continu lorsque de nouvelles données sont disponibles afin d'optimiser le débit des transactions

Normalisation des données Schémas dénormalisés, tels que le schéma en étoile ou en flocon Schémas statiques normalisés
Stockage de données Idéal, car simple d'accès et rapide en termes de recherches grâce au stockage en colonnes Idéal pour effectuer de nombreuses opérations d'écriture dans un bloc unique en colonne
Accès aux données Idéal pour minimiser le nombre d'E/S et optimiser le débit des données Très nombreuses petites opérations de lecture

Contrairement à un entrepôt de données, un lac de données représente un dépôt centralisé pour toutes les données, y compris les données structurées et non structurées. Un entrepôt de données utilise un schéma prédéfini optimisé pour effectuer des analyses. Dans un lac de données, le schéma n'est pas défini, ce qui permet d'effectuer d'autres types d'analyse, tels que l'analyse des Big Data, la recherche dans un texte, l'analyse en temps réel et l'apprentissage automatique.

Caractéristiques Entrepôt de données Lac de données
Données Données relationnelles provenant de systèmes transactionnels, de bases de données opérationnelles et d'applications métier Données non relationnelles et relationnelles provenant d'appareils IoT, de sites Web, d'appli mobiles, de réseaux sociaux et d'appli d'entreprise
Schéma Conçu avant l'implémentation de l'entrepôt de données (schéma sur écriture) Conçu au moment de l'analyse (schéma sur lecture)
Prix/Performance Résultats de recherches les plus rapides via un système de stockage plus cher Résultats de recherches de plus en plus rapides via un système de stockage peu coûteux
Qualité des données Données hautement organisées servant de véritable dictionnaire Toutes les données qui peuvent ou ne peuvent être conservées (c'est-à-dire les données brutes)
Utilisateurs Les analystes d'affaires, les data scientists et les développeurs de base de données Les data scientists, développeurs de base de données et les analystes d'affaires (utilisant les données conservées)
Analyses Rapport de production par lot, BI et visualisation Apprentissage automatique, analyse prédictive, découverte de données et profilage

Le datamart représente un entrepôt de données qui répond aux besoins d'une équipe ou d'une unité commerciale spécifique, comme la finance, le marketing ou les ventes. Il s'agit d'un entrepôt plus petit, plus ciblé, pouvant contenir des résumés de données pour servir au mieux ses utilisateurs.

Caractéristiques Entrepôt de données Data Mart
Étendue Centralisé, plusieurs domaines thématiques intégrés ensemble Décentralisé, domaine spécifique
Utilisateurs Organisation Une seule communauté ou un seul département
Source de données Plusieurs sources Une seule ou quelques sources, ou une partie des données déjà collectées dans un entrepôt de données
Taille Grand, peut mesurer de 100 de gigaoctets à 100 pétaoctets Petit, généralement jusqu'à 10 gigaoctets
Conception De haut en bas De bas en haut
Détails des données Données complètes et détaillées Peut contenir des données résumées

AWS vous permet de profiter de tous les avantages clés associés au calcul à la demande, notamment l'accès à des capacités de stockage et de calcul sans limite apparente, et la possibilité de faire évoluer votre système en parallèle avec le volume croissant de données collectées, stockées et interrogées, en payant uniquement les ressources que vous mettez en service. De plus, AWS propose une large gamme de services gérés qui s'intègrent les uns aux autres de façon transparente pour vous permettre de déployer rapidement une solution d'analyse et d'entreposage de données de bout en bout.

L'illustration suivante présente les étapes clés d'une chaîne de processus d'analyse de bout en bout et les services gérés proposés par AWS à chaque étape :

Pipeline d'analyse sur AWS

Amazon Redshift est un entrepôt de données rapide, entièrement géré et rentable qui vous offre un service de stockage des données allant jusqu'à un pétaoctet ainsi que des analyses de lac de données en exaoctets.

Amazon Redshift est jusqu'à dix fois plus rapides que les entrepôts de données traditionnels locaux. Obtenez des informations uniques en effectuant des recherches dans des pétaoctets de données grâce à Redshift et dans des exaoctets de données structurées ou dans des formats de fichiers ouverts dans Amazon S3, sans avoir besoin de déplacer ou de convertir vos données.

Redshift représente un dixième du coût des solutions traditionnelles d'entrepôt de données locales. Vous pouvez commencer doucement en prenant un abonnement de seulement 0,25 USD par heure, sans engagement, puis par voir plus gros en passant à des pétaoctets de données pour 250 USD à 333 USD par téraoctet non compressé par an. Vous pourrez étendre la possibilité d'effectuer des analyses à votre lac de données Amazon S3 pour seulement 0,05 USD par 10 gigaoctets de données numérisées. En savoir plus