Passer au contenu principal

Qu'est-ce que l'analytique de base de données

Les données soulignent la prise de décisions au sein des entreprises, nécessitant donc une gestion, une manipulation et une analyse minutieuses. Des opérations de données inappropriées, même par les analystes de données les plus qualifiés, peuvent entraîner des hypothèses et des décisions erronées.

Un pipeline d'analyse de données mature permet aux organisations d'identifier avec précision les tendances, d'effectuer des analytiques descriptives, des analytiques prescriptives et des analyses statistiques, ainsi que d'introduire des fonctionnalités de machine learning et d'IA.

Le choix d'un système d'analytique de base de données dépend de vos données existantes, des formats de base de données actuels et des autres types d'analyse requis. Les données sont stockées dans les entreprises sous diverses formats, notamment des bases de données relationnelles, des bases de données non relationnelles et d'autres formats de fichiers. Les bases de données relationnelles et non relationnelles disposent d'un support intégré pour les analytiques de base, mais celles-ci ne suffisent pas à elles seules à obtenir des informations plus approfondies sur les fonctions et les sources de l'entreprise.

Les analystes de données ont besoin d'entrepôts de données, de lacs de données et de lakehouses pour intégrer des données provenant de sources disparates, afin de les préparer à l'exploration et à l'analytique de données interformats et interfonctionnelles.

Dans la suite du guide, nous explorons toutes ces différentes technologies dans le domaine de l'analytique de base de données.

Quels sont les principaux types de systèmes de données utilisés dans les analytiques ?

Voici un bref aperçu des différents types de systèmes disponibles pour une utilisation dans le domaine de l'analytique

Bases de données relationnelles

Les bases de données relationnelles sont des collections de données structurées organisées dans des tableaux comportant des lignes et des colonnes. Chaque tableau contient un ensemble de données connexes qui représentent des objets ou des concepts du monde réel.

Chaque ligne d'un tableau représente un enregistrement unique, tel que les coordonnées d'un client, notamment son nom, son numéro de téléphone et son adresse. Chaque tableau peut être associé à un ou plusieurs autres tableaux. Par exemple, un tableau de clients peut être associé à un tableau d'achats, ce qui permet de lier chaque achat à un client spécifique.

Tous les systèmes de gestion de bases de données relationnelles ont un schéma fixe, comme décrit ci-dessus, et prennent en charge le langage SQL (Structured Query Language) pour les requêtes de données entre les tableaux et au sein de ceux-ci.

Parmi les services de base de données relationnelle sur AWS, citons Amazon Relational Database Service et Amazon Aurora, une solution de base de données relationnelle performante et évolutive à l'échelle mondiale pour PostgreSQL, MySQL et DSQL.

Bases de données non relationnelles

Les bases de données non relationnelles ont un schéma flexible et sont également appelées bases de données NoSQL, car elles ne prennent pas en charge les requêtes via SQL. Les différents types de bases de données non relationnelles incluent : les bases de données clé-valeur, les bases de données documentaires, les bases de données à colonnes larges, les bases de données orientées graphe, les bases de données en mémoire et les bases de données de recherche.

Chaque type de base de données NoSQL est adapté à un cas d'utilisation spécifique. Par exemple, une base de données documentaire convient parfaitement à un système de gestion de contenu interne, et un magasin à colonnes larges convient parfaitement aux données de séries temporelles provenant d'une flotte IoT.

Vous trouverez ci-dessous quelques exemples de services de base de données non relationnelles sur AWS.

  • Amazon DynamoDB est une base de données NoSQL entièrement gérée et sans serveur, avec des performances à un chiffre en millisecondes, adaptée aux bases de données clé-valeur et aux magasins de documents.
  • Amazon DocumentDB (compatible avec MongoDB) est un service de base de données documentaire native JSON et entièrement gérée.
  • Amazon Keyspaces (pour Apache Cassandra) est un service évolutif, hautement disponible et géré pour les bases de données à colonnes larges compatibles avec Apache Cassandra.
  • Amazon Neptune est un service de base de données orientée graphe sans serveur à hautes performances qui fournit des analytiques, une capacité de mise à l'échelle et une disponibilité supérieures.
  • Amazon ElastiCache est un service de mise en cache en mémoire entièrement géré, compatible avec les bases de données en mémoire Valkey, Redis et Memcached.
  • Amazon MemoryDB est un service de base de données en mémoire durable et compatible avec Valkey et Redis OSS pour des performances ultrarapides.

Entrepôt de données

Un entrepôt de données est une solution d'analytique qui étend les capacités des bases de données relationnelles à grande échelle, en prenant en charge les requêtes SQL. Les entrepôts de données sont utilisés pour stocker et analyser des données relationnelles dans un grand nombre de bases de données. Une solution d'entrepôt peut transformer des données non relationnelles au cours du processus d'extraction, de transformation et de chargement (ETL), en les normalisant afin qu'elles soient prêtes pour l'analytique.

Amazon Redshift est une solution d'entrepôt de données géré qui vous aide à stocker des données et à mettre à l'échelle les charges de travail d'analytique des données sans effort.

Lac de données

Un lac de données est un référentiel centralisé qui vous permet de stocker toutes vos données structurées et non structurées à n'importe quelle échelle. La transformation des données peut avoir lieu avant ou après leur transfert vers le lac de données. Un lac de données nécessite des services supplémentaires pour l'ETL et l'analyse : l'analyse des données brutes n'est généralement pas une option.

Amazon S3 est un stockage de données objet conçu pour récupérer n'importe quelle quantité de données depuis n'importe où, pouvant servir de lac de données. S3 peut être combiné à AWS Lake Formation pour l'accès aux données, les autorisations et le partage des données stockées

Data lakehouse

Un data lakehouse est la combinaison d'un entrepôt de données et d'un lac de données. Un data lakehouse peut stocker des données structurées et non structurées, fournit une couche de format pour ajouter un schéma et une structure, et inclut un moteur de requête. Un data lakehouse est une couche nécessaire de l'analytique des données d'entreprise moderne en raison de sa capacité à exécuter des requêtes simultanément sur toutes les données.

Amazon SageMaker Lakehouse unifie les données des lacs de données Amazon S3 et des entrepôts de bases de données analytiques Amazon Redshift. Amazon Sagemaker Lakehouse offre la flexibilité nécessaire pour accéder à vos données et les interroger sur place grâce à tous les outils et moteurs compatibles avec Apache Iceberg.

Autres types

Dans le domaine de l'analytique au sein de l'entreprise, certains types de données peuvent ne pas s'intégrer parfaitement dans le modèle de base de données relationnelle ou non relationnelle, tels que les fichiers bruts et les tableaux. Cela signifie qu'ils sont stockés dans différents formats. Par exemple, les données de streaming semi-structurées peuvent être stockées dans des fichiers Apache Avro, et Amazon S3 peut être utilisé pour stocker tout type de données.

Lors de la sélection d'un système d'analytique des données, vous aurez probablement besoin de pouvoir analyser ces types de fichiers conjointement avec vos bases de données.

Comment implémenter l'analytique de bases de données sur AWS ?

Les différentes bases de données, types de données et systèmes de stockage et de gestion de bases de données gèrent chacun l'analytique des données de manière unique. La réalisation d'analytiques sur les entrepôts de données, les lacs de données et les lakehouses nécessite des stratégies et des technologies différentes.

Assurez la gouvernance des données fondamentales dès le départ en utilisant Amazon DataZone pour cataloguer, découvrir, partager et gérer les données stockées sur AWS, sur site et auprès de sources tierces.

Amazon Managed Workflows for Apache Airflow (MWAA) peut vous aider à orchestrer le processus d'analytique des données par le biais du transfert et de la transformation des données en tant qu'outil d'automatisation des pipelines, et peut également déclencher des flux de travail d'analytique sur votre entrepôt, votre lac ou votre lakehouse.

Étape 1 : centraliser les données provenant de diverses sources vers un système plus vaste

Il existe différentes manières de transférer vos données depuis des sources actuelles vers des entrepôts de données, des lacs de données et des data lakehouses. Les données peuvent avoir besoin d'être transformées et nettoyées avant d'être stockées. D'autres considérations peuvent être prises en compte, telles que les types de données clients sensibles, les autorisations d'accès et l'accès sur place à certaines données.

Le moyen le plus simple de transférer des données en vue de la configuration d'un entrepôt, d'un lac ou d'un lakehouse AWS consiste à transférer d'abord les données vers S3.

Les données en streaming peuvent nécessiter de nouveaux services tels queAmazon Data Firehose pour la diffusion de données en continu en temps réel ou Amazon Kinesis Data Streams pour la réception et l'agrégation.

Étape 2 : transformer et normaliser les données

Pour analyser les données, certaines données devront être transformées et normalisées.

AWS Glue découvre et se connecte à plus de 100 sources de données différentes, gère vos données dans un catalogue de données centralisé et crée, exécute et surveille visuellement des pipelines de données pour charger des données dans vos lacs de données, entrepôts et lakehouses. AWS Glue DataBrew est un outil visuel de préparation des données qui permet aux analystes de données et aux data scientists de nettoyer et de normaliser plus facilement les données.

Amazon EMR propose des environnements d'exécution optimisés en termes de performances pour l'analytique du big data Apache Spark, Trino, Apache Flink et Hive, simplifiant ainsi les flux de travail et les temps de traitement des lacs de données.

Amazon SageMaker Data Wrangler est le moyen le plus rapide et le plus simple de préparer des données pour le machine learning.

Étape 3 : analyse combinée des données

Une fois que vos données sont stockées, connectées et transformées, les analystes de données exploitent votre entrepôt, votre lac ou votre lakehouse pour effectuer des analyses. Il existe plusieurs techniques d'analytique des données en fonction de votre cas d'utilisation.

L'interrogation

Amazon Redshift intègre des fonctionnalités d'interrogation pour votre entrepôt de données. Amazon Athena vous permet d'analyser et d'interroger des données non structurées, semi-structurées et structurées stockées dans les lacs de données Amazon S3. Cette solution est optimisée pour effectuer une analyse et une exploration des données en temps réel, ce qui permet aux utilisateurs d'interroger et de visualiser les données de manière interactive. Amazon SageMaker Lakehouse propose également des fonctionnalités de requête intégrées.

L'informatique décisionnelle

Amazon QuickSight fournit des analytiques des données d'informatique décisionnelle (BI) unifiées à grande échelle, couvrant des entrepôts de données, des lacs de données et des lakehouses. La visualisation des données est un service clé d'Amazon QuickSight.

Le machine learning

Amazon Redshift ML peut être utilisé pour les analytiques de machine learning sur les entrepôts Redshift. Amazon SageMaker propose des fonctionnalités de machine learning et d'autres fonctionnalités d'analytique sur les lacs de données et les lakehouses.

Sur Amazon SageMaker Lakehouse

Dans SageMaker Lakehouse, vous pouvez accéder à vos données et les interroger sur place à l'aide de tous les outils compatibles avec Apache Iceberg sur une seule copie des données. Vous pouvez tirer parti des outils et moteurs d'analytique de votre choix, tels que SQL, Apache Spark, l'informatique décisionnelle (BI) et les outils d'IA/ML, et collaborer avec les données stockées dans les lacs de données Amazon S3 et les entrepôts Amazon Redshift.

Données en streaming

Amazon Kinesis peut collecter, traiter et analyser des flux vidéo et des flux de données en temps réel de manière sécurisée et évolutive.

Comment AWS peut répondre à vos besoins en matière d'analytique de bases de données ?

L'analytique de bases de données nécessite bien plus que de simples requêtes SQL dans les environnements d'entreprise modernes. En tirant parti des entrepôts de données, des lacs de données et des lakehouses, les analystes de données peuvent exploiter la valeur des données en effectuant des analytiques des données provenant de différentes sources, types et fonctions.

La bonne architecture d'analytique de base de données permet de garantir que votre solution est évolutive, prête à fonctionner et intégrable aux services de machine learning et d'analytique prédictive désormais essentiels. Commencez en créant un compte gratuit sur AWS dès aujourd’hui.