Qu'est-ce que l'ETL ?

L'ETL (extraction, transformation et chargement) est le processus qui consiste à combiner les données provenant de plusieurs sources dans un grand référentiel central appelé entrepôt des données. L'ETL utilise un ensemble de règles opérationnelles pour nettoyer et organiser les données brutes et les préparer pour le stockage, l'analytique des données et le machine learning (ML). L'analytique des données vous permet de répondre à des besoins spécifiques en matière d'informatique décisionnelle (par exemple, prévoir le résultat de décisions commerciales, générer des rapports et des tableaux de bord, réduire l'inefficacité opérationnelle, etc.).

En quoi le processus ETL est-il important ?

Les organisations actuelles disposent à la fois des données structurées et de celles non structurées provenant de diverses sources, telles que :

Les données clients provenant des systèmes de paiement enligne et des systèmes de gestion de la relation client (CRM)
Les données d'inventaires et d'opérations provenant des systèmes des fournisseurs
Les données de capteurs provenant des appareils de l'Internet des objets (IoT)
Les données marketing provenant des réseaux sociaux et des commentaires des clients
Les données d'employés issues des systèmes de ressources humaines internes

En appliquant le processus d'extraction, transformation et chargement (ETL), un jeu de données brutes individuel peut être préparé dans un format et une structure plus consommables à des fins d'analytique, ce qui entraîne la génération d'informations plus pertinentes. Par exemple, les détaillants en ligne peuvent analyser les données provenant de points de vente pour prévoir la demande et gérer l'inventaire. Les équipes marketing peuvent intégrer les données CRM aux commentaires des clients sur les réseaux sociaux pour étudier le comportement des clients.

Quelle est l'importance de l'ETL pour l'informatique décisionnelle ?

L'ETL (extraction, transformation et chargement) améliore l'informatique décisionnelle et l'analytique en rendant le processus plus fiable, plus précis, plus détaillé et plus efficace.

Contexte historique

L'ETL offre un contexte historique approfondi aux données de l'organisation. Une entreprise peut combiner les données existantes avec celles provenant de nouvelles plateformes et applications. Vous pouvez afficher les jeux de données plus anciens parallèlement avec des informations plus récentes, ce qui offre une vue à long terme des données.

Vue des données consolidée

L'ETL offre une vue consolidée des données pour une analyse et des rapports approfondis. La gestion de multiples jeux de données nécessite temps et coordination, et peut être source d'inefficacités et de retards. L'ETL combine les bases de données et diverses formes de données en une seule vue unifiée. Le processus d'intégration des données améliore la qualité des données et réduit le temps requis pour déplacer, classer par catégories ou normaliser les données. Cela facilite l'analyse, la visualisation et la compréhension de grands jeux de données.

Analyse précise des données

L'ETL favorise une analyse plus précise des données afin de satisfaire aux exigences réglementaires et de conformité. Vous pouvez intégrer les outils ETL aux outils de qualité des données afin d'organiser, d'auditer et de nettoyer les données, garantissant leur fiabilité.

Automatisation des tâches

L'ETL automatise les tâches de traitement des données répétables à des fins d'efficacité de l'analyse. Les outils ETL automatisent le processus de migration des données, et vous pouvez les configurer afin d'intégrer les modifications de données périodiquement ou même lors de l'exécution. En conséquence, les ingénieurs de données peuvent consacrer davantage de temps à l'innovation et moins à la gestion des tâches fastidieuses, comme le déplacement et le formatage des données.

Comment a évolué le processus ETL ?

Le processus d'extraction, transformation et chargement (ETL) a vu le jour avec l'émergence des bases de données relationnelles qui stockaient les données sous forme de tables à des fins d'analyse. Les premiers outils ETL tentaient de convertir les données des formats de données transactionnels vers des formats de données relationnels, afin d'effectuer l'analyse.

ETL traditionnel

Les données brutes étaient généralement stockées dans des bases de données transactionnelles prenant en charge de nombreuses demandes en lecture et en écriture, mais se prêtaient mal à l'analytique. Vous pouvez considérer ces données comme une ligne d'un classeur. Par exemple, dans un système de e-commerce, la base de données transactionnelle stockait l'article acheté, les informations concernant le client et les détails de la commande dans une seule transaction. Au fil des années, le système en est venu à contenir une longue liste de transactions avec des entrées répétées pour le même client ayant acheté plusieurs articles au cours de la même année. Face à la duplication des données, il est devenu fastidieux d'analyser les articles les plus populaires ou les tendances d'achats de l'année en question.

Pour résoudre ce problème, les outils ETL convertissaient automatiquement ces données transactionnelles en données relationnelles grâce à des tables interconnectées. Les analystes pouvaient utiliser les requêtes pour identifier les relations entre les tables, en plus des modèles et des tendances.

ETL moderne

Au fil de l'évolution de la technologie ETL, les types de données et les sources de données ont connu une croissance exponentielle. La technologie cloud a émergé pour créer de vastes bases de données, également appelées récepteurs de données. Ces récepteurs de données peuvent recevoir les données de multiples sources et avoir des ressources matérielles sous-jacentes pouvant être mises à l'échelle avec le temps. Les outils ETL ont aussi gagné en sophistication et sont compatibles avec les récepteurs de données modernes. Ils convertissent les données des formats de données existants aux formats modernes. Voici des exemples de bases de données modernes.

Entrepôts des données

Un entrepôt des données est un référentiel central susceptible de stocker de nombreuses bases de données. Au sein de chaque base de données, vous pouvez organiser vos données en tables et colonnes qui décrivent les types des données présentes. Les logiciels d'entrepôts des données fonctionnent dans de multiples types de matériel de stockage, comme les disques SSD (Solid State Drive), les disques durs et d'autres stockage cloud, afin d'optimiser le traitement de vos données.

Lacs de données

Avec un lac de données, vous pouvez stocker vos données structurées et non structurées dans un référentiel centralisé à n'importe quelle échelle. Vous pouvez stocker les données en l'état sans avoir à les structurer au préalable selon les questions que vous pourriez vous poser à l'avenir. Les lacs de données vous permettent aussi d'exécuter différents types d'analytique sur vos données, comme les requêtes SQL, l'analytique de big data, la recherche en texte intégral, l'analytique en temps réel et le machine learning (ML), afin de mieux éclairer les décisions.

Comment fonctionne le processus ETL ?

Le processus extraction, transformation et chargement (ETL) fonctionne en déplaçant les données du système source vers le système de destination à des intervalles périodiques. Le processus ETL se déroule en trois phases :

Extraire les données pertinentes de la base de données source
Transformer les données afin qu'elles puissent être parfaitement adaptées pour l'analytique
Charger les données dans la base de données cible

Qu'est-ce que l'extraction des données ?

Dans l'extraction des données, les outils d'extraction, transformation et chargement (ETL) des données extraient ou copient les données brutes provenant de nombreuses sources et les stockent dans un emplacement de simulation. Un emplacement de simulation (ou zone de destination) est un emplacement de stockage intermédiaire pour le stockage temporaire des données extraites. Les emplacements de simulation des données sont souvent provisoires, ce qui signifie que leur contenu est effacé à la fin de l'extraction des données. Cependant, l'emplacement de simulation peut aussi conserver une archive des données à des fins de dépannage.

La fréquence à laquelle le système transfère les données de la source des données vers le stockage de données cible est fonction du mécanisme de capture des données modifiées sous-jacent. L'extraction des données se déroule généralement de l'une des trois façons suivantes.

Notification de mise à jour

Dans la notification de mise à jour, le système source vous avertit lorsqu'un enregistrement de données change. Vous pouvez ensuite exécuter le processus d'extraction de la modification en question. La plupart des bases de données et des applications web proposent des mécanismes de mise à jour pour prendre en charge cette méthode d'intégration des données.

Extraction progressive

Certaines sources de données ne sont pas en mesure de fournir des notifications de mise à jour, mais peuvent identifier et extraire les données qui ont été modifiées sur une période donnée. Dans ce cas, le système recherche les modifications à intervalles réguliers, par exemple une fois par semaine, une fois par mois ou à la fin d'une campagne. Vous avez uniquement besoin d'extraire les données ayant fait l'objet de modifications.

Extraction complète

Certains systèmes ne peuvent pas identifier les modifications de données ou fournir des notifications, auquel cas le rechargement de l'ensemble des données est l'unique option. Cette méthode d'extraction nécessite que vous gardiez une copie de la dernière extraction afin de vérifier quels enregistrements sont nouveaux. Étant donné que cette approche implique des volumes élevés de transfert de données, nous vous recommandons de l'utiliser uniquement pour les petites tables.

Qu'est-ce que la transformation des données ?

Dans la transformation des données, les outils d'extraction, transformation et chargement (ETL) transforment et consolident les données brutes dans l'emplacement de simulation afin de les préparer pour l'entrepôt des données cible. La phase de transformation des données peut impliquer les types de changements aux données suivants.

Transformation des données de base

Les transformations des données en améliorent la qualité en éliminant les erreurs, en vidant les champs des données ou en simplifiant les données. Voici des exemples de ces transformations.

Nettoyage des données

Le nettoyage des données supprime les erreurs et mappe les données source avec le format des données cibles. Par exemple, vous pouvez mapper les champs de données vides sur le numéro 0, mapper la valeur de données « Parent » sur « P » ou mapper la valeur « Enfant » sur « E ».

Déduplication des données

Dans le cadre du nettoyage des données, la déduplication identifie et supprime les enregistrements en double.

Révision du format des données

La révision de format convertit les données, telles que les jeux de caractères, les unités de mesure et les valeurs date/heure en un format cohérent. Par exemple, une entreprise de produits alimentaires peut avoir différentes bases de données de recettes avec des ingrédients mesurées en kilogrammes et en livres. ETL convertira tout en livres.

Transformation de données avancées

Les transformations avancées utilisent les règles opérationnelles pour optimiser les données en vue de faciliter l'analyse. Voici des exemples de ces transformations.

Dérivation

La dérivation applique les règles opérationnelles à vos données pour calculer les nouvelles valeurs à partir de celles existantes. Par exemple, vous pouvez convertir le revenu en profit en soustrayant les dépenses ou calculer le coût total d'un achat en multipliant le prix de chaque article par le nombre d'articles commandés.

Jointure

Dans la préparation des données, la jointure permet de relier les données identiques provenant de différentes sources. À titre d'illustration, vous pouvez trouver le coût d'achat total d'un article en ajoutant la valeur d'achat provenant de différents vendeurs et en stockant uniquement le montant total final dans le système cible.

Division

Vous pouvez diviser un attribut de colonne ou de données en de multiples colonnes dans le système cible. Par exemple, si la source de données enregistre le nom du client sous la forme « Jane John Doe », vous pouvez le diviser en prénom, deuxième prénom et nom de famille.

Résumé

Le résumé améliore la qualité des données en réduisant un grand nombre de valeurs de données en un jeu de données de plus petite taille. Par exemple, les valeurs de la facture de la commande d'un client peuvent présenter différents petits montants. Vous pouvez récapituler ces données en les additionnant sur une période donnée pour créer une métrique de valeur vie client (CLV).

Chiffrement

Vous pouvez protéger les données sensibles par mesure de conformité aux législation en matière de données ou à la confidentialité des données, en ajoutant le chiffrement avant les flux de données vers la base de données cible.

Qu'est-ce que le chargement des données ?

Dans le cadre du chargement des données, les outils de chargement, transformation et extraction déplacent les données transformées de l'emplacement de simulation à l'entrepôt des données cible. Pour la plupart des organisations qui recourent à l'ETL, le processus est automatisé, bien défini, continu et axé sur des lots. Voici deux méthodes de chargement des données.

Chargement complet

Dans le chargement complet, l'ensemble des données de la source est transformé et déplacé vers l'entrepôt des données. En général, le chargement complet a lieu la première fois que vous chargez les données à partir d'un système source vers l'entrepôt des données.

Chargement progressif

Dans le chargement progressif, l'outil ETL charge le delta (différence) entre les systèmes cible et source à intervalles réguliers. Il consigne la date de la dernière extraction, afin que seuls les enregistrements ajoutés après cette date soient chargés. Il existe deux manières d'implémenter le chargement progressif.

Chargement progressif en streaming

Si vous disposez de petits volumes de données, vous pouvez diffuser les changements continuels qui ont lieu sur les pipelines de données vers l'entrepôt des données cible. Lorsque la vitesse des données augmente pour atteindre des millions d'événements par seconde, vous pouvez utiliser le traitement de flux d'événements pour surveiller et traiter les flux de données afin de prendre des décisions plus rapides.

Chargement progressif par lots

Si vous disposez de grands volumes de données, vous pouvez recueillir de façon périodique les changements aux données dans des lots. Pendant cette période définie, aucune action ne peut avoir lieu ni sur le système source ni sur le système cible pendant que les données sont en cours de synchronisation.

Qu'est-ce que l'ELT ?

Le processus d'extraction, chargement et transformation (ETL) est une extension du processus d'extraction, transformation et chargement (ETL), qui inverse l'ordre des opérations. Vous pouvez charger les données directement dans le système cible avant de les traiter. L'emplacement de simulation intermédiaire n'est pas requis, car l'entrepôt des données cible dispose de capacités de mappage intégrées. Le processus ELT est devenu plus largement utilisé avec l'adoption de l'infrastructure cloud, qui offre aux bases de données cibles la puissance de traitement dont elles ont besoin pour les transformations.

Comparaison entre ETL et ELT

ELT fonctionne correctement pour les jeux de données non structurées de grand volume qui nécessitent des chargements fréquents. Il est aussi parfaitement adapté pour le big data, en raison de la possibilité d'effectuer la planification à des fins d'analytique après l'extraction et le stockage des données. Il élimine les nombreuses transformations relatives à l'étape d'analytique et met l'accent sur le chargement des données brutes à traitement minimal vers l'entrepôt des données.

Le processus ETL nécessite davantage de définition au début. L'analytique doit être prise en compte dès le début, afin de définir les types, structures et relations des données. Les scientifiques des données recourent principalement à l'ETL pour charger les bases de données existantes dans l'entrepôt des données, tandis que l'ELT est devenue la norme actuelle.

Qu'est-ce que la virtualisation des données ?

La virtualisation des données utilise la couche d'abstraction logicielle pour créer une vue intégrée des données sans physiquement extraire, transformer ou charger les données. Les organisations emploient cette fonctionnalité en tant que référentiel virtuel des données unifiées sans les dépenses et la complexité liées à la création et à la gestion de plateformes distinctes pour la source et la cible. Bien que vous puissiez utiliser la virtualisation parallèlement au processus ETL (extraction, transformation et chargement), celle-ci est de plus en plus considérée comme une alternative à ce dernier et aux autres méthodes d'intégration des données physiques. Par exemple, vous pouvez utiliser AWS Glue Elastic Views pour créer rapidement une table virtuelle, appelée vue matérialisée, à partir de différents magasins de données sources.

Qu'est-ce qu'AWS Glue ?

AWS Glue est un service d'intégration des données sans serveur qui facilite la découverte, la préparation, le déplacement et l'intégration des données depuis des sources multiples pour l'analyse, le machine learning et le développement des applications.

Vous pouvez découvrir et vous connecter à plus de 80 magasins de données différents.
Vous pouvez gérer vos données dans un catalogue de données centralisé.
Les ingénieurs de données, les développeurs ETL, les analystes de données et les utilisateurs professionnels peuvent utiliser AWS Glue Studio pour créer, exécuter et surveiller les pipelines ETL afin de charger les données dans les lacs de données.
AWS Glue Studio offre des interfaces visuelles ETL, Notebook et éditeur de code, afin que les utilisateurs disposent d'outils adaptés à leurs compétences.
Grâce aux sessions interactives, les ingénieurs de données peuvent explorer les données ainsi que créer et tester des tâches à l'aide de leur IDE ou notebook préféré.
AWS Glue est sans serveur et évolue automatiquement à la demande. Vous pouvez donc vous concentrer sur l'exploitation des données à l'échelle du pétaoctet sans avoir à gérer l'infrastructure.

Démarrez avec AWS Glue en créant un compte AWS aujourd'hui.

Qu'est-ce que l'ETL (extraction, transformation, chargement) ?

Qu'est-ce que l'ETL ?

En quoi le processus ETL est-il important ?