Commencer le projet

7 étapes | 60 minutes

Q : Qu'est-ce que l'entreposage de données ?

L'analyse est omniprésente. Nous utilisons tous des rapports et des tableaux de bord pour gérer notre travail, montrer notre progrès aux parties prenantes et réaliser des analyses de temps à autre pour soutenir la prise de décision. Sous les apparences, ces rapports, tableaux de bord et outils d'informatique décisionnelle sont alimentés par les entrepôts de données, qui stockent les données efficacement pour minimiser le taux d'E/S et fournir des résultats de requêtes ultra rapidement à des centaines de milliers d'utilisateurs en même temps. Contrairement aux bases de données transactionnelles, les entrepôts de données utilisent des architectures et du stockage spécialisés pour des performances de requêtes et de chargement de données rapides. Les entrepôts de données doivent également être hautement évolutifs pour vous permettre d'ajouter des sources de données en permanence afin d'enrichir les analyses et les résultats. Enfin, les entrepôts de données doivent s'intégrer de manière homogène aux outils d'informatique décisionnelle tiers et aux clients SQL, ainsi que prendre en charge le SQL standard pour que les clients puissent utiliser les compétences qu'ils possèdent déjà.

Q : Pourquoi exécuter des entrepôts de données sur AWS ?

Amazon Redshift, notre solution d'entrepôts de données, est rapide, convivial et entièrement géré. La solution automatise la mise en service des infrastructures et les tâches administratives telles que les sauvegardes, la réplication et l'application de correctifs. Le service s'intègre de façon fluide à des outils d'informatique décisionnelle et ETL tiers. Vous pouvez ainsi obtenir votre premier rapport en seulement quelques minutes. De plus, le volume de données que vous pouvez charger et analyser est illimité. Lorsque vos données évoluent, vous n'avez pas à vous inquiéter à propos de mises à jour onéreuses du système ou de performances lentes. Amazon Redshift est rapide à toutes les échelles, car le service utilise un stockage en colonnes et diverses techniques d'optimisation. Amazon Redshift est économique et vous payez uniquement en fonction de votre consommation. Résultat, vous pouvez disposer d'un nombre illimité d'utilisateurs réalisant des analyses de vos données en payant seulement 1 000 USD par téraoctet par an. 

Q : Qu'est-ce qu'Amazon Redshift ?

Amazon Redshift est un service d'entrepôt de données rapide, entièrement géré et doté d'une capacité de plusieurs pétaoctets. Il permet d'analyser de manière simple et rentable toutes vos données grâce à vos outils d'informatique décisionnelle existants. Vous pouvez commencer par un faible volume à 0,25 USD de l'heure, sans engagement, puis l'augmenter pour atteindre plusieurs pétaoctets à un tarif de 1 000 USD par téraoctet et par an, soit dix fois moins que la majorité des solutions classiques. Les clients constatent généralement une compression trois fois supérieure, qui réduit leurs coûts à 333 USD par téraoctet non compressé et par an.

Q : En quoi les performances d'Amazon Redshift sont-elles différentes de celles de la plupart des bases de données classiques en matière d'entreposage de données et d'analyse ?

Amazon Redshift exploite différentes innovations pour aboutir à des performances jusqu'à 10 fois supérieures à celles des bases de données classiques pour l'entreposage des données et les charges de travail d'analyse :

  • Massivement parallèle : Amazon Redshift offre des performances de requêtes rapides sur des ensembles de données d'une taille allant de plusieurs gigaoctets à plusieurs exaoctets. Redshift utilise le stockage en colonnes, la compression de données et le mappage de zones afin de réduire la quantité d'E/S nécessaires à l'exécution des requêtes. Il utilise une architecture d'entrepôt de données en traitement massivement parallèle pour mettre en parallèle et distribuer les opérations SQL afin de tirer profit de toutes les ressources disponibles. Le matériel sous-jacent est conçu pour un traitement de données très performant, exploitant le stockage local associé pour optimiser le débit entre les CPU et les lecteurs, ainsi qu'un réseau maillé à bande passante élevée afin de maximiser le débit entre les nœuds.
  • Machine learning : Amazon Redshift utilise le machine learning pour offrir un rendement élevé, quelles que soient vos charges de travail ou votre utilisation simultanée. Redshift utilise des algorithmes sophistiqués pour prédire les durées d'exécution des requêtes entrantes, et les affecte à la file d'attente optimale pour optimiser la vitesse de traitement. Par exemple, les requêtes telles que les tableaux de bord et les rapports ayant des exigences élevées en termes de simultanéité sont acheminées vers une file d'attente rapide pour être traitées immédiatement. À mesure que la simultanéité se développe, Amazon Redshift prédit le moment où la mise en file d'attente peut commencer et déploie automatiquement des ressources transitoires avec la fonctionnalité d'adaptation de la simultanéité pour garantir des performances rapides en permanence, indépendamment de la variabilité de la demande sur le cluster.
  • Mise en cache des résultats : Amazon Redshift utilise la mise en cache de résultats pour offrir des temps de réaction inférieurs à une seconde pour les requêtes répétées. Les outils de tableau de bord, de visualisation et d'information décisionnelle qui exécutent des requêtes répétées voient leurs performances augmenter significativement. Lorsqu'une requête s'exécute, Redshift recherche dans le cache un éventuel résultat mis en cache d'une exécution précédente. Si un résultat mis en cache est trouvé et que les données n'ont pas été modifiées, ce résultat est renvoyé immédiatement au lieu d'exécuter à nouveau la requête. 

Q : Comment accéder à mon cluster d'entrepôts de données en cours d'exécution ?

Lorsque votre cluster d'entrepôts de données est disponible, vous pouvez récupérer son point de terminaison et une chaîne de connexion JDBC ou ODBC à partir d'AWS Management Console ou des API Redshift. Vous pouvez ensuite utiliser cette chaîne de connexion avec votre outil de base de données, langage de programmation ou outil d'informatique décisionnelle (BI) favori. Il vous faut également autoriser les demandes réseau vers votre cluster d'entrepôts de données en cours d'exécution. Pour une explication détaillée, reportez-vous à notre manuel de mise en route.

Q : Amazon Redshift est-il compatible avec mon package logiciel d'informatique décisionnelle et mes outils d'ETL favoris ?

Amazon Redshift utilise les instructions SQL standard du secteur et est accessible depuis les pilotes JDBC et ODBC standard. Vous pouvez télécharger les pilotes JDBC et ODBC personnalisés d'Amazon Redshift à partir de l'onglet Connecter le client de notre console. Nous disposons d'intégrations validées auprès de vendeurs de BI et d'ETL populaires, dont la plupart proposent des essais gratuits pour vous aider à débuter dans le chargement et l'analyse de vos données. Vous pouvez également vous rendre sur AWS Marketplace afin de déployer et configurer en quelques minutes des solutions conçues pour fonctionner avec Amazon Redshift.

Q : Comment démarrer avec Amazon Redshift ?

Vous pouvez essayer Amazon Redshift gratuitement. Si vous n'avez jamais créé de cluster Amazon Redshift, vous pouvez bénéficier d'un essai gratuit de notre nœud DC1.Large pendant deux mois. Vous disposez de 750 heures gratuites par mois, ce qui est suffisant pour exécuter en continu un nœud DC1.Large avec 160 Go de stockage SSD compressé. Vous pouvez concevoir des clusters avec plusieurs nœuds pour tester des ensembles de données plus volumineux, qui consommeront vos heures gratuites plus rapidement. Quand l'essai gratuit de deux mois arrive à expiration ou que votre utilisation dépasse 750 heures par mois, vous pouvez fermer votre cluster, pour éviter d'avoir à payer des frais, ou continuer à l'exécuter en étant facturé selon notre tarif standard à la demande.

Commencer le projet