Commencer le projet

7 étapes | 60 minutes

Q : Qu'est-ce qu'un entrepôt de données ?

L'analyse est omniprésente. Nous utilisons tous des rapports et des tableaux de bord pour gérer notre travail, montrer notre progrès aux parties prenantes et réaliser des analyses de temps à autre pour soutenir la prise de décision. Sous les apparences, ces rapports, tableaux de bord et outils d'informatique décisionnelle sont alimentés par les entrepôts de données, qui stockent les données efficacement pour minimiser le taux d'E/S et fournir des résultats de requêtes ultra rapidement à des centaines de milliers d'utilisateurs en même temps. Contrairement aux bases de données transactionnelles, les entrepôts de données utilisent des architectures et du stockage spécialisés pour des performances de requêtes et de chargement de données rapides. Les entrepôts de données doivent également être hautement évolutifs pour vous permettre d'ajouter des sources de données en permanence afin d'enrichir les analyses et les résultats. Enfin, les entrepôts de données doivent s'intégrer de manière homogène aux outils d'informatique décisionnelle tiers et aux clients SQL, ainsi que prendre en charge le SQL standard pour que les clients puissent utiliser les compétences qu'ils possèdent déjà.

Q : Pourquoi exécuter des entrepôts de données sur AWS ?

Amazon Redshift, notre solution d'entrepôts de données, est rapide, convivial et entièrement géré. La solution automatise la mise en service des infrastructures et les tâches administratives telles que les sauvegardes, la réplication et l'application de correctifs. Le service s'intègre de façon fluide à des outils d'informatique décisionnelle et ETL tiers. Vous pouvez ainsi obtenir votre premier rapport en seulement quelques minutes. De plus, le volume de données que vous pouvez charger et analyser est illimité. Lorsque vos données évoluent, vous n'avez pas à vous inquiéter à propos de mises à jour onéreuses du système ou de performances lentes. Amazon Redshift est rapide à tous les niveaux car le service utilise un stockage en colonnes et diverses techniques d'optimisation. Amazon Redshift est économique et vous payez uniquement en fonction de votre consommation. Résultat, vous pouvez disposer d'un nombre illimité d'utilisateurs réalisant des analyses de vos données en payant seulement 1 000 USD par téraoctet par an. 

Q : Qu'est-ce qu'Amazon Redshift ?

Amazon Redshift est un service d'entrepôt de données rapide, entièrement géré et doté d'une capacité de plusieurs pétaoctets. Elle permet d'analyser de manière simple et rentable toutes vos données grâce à vos outils d'informatique décisionnelle existants. Vous pouvez commencer par un faible volume à 0,25 USD de l'heure, sans engagement, puis l'augmenter pour atteindre plusieurs pétaoctets à un tarif de 1 000 USD par téraoctet et par an, soit dix fois moins que la majorité des solutions classiques. Les clients constatent généralement une compression trois fois supérieure, qui réduit leurs coûts à 333 USD par téraoctet non compressé et par an.

Q : En quoi les performances d'Amazon Redshift sont-elles différentes de celles de la plupart des bases de données classiques en matière d'entreposage de données et d'analyse ?

Amazon Redshift exploite différentes innovations pour aboutir à des performances jusqu'à 10 fois supérieures à celles des bases de données classiques pour l'entreposage des données et les charges de travail d'analyse :

  • Stockage en colonne des données : Au lieu de stocker les données en rangées successives, Amazon Redshift les classe sous forme de colonnes. Contrairement aux systèmes linéaires, qui conviennent parfaitement au traitement des transactions, les systèmes en colonnes sont mieux adaptés à l'entreposage et à l'analyse des données, où les interrogations impliquent souvent d'effectuer des agrégations sur de grands volumes de données. Seules les colonnes concernées par les interrogations sont traitées et les données en colonnes sont stockées de manière séquentielle sur le dispositif de stockage. Ainsi, les systèmes en colonnes nécessitent moins d'E/S, ce qui améliore considérablement les performances.
  • Fonction de compression avancée : Les magasins de données en colonnes peuvent être compressés beaucoup plus facilement que les magasins de données linéaires, car les données similaires sont stockées sur disque de manière séquentielle. Amazon Redshift utilise plusieurs techniques de compression, ce qui permet souvent d'obtenir une compression plus performante que les magasins de données traditionnels. En outre, Amazon Redshift ne nécessite pas l'utilisation d'index ou de vues matérialisées. Par conséquent, il consomme moins d'espace qu'un système de base de données relationnelle classique. Lors du chargement des données dans une table vide, Amazon Redshift crée automatiquement des échantillons et sélectionne le schéma de compression le plus approprié.
  • Traitement massivement parallèle (MPP) : Amazon Redshift répartit automatiquement la charge des données et requêtes sur tous les nœuds. Amazon Redshift simplifie l'ajout de nœuds à votre entrepôt de données et vous permet de conserver des performances d'interrogation élevées à mesure que votre entrepôt de données s'agrandit.

Q : Comment accéder à mon cluster d'entrepôts de données en cours d'exécution ?

Lorsque votre cluster d'entrepôts de données est disponible, vous pouvez récupérer son point de terminaison et une chaîne de connexion JDBC ou ODBC à partir d'AWS Management Console ou des API Redshift. Vous pouvez ensuite utiliser cette chaîne de connexion avec votre outil de base de données, langage de programmation ou outil d'informatique décisionnelle (BI) favori. Il vous faut également autoriser les demandes réseau vers votre cluster d'entrepôts de données en cours d'exécution. Pour une explication détaillée, reportez-vous à notre manuel de mise en route.

Q : Amazon Redshift est-il compatible avec mon package logiciel d'informatique décisionnelle et mes outils d'ETL favoris ?

Amazon Redshift utilise les instructions SQL standard du secteur et est accessible depuis les pilotes JDBC et ODBC standard. Vous pouvez télécharger les pilotes JDBC et ODBC personnalisés d'Amazon Redshift à partir de l'onglet Connect Client de notre console. Nous disposons d'intégrations validées auprès de vendeurs de BI et d'ETL populaires, dont la plupart proposent des essais gratuits pour vous aider à débuter dans le chargement et l'analyse de vos données. Vous pouvez également vous rendre sur AWS Marketplace afin de déployer et configurer en quelques minutes des solutions conçues pour fonctionner avec Amazon Redshift.

Q : Comment démarrer avec Amazon Redshift ?

Vous pouvez essayer Amazon Redshift gratuitement. Si vous n'avez jamais créé de cluster Amazon Redshift, vous pouvez bénéficier d'un essai gratuit de notre nœud DC1.Large pendant deux mois. Vous disposez de 750 heures gratuites par mois, ce qui est suffisant pour exécuter en continu un nœud DC1.Large avec 160 Go de stockage SSD compressé. Vous pouvez concevoir des clusters avec plusieurs nœuds pour tester des ensembles de données plus volumineux, qui consommeront vos heures gratuites plus rapidement. Une fois que l'essai gratuit de deux mois arrive à expiration ou que votre utilisation dépasse 750 heures par mois, vous pouvez fermer votre cluster, pour éviter d'avoir à payer des frais, ou continuer à l'exécuter en étant facturé selon notre tarif standard à la demande.

Commencer le projet