Essayez Amazon Redshift gratuitement

Lancer un essai gratuit
En savoir plus

Obtenez 750 heures DC2.Large gratuites par mois pendant 2 mois. Pour démarrer l'essai :

1. Créez un compte AWS et connectez-vous à la console Amazon Redshift

2. Lancez un cluster Amazon Redshift et sélectionnez le type de nœud DC2.Large

Découvrez également comment intégrer et utiliser vos données gratuitement sur notre page Essais gratuits pour les partenaires.


Q : Qu'est-ce qu'Amazon Redshift ?

Amazon Redshift est un service d'entrepôt de données rapide et entièrement géré. Il permet d'analyser de manière simple et économique toutes vos données grâce à vos outils d'informatique décisionnelle existants et à une syntaxe SQL standard. Vous pouvez ainsi exécuter des requêtes analytiques complexes sur plusieurs pétaoctets de données structurées en utilisant l'optimisation de requêtes sophistiquée, le stockage en colonnes sur des disques locaux hautes performances et l'exécution de requêtes massivement parallèle. Vous obtenez alors plus de résultats à la seconde. Avec Redshift, vous pouvez commencer par un faible volume à seulement 0,25 USD de l'heure, sans engagement, puis l'augmenter pour atteindre plusieurs pétaoctets de données à un tarif de 1 000 USD par téraoctet et par an, soit dix fois moins que la majorité des solutions traditionnelles. Amazon Redshift inclut également Amazon Redshift Spectrum, qui vous permet d'exécuter directement des requêtes SQL sur plusieurs exaoctets de données non structurées dans Amazon S3. Aucun chargement ni aucune transformation ne sont nécessaires, et vous pouvez utiliser des formats de données ouverts, notamment Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile et TSV. Redshift Spectrum dimensionne automatiquement la capacité de calcul de la requête selon les données extraites, si bien que les requêtes adressées à Amazon S3 s'exécutent rapidement, quelle que soit la taille de l'ensemble de données.

La gestion des entrepôts de données classiques nécessite beaucoup de temps et de ressources, en particulier pour les ensembles de données volumineux. En outre, le coût financier associé à la conception, à la maintenance et au développement d'un entrepôt de données auto-géré sur site est très élevé. A mesure que votre volume de données augmente, vous devez constamment décider quelles données charger dans votre entrepôt et quelles données archiver afin de gérer les coûts, de limiter la complexité du processus d'ETL et d'assurer de bonnes performances. Non seulement Amazon Redshift permet de réduire significativement les coûts et la charge opérationnelle liés à un entrepôt de données, mais avec Redshift Spectrum, ce service facilite également l'analyse des gros volumes de données dans leur format natif, sans que vous ayez besoin de charger ces données.

Amazon Redshift fournit des capacités d'interrogation rapide sur les données structurées utilisant les plus courants des clients basés sur SQL et des outils d'informatique décisionnelle (BI) reposant sur les connexions ODBC et JDBC. Les interrogations sont réparties et mises en parallèle sur différentes ressources physiques. Vous pouvez facilement mettre à l'échelle un entrepôt de données Amazon Redshift de façon ascendante ou descendante, en quelques clics dans AWS Management Console ou via un seul appel d'API. Amazon Redshift effectue automatiquement l'application de correctifs et la sauvegarde de votre entrepôt de données, en stockant les sauvegardes pendant une période de rétention définie par l'utilisateur. Amazon Redshift utilise la réplication et les sauvegardes continues afin d'optimiser la disponibilité et la durabilité des données. De plus, ce service est capable d'une récupération automatique en cas de défaillance d'un composant ou d'un nœud. En outre, Amazon Redshift prend en charge Amazon Virtual Private Cloud (Amazon VPC), SSL, le chiffrement AES 256 et les modules de sécurité matériels (HSM) pour protéger vos données en transit et au repos.

A l'instar de tous les services AWS, il n'y a pas d'investissement initial à réaliser et vous ne payez que les ressources que vous utilisez. Avec Amazon Redshift, vous payez en fonction de votre utilisation. Vous pouvez même essayer Amazon Redshift gratuitement.

Q : Qu'est-ce qu'Amazon Redshift Spectrum ?

Amazon Redshift Spectrum est une fonctionnalité d'Amazon Redshift qui vous permet d'exécuter des requêtes sur des exaoctets de données non structurées dans Amazon S3, sans qu'aucun chargement ou ETL soit requis. Lorsque vous envoyez une requête, elle est dirigée vers le point de terminaison SQL d'Amazon Redshift, qui génère et optimise un plan de requête. Amazon Redshift détermine si les données sont stockées en local ou dans Amazon S3, génère un plan pour minimiser le volume de données d'Amazon S3 qui doivent être lues et demande à des programmes d'exécution Amazon Redshift Spectrum au sein d'un groupe de ressources partagées de lire et traiter les données provenant d'Amazon S3.

Si nécessaire, Redshift Spectrum peut déployer des milliers d'instances pour que les requêtes soient exécutées rapidement, quel que soit le volume de données. Par ailleurs, vous pouvez utiliser exactement la même syntaxe SQL pour les données d'Amazon S3 que pour vos requêtes Amazon Redshift actuelles, et vous connecter au même point de terminaison Amazon Redshift à l'aide des mêmes outils d'informatique décisionnelle. Redshift Spectrum vous permet de séparer les ressources de stockage et de calcul, et de les dimensionner indépendamment les unes des autres. Vous pouvez configurer autant de clusters Amazon Redshift que nécessaire afin de lancer des requêtes sur votre lac de données Amazon S3, profitant ainsi de la haute disponibilité et de la simultanéité. Redshift Spectrum vous permet de stocker les données où vous le souhaitez, dans n'importe quel format et prêtes à être traitées quand vous en avez besoin.

Q : Que gère Amazon Redshift en mon nom ?

Amazon Redshift gère les tâches requises pour configurer, mettre en service et dimensionner un entrepôt de données, de l'allocation des capacités d'infrastructure à l'automatisation des tâches d'administration continues, telles que l'application des sauvegardes et correctifs. Amazon Redshift surveille automatiquement vos nœuds et vos lecteurs afin de vous permettre de récupérer en cas de défaillance. Dans le cas de Redshift Spectrum, Amazon Redshift gère l'ensemble de l'infrastructure de calcul, de l'équilibrage de charge, de la planification, de la programmation et de l'exécution de vos requêtes portant sur les données stockées dans Amazon S3.

Q : En quoi les performances d'Amazon Redshift sont-elles différentes de celles de la plupart des bases de données classiques en matière d'entreposage de données et d'analyse ?

Amazon Redshift exploite différentes innovations pour aboutir à des performances jusqu'à 10 fois supérieures à celles des bases de données classiques pour l'entreposage des données et les charges de travail d'analyse :

  • Stockage en colonne des données : Au lieu de stocker les données en rangées successives, Amazon Redshift les classe sous forme de colonnes. Contrairement aux systèmes linéaires, qui conviennent parfaitement au traitement des transactions, les systèmes en colonnes sont mieux adaptés à l'entreposage et à l'analyse des données, où les interrogations impliquent souvent d'effectuer des agrégations sur de grands volumes de données. Seules les colonnes concernées par les interrogations sont traitées et les données en colonnes sont stockées de manière séquentielle sur le dispositif de stockage. Ainsi, les systèmes en colonnes nécessitent moins d'E/S, ce qui améliore considérablement les performances.
  • Fonction de compression avancée : Les magasins de données en colonnes peuvent être compressés beaucoup plus facilement que les magasins de données linéaires, car les données similaires sont stockées sur disque de manière séquentielle. Amazon Redshift utilise plusieurs techniques de compression, ce qui permet souvent d'obtenir une compression plus performante que les magasins de données traditionnels. En outre, Amazon Redshift ne nécessite pas l'utilisation d'index ou de vues matérialisées. Par conséquent, il consomme moins d'espace qu'un système de base de données relationnelle classique. Lors du chargement des données dans une table vide, Amazon Redshift crée automatiquement des échantillons et sélectionne le schéma de compression le plus approprié.
  • Traitement massivement parallèle (MPP, Massively Parallel Processing) : Amazon Redshift répartit automatiquement la charge des données et requêtes sur tous les nœuds. Amazon Redshift simplifie l'ajout de nœuds à votre entrepôt de données et vous permet de conserver des performances d'interrogation élevées à mesure que votre entrepôt de données s'agrandit.
  • Redshift Spectrum : Redshift Spectrum vous permet d'exécuter des requêtes sur des exaoctets de données dans Amazon S3. Aucun chargement ni ETL n'est nécessaire. Même si vous ne stockez aucune donnée dans Amazon Redshift, vous pouvez utiliser Redshift Spectrum pour exécuter des requêtes sur des ensembles de données de l'ordre d'un exaoctet dans Amazon S3. Lorsque vous envoyez une requête, elle est dirigée vers le point de terminaison SQL d'Amazon Redshift, qui génère un plan de requête. Amazon Redshift détermine si les données sont stockées en local ou dans Amazon S3, génère un plan pour minimiser le volume de données d'Amazon S3 qui doivent être lues, demande à des programmes d'exécution Amazon Redshift Spectrum au sein d'un groupe de ressources partagées de lire et traiter les données provenant d'Amazon S3, puis redirige les résultats vers votre cluster Amazon Redshift pour les éventuelles tâches de traitement restantes.

Q : Comment démarrer avec Amazon Redshift ?

Vous pouvez vous inscrire et faire vos premiers pas en quelques minutes, à partir de la page de présentation d'Amazon Redshift ou d'AWS Management Console. Si vous n'avez pas encore de compte AWS, vous serez invité à en créer un.

Pour utiliser Redshift Spectrum, vous devez d'abord stocker vos données dans Amazon S3. Vous pouvez ensuite définir les métadonnées correspondantes dans votre cluster Amazon Redshift ou, le cas échéant, enregistrer au niveau de votre cluster les métadonnées déjà placées dans votre Hive Metastore. Vous pouvez exécuter une commande SQL CREATE EXTERNAL SCHEMA dans votre cluster Amazon Redshift afin de définir ou d'enregistrer une base de données dans votre catalogue en tant que schéma externe d'Amazon Redshift. Ensuite, vous pouvez lancer des requêtes portant sur Amazon S3 à l'aide des mêmes commandes SQL que pour vos tables locales, ainsi que de tout outil d'informatique décisionnelle actuellement compatible avec Amazon Redshift. La définition de base de données externe que vous créez via la fonction SQL Amazon Redshift est enregistrée dans le même catalogue de données que celui utilisé par Amazon Athena. Si vous le souhaitez, vous avez donc également la possibilité de gérer la définition de base de données externes à partir du catalogue Amazon Athena. 

Rendez-vous sur notre page Mise en route pour savoir comment essayer gratuitement Amazon Redshift.

Q : Dans quelles régions AWS Amazon Redshift est-il disponible ?

Pour en savoir plus sur la disponibilité d'Amazon Redshift dans les différentes régions, consultez le tableau des régions sur la page Infrastructure mondiale AWS.

Q : Dans quelles régions AWS Amazon Spectrum est-il disponible ?

Amazon Redshift Spectrum est disponibles dans les régions AWS suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), UE (Francfort), UE (Irlande), Asie-Pacific (Séoul), Asie-Pacific (Singapour), Asie-Pacific (Sydney) et Asie-Pacific (Tokyo).

Q : Comment créer un cluster d'entrepôts de données Amazon Redshift ?

Vous pouvez facilement créer un cluster d'entrepôts de données Amazon Redshift à l'aide d'AWS Management Console ou des API Amazon Redshift. Vous pouvez commencer avec un entrepôt de données de 160 Go à un seul nœud, puis augmenter votre configuration pour atteindre jusqu'à un pétaoctet, en quelques clics dans AWS Console ou via un seul appel d'API.

La configuration à un seul nœud vous permet une mise en route rapide et à moindres frais avec Amazon Redshift. Par la suite, vous procédez à une mise à l'échelle ascendante à mesure que vos besoins augmentent. La configuration à plusieurs nœuds requiert un nœud « leader » qui gère les connexions client et réceptionne les interrogations, et deux nœuds de calcul qui stockent les données et effectuent les interrogations et les calculs. Ce nœud « leader » est automatiquement dimensionné pour vous, sans aucuns frais.

Indiquez simplement votre zone de disponibilité (AZ) préférée (facultatif), le nombre de nœuds, un nom principal et un mot de passe, des groupes de sécurité, vos préférences en matière de rétention des sauvegardes, ainsi que d'autres paramètres système. Une fois que vous avez sélectionné la configuration de votre choix, Amazon Redshift met en service les ressources requises et configure votre cluster d'entrepôts de données.

Q : Quel est le rôle d'un nœud leader ? Quel est le rôle d'un nœud de calcul ?

Le nœud « leader » réceptionne les interrogations provenant d'applications clientes, les analyse, puis met au point des plans d'exécution, c'est-à-dire une séquence d'étapes permettant de traiter ces interrogations. Le nœud « leader » coordonne ensuite l'exécution en parallèle de ces plans avec les nœuds de calcul, compile les résultats provisoires de ces nœuds, puis renvoie les résultats aux applications clientes.

Les nœuds de calcul exécutent les étapes indiquées dans les plans d'exécution et communiquent les données entre eux afin de traiter les interrogations. Les résultats intermédiaires sont renvoyés au nœud « leader » afin d'être compilés puis transmis aux applications clientes.

Q : Quelle est la capacité de stockage maximale par nœud de calcul ? Quelle est la quantité de données recommandée par nœud de calcul pour des performances optimales ?

Vous pouvez créer un cluster soit avec des types de nœuds de stockage dense (Dense Storage, DS) soit avec des types de nœuds de calcul dense (Dense Compute, DC). Les types nœuds de stockage denses vous permettent de créer de très grands entrepôts de données basés sur des disques durs, à des prix très compétitifs. Les types de nœuds de calcul denses vous permettent de créer des entrepôts de données à très hautes performances, utilisant des CPU rapides, une grande quantité de RAM et des disques SSD.

Les types de nœuds de stockage denses (DS) sont disponibles dans deux tailles : Extra Large et Eight Extra Large. Les nœuds Extra Large (XL) comportent 3 disques durs pour un total de 2 To sur bande magnétique, tandis que les nœuds Eight Extra Large (8XL) comportent 24 disques durs pour un total de 16 To sur bande magnétique. Les nœuds DS2.8XLarge comportent 36 cœurs virtuels Intel Xeon E5-2676 v3 (Haswell) et 244 Go de RAM. Les nœuds DS2.XL, quant à eux, comportent 4 cœurs virtuels Intel Xeon E5-2676 v3 (Haswell) et 31 Go de RAM. Pour en savoir plus, consultez la page des tarifs. Vous pouvez commencer avec un entrepôt de données doté d'un seul nœud Extra Large à 2 To, pour 0,85 USD de l'heure, puis passer à un ou plusieurs pétaoctets. Vous pouvez payer à l'heure ou utiliser les tarifs des instances réservées pour réduire votre facture à moins de 1 000 USD par To et par an.

Les types de nœuds de calcul denses (DC) sont disponibles dans deux tailles. Le modèle Large présente une capacité de stockage SSD de 160 Go, 2 cœurs virtuels Intel Xeon E5-2670v2 (Ivy Bridge) et 15 Gio de RAM. Le modèle Eight Extra Large est seize fois plus grand, avec 2,56 To de stockage SSD, 32 cœurs virtuels Intel Xeon E5-2670v2 et 244 Gio de RAM. Vous pouvez commencer avec un seul nœud DC2.Large pour 0,25 USD de l'heure, puis augmenter votre configuration jusqu'à 128 nœuds 8XL avec 326 To de stockage SSD, 3 200 cœurs virtuels et 24 To de RAM.

L'architecture massivement parallèle d'Amazon Redshift vous permet d'améliorer vos performances en augmentant le nombre de nœuds dans votre cluster d'entrepôts de données. Le volume optimal de données par nœud de calcul dépend des caractéristiques de votre application et de vos besoins en matière de performances d'interrogation.

Q : Combien de nœuds puis-je définir par cluster d'entrepôts de données Amazon Redshift ?

Un cluster d'entrepôts de données Amazon Redshift peut contenir 1 à 128 nœuds de calcul, selon le type de nœud utilisé. Pour en savoir plus, consultez notre documentation.

Q : Comment accéder à mon cluster d'entrepôts de données en cours d'exécution ?

Lorsque votre cluster d'entrepôts de données est disponible, vous pouvez récupérer son point de terminaison et une chaîne de connexion JDBC ou ODBC à partir d'AWS Management Console ou des API Redshift. Vous pouvez ensuite utiliser cette chaîne de connexion avec votre outil de base de données, langage de programmation ou outil d'informatique décisionnelle (BI) favori. Il vous faut également autoriser les demandes réseau vers votre cluster d'entrepôts de données en cours d'exécution. Pour une explication détaillée, reportez-vous à notre manuel de mise en route.

Q : Quand vaut-il mieux utiliser Amazon Redshift plutôt qu'Amazon RDS ?

Amazon Redshift et Amazon RDS vous permettent d'exécuter des bases de données relationnelles classiques dans le cloud tout en vous déchargeant de l'administration des bases de données. Nos clients utilisent les bases de données Amazon RDS aussi bien pour le traitement des transactions en ligne (OLTP) que pour les tâches d'analyse et de génération de rapports. Amazon Redshift tire parti de la portée et des ressources de plusieurs nœuds et fait appel à différentes techniques d'optimisation pour permettre une amélioration considérable par rapport aux bases de données classiques en matière d'analyse et de génération de rapports lorsqu'il s'agit de traiter des ensembles de données très volumineux. Amazon Redshift propose une option exceptionnelle de dimensionnement ascendant vous permettant de répondre à la complexité croissante de vos données et interrogations, ou de ne pas entraver les performances de votre charge OLTP avec les tâches d'analyse et de génération de rapports.

Q : Quand vaut-il mieux utiliser Amazon Redshift plutôt qu'Amazon EMR ?

Choisissez Amazon EMR si vous utilisez du code personnalisé pour traiter et analyser des ensembles de données extrêmement volumineux avec des infrastructures de traitement de Big Data telles qu'Apache Spark, Hadoop, Presto ou Hbase. Amazon EMR vous permet de contrôler entièrement la configuration de vos clusters et les logiciels installés sur ceux-ci.

Les entrepôts de données tels qu'Amazon Redshift sont conçus pour un tout autre type d'analyse. Les entrepôts de données visent à rassembler des données de sources très diverses, issues par exemple de systèmes d'inventaire, de gestion financière ou de vente au détail. Pour garantir un enregistrement des données exact et cohérent dans l'ensemble de l'entreprise, les entrepôts de données stockent les informations de manière très structurée. Cette structure permet d'intégrer des règles de cohérence des données directement dans les tables de la base de données.

Amazon Redshift est le service à utiliser lorsque vous devez exécuter des requêtes complexes sur des ensembles volumineux de données structurées tout en bénéficiant de performances extrêmement rapides.

Q : Redshift Spectrum peut-il remplacer Amazon EMR ?

Non. Redshift Spectrum est très efficace pour exécuter des requêtes sur des données stockées dans Amazon Redshift et S3, mais n'est pas vraiment adapté aux cas d'utilisation typiques des entreprises qui font appel aux infrastructures de traitement Amazon EMR.
Amazon EMR fait bien plus qu'exécuter des requêtes SQL. Amazon EMR est un service géré qui vous permet de traiter et d'analyser des ensembles de données extrêmement volumineux avec les dernières versions des infrastructures de traitement de Big Data les plus populaires telles que Spark, Hadoop et Presto, sur la base de clusters entièrement personnalisables. Avec Amazon EMR, vous pouvez exécuter un grand nombre de tâches de traitement de données avec montée en charge pour des applications telles que l'apprentissage automatique, l'analyse graphique, la transformation de données, la diffusion de données et quasiment toutes les opérations que vous pouvez coder. Vous pouvez aussi utiliser Redshift Spectrum en association avec EMR. Amazon Redshift Spectrum adopte la même approche qu'Amazon EMR pour le stockage des définitions des tables. Par conséquent, si vous utilisez déjà EMR pour traiter un gros volume de données, vous pouvez simultanément utiliser Redshift Spectrum pour exécuter des requêtes sur ces données sans interférer avec vos tâches Amazon EMR.

Que ce soit les services de requête, les entrepôts de données ou les infrastructures de traitement des données complexes, tous ont leur utilité, même si leurs applications sont différentes. Vous devez donc sélectionner l'outil le plus approprié pour vos tâches.

Q : Quand vaut-il mieux utiliser Amazon Athena plutôt que Redshift Spectrum ?

Amazon Athena est la solution la plus simple pour permettre à tous vos employés d'exécuter ponctuellement des requêtes sur des données stockées dans S3. Athena ne requiert aucun serveur : vous pouvez donc commencer à analyser les données immédiatement, sans avoir à configurer ni gérer d'infrastructure.

Si vous accédez fréquemment à certaines données qui doivent être stockées dans un format cohérent et très structuré, nous vous conseillons d'utiliser un entrepôt de données tel qu'Amazon Redshift. Vous avez ainsi la possibilité de stocker les données structurées auxquelles vous accédez fréquemment dans Amazon Redshift, et d'utiliser Redshift Spectrum pour étendre vos requêtes Amazon Redshift à l'ensemble des données de votre lac de données Amazon S3. Ainsi, vous pouvez stocker les données où vous le souhaitez, dans n'importe quel format et prêtes à être traitées quand vous en avez besoin.

Q : Est-il possible d'utiliser Redshift Spectrum pour interroger des données traitées à l'aide d'Amazon EMR ?

Oui, Redshift Spectrum peut prendre en charge le même Apache Hive Metastore que celui utilisé par Amazon EMR pour localiser les définitions de données et de tables. Si vous utilisez Amazon EMR et avez déjà un Hive Metastore, il vous suffit de configurer votre cluster Amazon Redshift afin de l'utiliser. Vous pouvez alors commencer sans attendre à exécuter des requêtes sur ces données, en parallèle de vos tâches Amazon EMR.

Q : Pourquoi devrais-je utiliser Amazon Redshift plutôt que mon propre cluster d'entrepôts de données MPP sur Amazon EC2 ?

Amazon Redshift gère automatiquement bon nombre des tâches habituellement chronophages associées à la gestion de votre entrepôt de données, notamment :

  • Configuration : Avec Amazon Redshift, il vous suffit de créer un cluster d'entrepôts de données, de définir votre schéma, puis de charger et d'interroger vos données. Le dimensionnement, la configuration et l'application de correctifs sont automatiquement pris en charge à votre place.
  • Durabilité des données : Amazon Redshift réplique vos données au sein de votre cluster d'entrepôts de données et procède à une sauvegarde continue de vos données vers un compartiment Amazon S3, lequel est conçu pour fournir une disponibilité de 99,999999999 % (« 11 neuf »). Amazon Redshift met en miroir les données de chaque lecteur sur les autres nœuds présents dans votre cluster. En cas d'échec d'un lecteur, vos interrogations se poursuivent, avec une légère augmentation de la latence, tandis que Redshift reconstitue votre lecteur à partir des réplicas. En cas de défaillance d'un ou plusieurs nœuds, Amazon Redshift met automatiquement en service de nouveaux nœuds et commence à restaurer les données des autres lecteurs au sein du cluster ou à partir d'Amazon S3. Vos données les plus fréquemment interrogées sont restaurées en priorité, afin que les interrogations les plus souvent exécutées soient rapidement performantes.
  • Dimensionnement : Vous pouvez ajouter ou supprimer des nœuds de votre cluster d'entrepôts de données Amazon Redshift à partir d'un seul appel d'API ou en quelques clics dans AWS Management Console, afin de répondre à l'évolution de vos besoins en termes de capacités et de performances.
  • Application automatique des mises à jour et des correctifs : Amazon Redshift applique automatiquement les mises à jour et les correctifs à votre entrepôt de données afin que vous puissiez rester concentré sur votre application, et non sur son administration.
  • Requêtes pouvant porter sur des exaoctets de données : Redshift Spectrum vous permet d'exécuter des requêtes sur des exaoctets de données dans Amazon S3. Aucun chargement ni ETL n'est nécessaire. Même si vous ne stockez aucune donnée dans Amazon Redshift, vous pouvez utiliser Redshift Spectrum pour exécuter des requêtes sur des ensembles de données de l'ordre d'un exaoctet dans Amazon S3.

Haut de la page »

Q : Comment mon utilisation d'Amazon Redshift me sera-t-elle facturée ?

Vous ne payez que ce que vous utilisez et il n'y a pas de frais minimum ou d'installation. Vous êtes facturé sur la base des éléments suivants :

  • Heures d'utilisation des nœuds de calcul – Les heures d'utilisation des nœuds de calcul correspondent au nombre total d'heures pendant lesquelles vous exécutez tous vos nœuds de calcul, au cours de la période de facturation. Vous êtes facturé 1 unité par nœud et par heure. Ainsi, un cluster d'entrepôts de données à 3 nœuds exécutés en permanence pendant un mois équivaut à 2 160 heures d'instance. Les heures d'utilisation des nœuds « leader » ne font l'objet d'aucuns frais. Seuls les nœuds de calcul sont facturables.
  • Stockage de sauvegarde – Le stockage de sauvegarde correspond au stockage des instantanés manuels et automatiques de votre entrepôt de données. L'allongement de votre période de rétention des sauvegardes ou la prise d'instantanés (snapshots) supplémentaires augmente le volume du stockage de sauvegarde consommé par votre entrepôt de données. Aucuns frais supplémentaires ne vous sont facturés si votre stockage de sauvegarde est inférieur ou égal à 100 % du stockage mis en service pour votre cluster d'entrepôts de données actif. Par exemple, pour un cluster d'entrepôts de données avec un seul nœud XL actif, incluant 2 To de stockage d'instance local, nous fournissons jusqu'à 2 To-mois de stockage de sauvegarde et ce, sans frais supplémentaires. Au-delà de la taille de stockage allouée et pour les sauvegardes stockées après l'arrêt de votre cluster, des frais vous sont facturés selon les tarifs standard d'Amazon S3.
  • Transfert de données – Aucun frais n'est associé au transfert de données vers ou en provenance d'Amazon Redshift et d'Amazon S3 dans la même région d'AWS. Pour tous les transferts de données vers et à partir d'Amazon Redshift, les tarifs de transfert de données AWS standard s'appliqueront.
  • Données analysées – Avec Redshift Spectrum, seule la quantité de données Amazon S3 analysée pour exécuter votre requête vous est facturée. Redshift Spectrum ne coûte rien quand vous n'exécutez pas de requêtes. Si vous stockez les données dans un format orienté colonnes tel que Parquet ou RC, vos frais seront inférieurs, car Redshift Spectrum analysera uniquement les colonnes nécessaires pour la requête au lieu de traiter les lignes en entier. De même, vos coûts diminueront si vous compressez vos données en utilisant l'un des formats pris en charge par Redshift Spectrum. Nous appliquons les tarifs Amazon S3 standard pour le stockage de données et les tarifs d'instance Amazon Redshift pour le cluster utilisé.

Pour en savoir plus sur les tarifs d'Amazon Redshift, consultez la page de tarification d'Amazon Redshift.

Q : Quand commence et s'arrête la facturation de mes clusters d'entrepôts de données Amazon Redshift ?

La facturation débute dès que le cluster d'entrepôts de données est disponible. La facturation continue jusqu'à ce que le cluster d'entrepôts de données soit résilié, c'est-à-dire lors de sa suppression ou dans le cas d'une instance défaillante.

Q : Qu'est-ce qui définit les heures d'instance Amazon Redshift facturables ?

Des heures d'utilisation des nœuds vous sont facturées pour chaque heure durant laquelle votre cluster d'entrepôts de données s'exécute à l'état « disponible ». Si vous ne souhaitez plus payer de frais pour votre cluster d'entrepôts de données, vous devez mettre fin à votre cluster afin qu'aucune heure supplémentaire d'utilisation de nœud ne vous soit facturée. Les heures partielles d'utilisation de nœud sont facturées comme des heures entières.

Q : vos prix sont-ils toutes taxes comprises ?

Sauf indication contraire, nos prix n'incluent pas les taxes et redevances applicables, y compris la TVA et les taxes sur les ventes applicables. Pour les clients dont l'adresse de facturation est située au Japon, l'utilisation de services AWS est soumise à la taxe sur la consommation applicable dans ce pays. En savoir plus.

Haut de la page »


Q : Comment puis-je charger des données dans mon entrepôt Amazon Redshift ?

Vous pouvez charger les données dans Amazon Redshift à partir de diverses sources de données, notamment Amazon S3, Amazon DynamoDB, Amazon EMRAWS Data Pipeline et/ou tout hôte compatible SSH, sur Amazon EC2 ou sur site. Amazon Redshift tente de charger vos données en parallèle dans chaque nœud de calcul afin d'optimiser le taux d'absorption des données dans votre cluster d'entrepôts de données. Pour en savoir plus sur le chargement de données dans Amazon Redshift, consultez notre manuel de mise en route.

Q : Est-il possible de charger des données à l'aide d'instructions SQL INSERT ?

Oui, les clients peuvent se connecter à Amazon Redshift à partir d'ODBC ou de JDBC, puis lancer des commandes SQL « Insert » afin d'insérer les données. Notez, toutefois, que cette méthode est plus lente que d'utiliser les services S3 ou DynamoDB. En effet, ces services chargent les données en parallèle sur chaque nœud de calcul, tandis que les instructions SQL Insert effectuent le chargement à partir d'un seul et même nœud « leader ».

Q : Comment puis-je charger des données dans Amazon Redshift à partir de mes sources de données Amazon RDS, Amazon EMR, Amazon DynamoDB et Amazon EC2 existantes ?

Vous pouvez utiliser notre commande COPY pour charger des données en parallèle directement dans Amazon Redshift depuis Amazon EMR, Amazon DynamoDB ou tout hôte compatible SSH. Redshift Spectrum vous permet également de charger des données dans votre cluster depuis Amazon S3 via une simple commande INSERT INTO. Vous avez ainsi la possibilité de charger dans votre cluster des données correspondant à différents formats, notamment Parquet et RC. Notez cependant que cette approche entraîne une augmentation des frais Redshift Spectrum pour les données analysées depuis Amazon S3.

Par ailleurs, de nombreuses sociétés d'ETL ont certifié qu'Amazon Redshift pouvait être utilisé avec leurs outils, et beaucoup d'entre elles proposent des essais gratuits pour vous aider à débuter dans le chargement de vos données. AWS Data Pipeline propose une solution performante, fiable et tolérante aux pannes permettant de charger des données à partir de diverses sources de données AWS. Vous pouvez utiliser AWS Data Pipeline pour spécifier la source de données et les transformations que vous souhaitez apporter à vos données, puis exécuter un script d'importation pré-écrit afin de charger vos données dans Amazon Redshift. AWS Glue est un service d'extraction, de transformation et de chargement (ETL) entièrement géré qui facilite la préparation et le chargement des données pour analyse. Vous pouvez créer et exécuter une tâche ETL en quelques clics grâce à AWS Management Console.

Q : Je dispose d'un grand volume de données à charger pour la première fois dans Amazon Redshift. Le transfert par Internet prendrait beaucoup de temps. Comment puis-je charger ces données ?

Vous pouvez utiliser AWS Import/Export afin de transférer les données vers Amazon S3 à partir de périphériques de stockage portables. Vous pouvez également utiliser AWS Direct Connect afin d'établir une connexion réseau privée entre AWS et votre réseau ou centre de données. Pour transférer vos données, vous avez le choix entre les ports de connexion à 1 Gbit/s ou 10 Gbits/s.

Haut de la page »


Q : Comment Amazon Redshift assure-t-il la sécurité de mes données ?

Amazon Redshift crypte vos données et protège à la fois vos données en transit et au repos à l'aide de techniques de cryptage standard. Pour assurer la sécurité de vos données en transit, Amazon Redshift prend en charge les connexions SSL entre votre application cliente et votre cluster d'entrepôts de données Amazon Redshift. Pour assurer la sécurité de vos données au repos, Amazon Redshift crypte chaque bloc à mesure qu'il est écrit sur le disque à l'aide du cryptage AES 256 avec accélération matérielle. Cette opération a lieu à un niveau inférieur du sous-système d'E/S, qui crypte toutes les données écrites sur le disque, y compris les résultats intermédiaires des interrogations. Les blocs sont sauvegardés « en l'état », ce qui signifie que les sauvegardes sont également cryptées. Par défaut, Amazon Redshift se charge de la gestion des clés. Néanmoins, vous avez la possibilité de gérer vos clés à l'aide de vos propres modules de sécurité matériels (HSM) ou de les gérer via AWS Key Management Service.

Redshift Spectrum prend en charge la fonctionnalité de chargement côté serveur (Server Side Encryption, SSE) d'Amazon S3 à l'aide de la clé par défaut de votre compte, gérée par le service AWS Key Management Service (KMS).

Q : Puis-je utiliser Amazon Redshift dans Amazon Virtual Private Cloud (Amazon VPC) ?

Oui, vous pouvez utiliser Amazon Redshift dans le cadre de votre configuration de VPC. Avec Amazon VPC, vous pouvez définir une topologie virtuelle de réseau qui ressemble étroitement à un réseau traditionnel que vous pourriez exploiter dans votre propre centre de données. Vous disposez ainsi d'un contrôle total sur les utilisateurs pouvant accéder à votre cluster d'entrepôts de données Amazon Redshift.

Vous pouvez utiliser Redshift Spectrum avec un cluster Amazon Redshift faisant partie de votre VPC. Notez cependant que Redshift Spectrum n'est, à ce jour, pas compatible avec le routage VPC amélioré.

Q : Puis-je accéder à mes nœuds de calcul Amazon Redshift directement ?

Non. Vos nœuds de calcul Amazon Redshift se trouvent dans un espace réseau privé et sont uniquement accessibles à partir du nœud « leader » de votre cluster d'entrepôts de données. Cela permet d'ajouter une couche de sécurité supplémentaire pour vos données.

Haut de la page »


Q : Si le lecteur associé à l'un de mes nœuds est défaillant, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

Votre cluster d'entrepôts de données Amazon Redshift reste disponible en cas de défaillance d'un lecteur. Néanmoins, il se peut que l'exécution de certaines interrogations soit moins performante. En cas de défaillance d'un lecteur, Amazon Redshift utilise de manière transparente un réplica des données de ce lecteur (réplica qui est stocké sur un autre lecteur associé à ce nœud). En outre, Amazon Redshift tente de déplacer vos données vers un lecteur en état de marche ou, si cela est impossible, remplace votre nœud. Les clusters ne comportant qu'un nœud ne prennent pas en charge la réplication des données. En cas de défaillance d'un disque, vous devrez restaurer le cluster à partir d'un instantané stocké dans S3. Nous vous recommandons donc d'utiliser au moins deux nœuds en mode production.

Q : Si un nœud échoue de manière isolée, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

Amazon Redshift détecte automatiquement le nœud en échec dans votre cluster d'entrepôts de données et le remplace. Le cluster d'entrepôts de données reste indisponible pour les interrogations et les mises à jour jusqu'à ce qu'un nœud de remplacement soit mis en service et ajouté à la base de données. Amazon Redshift rend votre nœud de remplacement immédiatement disponible et charge vos données les plus fréquemment consultées à partir d'Amazon S3 afin que vous puissiez reprendre l'interrogation des données aussi rapidement que possible. Les clusters ne comportant qu'un nœud ne prennent pas en charge la réplication des données. En cas de défaillance d'un disque, vous devrez restaurer le cluster à partir d'un instantané stocké dans S3. Nous vous recommandons donc d'utiliser au moins deux nœuds en mode production.

Q : En cas de panne au niveau de la zone de disponibilité (AZ) de mon cluster d'entrepôts de données, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

En cas d'indisponibilité de la zone AZ de votre cluster d'entrepôts de données Amazon Redshift, vous ne pouvez pas utiliser le cluster tant que l'alimentation et l'accès réseau de la zone AZ ne sont pas rétablis. Les données de votre cluster d'entrepôts de données sont préservées, de sorte que vous pouvez utiliser votre entrepôt de données Amazon Redshift dès lors que la zone de disponibilité redevient disponible. Vous avez également la possibilité de restaurer les instantanés existants dans une autre zone de disponibilité appartenant à la même région. Amazon Redshift restaure en priorité les données auxquelles vous accédez le plus fréquemment, afin que vous puissiez reprendre les interrogations dès que possible.

Q : Amazon Redshift prend-il en charge les déploiements multi-AZ ?

Actuellement, Amazon Redshift prend uniquement en charge les déploiements mono-AZ. Vous pouvez exécuter vos clusters d'entrepôts de données dans plusieurs zones de disponibilité en chargeant les données dans deux clusters d'entrepôts de données Amazon Redshift situés dans différentes zones de disponibilité (AZ) à partir du même ensemble de fichiers d'entrée Amazon S3. Avec Redshift Spectrum, vous pouvez utiliser plusieurs clusters sur différentes zones de disponibilité et accéder à vos données dans Amazon S3 sans avoir à les charger dans votre cluster. Vous pouvez également restaurer un cluster d'entrepôts de données dans une autre zone de disponibilité que celle contenant vos instantanés (snapshots) de cluster d'entrepôts de données.

Haut de la page »


Q : Comment Amazon Redshift procède-t-il pour sauvegarder mes données ?

Amazon Redshift réplique toutes vos données au sein de votre cluster d'entrepôts de données lors de leur chargement, tout en continuant à sauvegarder vos données dans S3. Amazon Redshift tente toujours de conserver au moins trois copies de vos données (l'original et le réplica sur les nœuds de calcul, ainsi qu'une sauvegarde dans Amazon S3). Redshift peut également répliquer vos instantanés (snapshots) de façon asynchrone sur S3, dans une autre région, à des fins de reprise après sinistre.

Q : Combien de temps les sauvegardes sont-elles conservées par Amazon Redshift ? Est-il possible de définir ce paramètre ?

Par défaut, Amazon Redshift conserve les sauvegardes pendant une journée. Vous pouvez modifier ce paramètre afin de prolonger la sauvegarde jusqu'à 35 jours.

Q : Comment puis-je restaurer mon cluster d'entrepôts de données Amazon Redshift à partir d'une sauvegarde ?

Au sein de votre fenêtre de rétention des sauvegardes, vous avez accès à toutes les sauvegardes automatiques. Une fois que vous avez choisi la sauvegarde à partir de laquelle procéder à la restauration, nous mettons en service un nouveau cluster d'entrepôts de données et restaurons vos données sur celui-ci.

Q : Ai-je besoin d'activer les sauvegardes pour mon cluster d'entrepôts de données ou sont-elles activées automatiquement ?

Par défaut, Amazon Redshift active la sauvegarde automatique de votre cluster d'entrepôts de données avec une période de rétention d'une journée. Le stockage de sauvegarde gratuit est limité à la taille totale du stockage sur les nœuds appartenant au cluster d'entrepôts de données. Il s'applique uniquement aux clusters d'entrepôts de données actifs. Par exemple, pour un stockage total de 8 To d'entrepôts de données, nous fournissons jusqu'à 8 To de stockage de sauvegarde sans frais supplémentaires. Si vous souhaitez prolonger la période de rétention au-delà d'une journée, utilisez AWS Management Console ou les API Amazon Redshift. Pour en savoir plus sur les instantanés automatiques, consultez le manuel Management Guide d'Amazon Redshift. Amazon Redshift sauvegarde uniquement les données qui ont été modifiées. Ainsi, la plupart des instantanés (snapshots) n'utilisent qu'une faible portion de votre stockage de sauvegarde gratuit.

Q : Comment gérer la rétention de mes sauvegardes et instantanés (snapshots) automatiques ?

Vous pouvez utiliser AWS Management Console ou l'API ModifyCluster pour gérer la période pendant laquelle vos sauvegardes automatiques sont conservées via le paramètre RetentionPeriod. Si vous souhaitez désactiver complètement les sauvegardes automatiques, vous pouvez définir la période de rétention sur 0 (bien que cette option ne soit pas recommandée).

Q : Qu'arrive-t-il à mes sauvegardes si je supprime mon cluster d'entrepôts de données ?

Lorsque vous supprimez un cluster d'entrepôts de données, vous pouvez spécifier si un instantané (snapshot) final doit être créé en vue de restaurer ultérieurement le cluster d'entrepôts. Tous les instantanés de votre cluster d'entrepôts de données que vous aurez créés manuellement seront conservés et facturés selon les tarifs standard d'Amazon S3, sauf si vous choisissez de les supprimer.

Haut de la page »


Q : Comment puis-je dimensionner mon cluster d'entrepôts de données Amazon Redshift et mettre à l'échelle ses performances ?

Si vous souhaitez augmenter les performances d'interrogation ou remédier à une surutilisation de la CPU, de la mémoire ou des E/S, vous pouvez augmenter le nombre de nœuds figurant dans votre cluster d'entrepôts de données via AWS Management Console ou l'API ModifyCluster. Les modifications que vous apportez à votre cluster d'entrepôts de données sont immédiatement appliquées. Les mesures relatives à l'utilisation des capacités de calcul et de stockage, ainsi que le trafic en lecture/écriture de votre cluster d'entrepôts de données Amazon Redshift, sont disponibles gratuitement via AWS Management Console ou les API Amazon CloudWatch. Vous pouvez également ajouter des mesures supplémentaires que vous aurez définies, via la fonctionnalité de mesures personnalisées d'Amazon CloudWatch.

Avec Redshift Spectrum, vous pouvez exécuter plusieurs clusters Amazon Redshift accédant aux mêmes données dans Amazon S3. Il est ainsi possible de faire appel à différents clusters selon les cas d'utilisation. Par exemple, vous pouvez utiliser un cluster pour la génération de rapports standard, et un autre pour les requêtes de science des données. Votre équipe marketing peut avoir ses propres clusters, bien distincts de ceux de l'équipe opérationnelle. Selon le type et le nombre de nœuds de votre cluster local, et le nombre de fichiers à traiter pour votre requête, Redshift Spectrum répartit automatiquement l'exécution de la requête entre plusieurs programmes d'exécution Redshift Spectrum au sein d'un groupe de ressources partagées, chargés de lire et traiter les données provenant d'Amazon S3, puis redirige les résultats vers votre cluster Amazon Redshift pour les éventuelles tâches de traitement restantes.

Q : Mon cluster d'entrepôts de données restera-t-il disponible pendant le dimensionnement ?

Le cluster d'entrepôts de données existant reste disponible pour les opérations de lecture, tandis qu'un nouveau cluster d'entrepôts de données est créé lors des opérations de dimensionnement. Une fois que le nouveau cluster d'entrepôts de données est prêt, l'ancien est provisoirement indisponible, le temps que l'enregistrement de nom canonique correspondant soit modifié afin de pointer vers le nouveau cluster. Cette période d'indisponibilité ne dure généralement que quelques minutes et a lieu pendant la fenêtre de maintenance définie pour votre cluster d'entrepôts de données, sauf si vous indiquez que la modification doit être appliquée immédiatement. Amazon Redshift déplace les données en parallèle des nœuds de calcul de votre cluster existant, vers ceux de votre nouveau cluster. Vos opérations peuvent ainsi se terminer plus rapidement.

Haut de la page »


Q : Amazon Redshift est-il compatible avec mon package logiciel d'informatique décisionnelle et mes outils d'ETL favoris ?

Amazon Redshift utilise les instructions SQL standard du secteur et est accessible depuis les pilotes JDBC et ODBC standard. Vous pouvez télécharger les pilotes JDBC et ODBC personnalisés d'Amazon Redshift à partir de l'onglet Connect Client de notre console. Nous disposons d'intégrations validées auprès de vendeurs de BI et d'ETL populaires, dont la plupart proposent des essais gratuits pour vous aider à débuter dans le chargement et l'analyse de vos données. Vous pouvez également vous rendre sur AWS Marketplace afin de déployer et configurer en quelques minutes des solutions conçues pour fonctionner avec Amazon Redshift.

Q : Quels sont les types de requêtes pris en charge par Redshift Spectrum ?

Vous utilisez exactement la même syntaxe de requête et avez les mêmes possibilités d'accès aux tables dans Redshift Spectrum que pour les tables du stockage local de votre cluster. Les tables externes sont référencées à l'aide du nom de schéma défini dans la commande CREATE EXTERNAL SCHEMA utilisée pour leur enregistrement.

Q : Que se passe-t-il si une table dans mon stockage local a le même nom qu'une table externe ?

Comme pour les tables locales, vous pouvez utiliser le nom de schéma pour sélectionner précisément la table souhaitée en insérant la valeur nom_schéma.nom_table dans votre requête.

Q : Quels sont les outils d'informatique décisionnelle et les clients SQL pris en charge par Redshift Spectrum ?

Redshift Spectrum prend en charge tous les outils clients d'Amazon Redshift. Ces outils clients peuvent continuer à se connecter au point de terminaison du cluster Amazon Redshift à l'aide de connexions ODBC ou JDBC. Aucune modification n'est nécessaire.

Q : Quels sont les formats de données pris en charge par Redshift Spectrum ?

Redshift Spectrum prend actuellement en charge de nombreux formats de données open source, notamment Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile et TSV.

Q : Quels sont les formats de compression pris en charge par Redshift Spectrum ?

A ce jour, Redshift Spectrum prend en charge la compression Gzip et Snappy.

Q : J'ai recours à un Hive Metastore pour stocker les métadonnées relatives à mon lac de données S3. Puis-je utiliser Redshift Spectrum ?

Oui. La commande CREATE EXTERNAL SCHEMA prend en charge les Hive Metastores. Toutefois, nous ne prenons pas encore en charge le langage DDL pour le Hive Metastore.

Q : Comment obtenir la liste de toutes les tables de base de données externes créées dans mon cluster ?

Vous pouvez interroger la table système SVV_EXTERNAL_TABLES pour obtenir cette information.


Q : Comment puis-je surveiller les performances de mon cluster d'entrepôts de données Amazon Redshift ?

Les mesures relatives à l'utilisation des capacités de calcul et de stockage, ainsi qu'au trafic en lecture/écriture de votre cluster d'entrepôts de données Amazon Redshift, sont disponibles gratuitement via AWS Management Console ou les API Amazon CloudWatch. Vous pouvez également ajouter des mesures supplémentaires que vous aurez définies, via la fonctionnalité de mesures personnalisées d'Amazon CloudWatch. En plus des mesures d'Amazon CloudWatch, Amazon Redshift fournit des informations sur les performances des interrogations et du cluster via AWS Management Console. Ces informations vous permettent de savoir quels sont les utilisateurs et les interrogations qui consomment le plus de ressources système, et de diagnostiquer les problèmes de performances. Vous pouvez également consulter l'utilisation des ressources sur chacun de vos nœuds de calcul, afin de vous assurer que vos données et interrogations sont correctement équilibrées sur tous les nœuds.

Q : J'ai remarqué que certaines requêtes accédant aux données dans mon cluster sont plus lentes que mes requêtes Redshift Spectrum. Comment cela se fait-il ?

Les requêtes Amazon Redshift sont exécutées à l'aide de ressources de votre cluster, par rapport à votre disque local. Les requêtes Redshift Spectrum sont exécutées à l'aide de ressources pouvant monter en charge, par rapport à des données dans S3. Dans la plupart des cas, le disque local est plus rapide, mais pour les requêtes analysant un grand nombre de données avec une composante de calcul minimale, nous pouvons mettre en œuvre de nombreux programmes d'exécution Redshift Spectrum afin d'accélérer le traitement.


Q : Qu'est-ce qu'une fenêtre de maintenance ? Mon cluster d'entrepôts de données sera-t-il disponible pendant la maintenance logicielle ?

Amazon Redshift effectue périodiquement des opérations de maintenance pour apporter des correctifs, des améliorations et de nouvelles fonctionnalités à votre cluster. Vous pouvez changer les fenêtres de maintenance planifiées en modifiant le cluster par programmation ou avec Amazon Redshift Console. Durant ces fenêtres de maintenance, votre cluster Amazon Redshift n'est pas disponible pour les opérations normales. Pour en savoir plus sur les fenêtres de maintenance et les programmations par région, consultez la section Fenêtres de maintenance du manuel Amazon Redshift Management Guide.

Haut de la page »