Questions d'ordre général

Pour découvrir les nouveautés d'Amazon Redshift, consultez la page Nouveautés.
Pour consulter des informations plus détaillées et des conseils d'utilisation dans la documentation.

Q : Qu'est-ce qu'Amazon Redshift ?

Amazon Redshift est un service d'entrepôt de données cloud rapide et entièrement géré. Il permet d'analyser de manière simple et économique toutes vos données grâce à vos outils d'informatique décisionnelle existants et à une syntaxe SQL standard. Vous pouvez ainsi exécuter des requêtes analytiques complexes sur quelques téraoctets ou plusieurs pétaoctets de données structurées en utilisant l'optimisation de requêtes sophistiquée, le stockage en colonnes hautes performances et l'exécution de requêtes massivement parallèle. Vous obtenez alors plus de résultats à la seconde. Avec Redshift, vous pouvez commencer par un faible volume à seulement 0,25 USD de l'heure, sans engagement, puis l'augmenter pour atteindre plusieurs pétaoctets de données à un tarif de 1 000 USD par téraoctet et par an, soit dix fois moins que la majorité des solutions traditionnelles sur site. Amazon Redshift inclut également Amazon Redshift Spectrum, qui vous permet d'exécuter des requêtes SQL directement sur plusieurs exaoctets de données non structurées dans les lacs de données Amazon S3. Aucun chargement ni aucune transformation ne sont nécessaires, et vous pouvez utiliser des formats de données ouverts, notamment Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text et TSV. Redshift Spectrum dimensionne automatiquement la capacité de calcul de la requête selon les données extraites, si bien que les requêtes adressées à Amazon S3 s'exécutent rapidement, quelle que soit la taille de l'ensemble de données.

Amazon Redshift fournit des capacités d'interrogation rapide sur les données structurées utilisant les plus courants des clients basés sur SQL et des outils d'informatique décisionnelle (BI) reposant sur les connexions ODBC et JDBC. Les interrogations sont réparties et mises en parallèle sur différentes ressources physiques. Vous pouvez facilement mettre à l'échelle un entrepôt de données Amazon Redshift de façon ascendante ou descendante, en quelques clics dans AWS Management Console ou via un seul appel d'API. Amazon Redshift effectue automatiquement l'application de correctifs et la sauvegarde de votre entrepôt de données, en stockant les sauvegardes pendant une période de rétention définie par l'utilisateur. Amazon Redshift utilise la réplication et les sauvegardes continues afin d'optimiser la disponibilité et la durabilité des données. De plus, ce service est capable de réaliser une récupération automatique en cas de défaillance d'un composant ou d'un nœud. En outre, Amazon Redshift prend en charge la sécurité de pointe du secteur avec l’intégration à AWS IAM, la fédération d’identité, le contrôle d’accès au niveau de la colonne, Amazon Virtual Private Cloud (Amazon VPC), les certificats SSL, le chiffrement AES-256, et l’intégration native à AWS KMS afin de protéger vos données en transit et au repos. Toutes les fonctionnalités de sécurité d’Amazon Redshift sont incluses sans frais supplémentaires.

Amazon Redshift s'intègre à AWS CloudTrail pour vous permettre d'auditer tous les appels d'API Redshift. Redshift consigne toutes les opérations SQL, notamment les tentatives de connexion, les requêtes et les modifications apportées à votre entrepôt de données. Vous pouvez accéder à ces journaux en lançant des requêtes SQL sur des tables système, ou choisir d'enregistrer les journaux vers un emplacement sécurisé dans Amazon S3. Amazon Redshift respecte les normes SOC1, SOC2 et SOC3, ainsi que les exigences de la certification de conformité PCI DSS de niveau 1.

A l'instar de toutes les offres d'Amazon Web Services, il n'y a pas d'investissement initial à réaliser et vous ne payez que les ressources que vous utilisez. Avec Amazon Redshift, vous payez en fonction de votre utilisation. Vous pouvez même essayer Amazon Redshift gratuitement.

Pour plus d'informations sur la disponibilité régionale d'Amazon Redshift, consultez le tableau des régions AWS.

Q : Pourquoi utiliserais-je Amazon Redshift sur un entrepôt de données sur site ?

La gestion des entrepôts de données sur site nécessite beaucoup de temps et de ressources, en particulier pour les ensembles de données volumineux. En outre, les coûts financiers associés à la conception, à la maintenance et au développement d'un entrepôt de données autogéré sur site sont très élevés. À mesure que votre volume de données augmente, vous devez constamment décider quelles données charger dans votre entrepôt et quelles données archiver afin de gérer les coûts, de limiter la complexité du processus d'ETL et d'assurer de bonnes performances. Non seulement Amazon Redshift permet de réduire significativement les coûts et la charge opérationnelle liés à un entrepôt de données, mais avec Redshift Spectrum, ce service facilite également l'analyse des gros volumes de données dans leur format natif, sans que vous ayez besoin de charger ces données.

Q : Qu'est-ce qu'AQUA (Advanced Query Accelerator) pour Amazon Redshift ?

AQUA est un nouveau cache distribué à accélération matérielle qui permet à Redshift de fonctionner 10 fois plus rapidement que tout autre entrepôt de données cloud. Les architectures d’entreposage de données existantes au stockage centralisé sont nécessaires pour déplacer des données vers des clusters de calcul afin qu’elles puissent être traitées. Puisque les entrepôts de données vont continuer de se développer au cours des prochaines années, la bande passante réseau avait besoin de migrer toutes ces données avant qu’elles ne deviennent un goulot d’étranglement sur les performances des requêtes.

AQUA adopte une nouvelle approche envers l’entreposage de données dans le cloud. AQUA rapproche les capacités de calcul et de stockage en traitant une part importante des données en place sur ce cache innovant. De plus, ce cache utilise des processeurs conçus par AWS et une architecture évolutive pour accélérer le traitement des données au-delà de toutes les performances des processeurs existants. Découvrez-en davantage et inscrivez-vous pour demander à obtenir la version préliminaire.

Q : Qu'est-ce que Redshift Spectrum ?

Redshift Spectrum est une fonctionnalité d'Amazon Redshift qui vous permet d'exécuter des requêtes sur des exaoctets de données non structurées dans Amazon S3, sans qu'aucun chargement ou ETL soit requis. Lorsque vous envoyez une requête, elle est dirigée vers le point de terminaison SQL d'Amazon Redshift, qui génère et optimise un plan de requête. Amazon Redshift détermine si les données sont stockées en local ou dans Amazon S3, génère un plan pour réduire le volume de données d'Amazon S3 qui doivent être lues et demande à des programmes d'exécution Amazon Redshift Spectrum au sein d'un groupe de ressources partagées de lire et traiter les données en provenance d'Amazon S3.

Le cas échéant, Redshift Spectrum peut déployer des milliers d'instances pour que les requêtes soient exécutées rapidement, quel que soit le volume de données. En outre, vous pouvez utiliser exactement la même syntaxe SQL pour les données d'Amazon S3 que pour vos requêtes Amazon Redshift, et vous connecter au même point de terminaison Amazon Redshift à l'aide des mêmes outils d'informatique décisionnelle. Redshift Spectrum vous permet de séparer les ressources de stockage et de calcul, et de les dimensionner indépendamment les unes des autres. Vous pouvez configurer autant de clusters Amazon Redshift que nécessaire afin de lancer des demandes sur votre lac de données Amazon S3, profitant ainsi de la haute disponibilité et de la simultanéité illimitée. Redshift Spectrum vous permet de stocker les données où vous le souhaitez, dans n'importe quel format et prêtes à être traitées quand vous en avez besoin. Pour plus d'informations sur la disponibilité régionale de Redshift Spectrum, consultez la page de tarification d'Amazon Redshift.

Q : Qu'est-ce le stockage géré d'Amazon Redshift ?

Le stockage géré d’Amazon Redshift est disponible avec les types de nœuds RA3. Il vous permet également de mettre à l’échelle et de payer indépendamment le calcul et le stockage, ce qui fait que vous pouvez dimensionner votre cluster en fonction de vos besoins en calcul. Il utilise automatiquement un stockage local SSD à hautes performances comme cache de niveau 1 et tire profit des optimisations telles que la température des blocs de données, l’âge des blocs de données et les modèles de charge de travail afin d’offrir de hautes performances tout en dimensionnant automatiquement le stockage dans Amazon S3 lorsque cela est nécessaire et sans requérir aucune action de votre part.

Q : Comment utiliser le stockage géré d’Amazon Redshift ?

Si vous utilisez déjà les nœuds de stockage denses (DS) ou de calcul denses (DC) d’Amazon Redshift, vous pouvez mettre à niveau à clusters existants vers la nouvelle instance de calcul RA3 afin d’utiliser le stockage géré. Vous pouvez également créer un nouveau cluster basé sur l’instance RA3, et le stockage géré est alors automatiquement inclus. Aucune autre action n’est requise pour utiliser cette fonctionnalité.

Q : Comment Amazon Redshift simplifie-t-il la gestion des entrepôts de données ?

Amazon Redshift gère les tâches requises pour configurer, mettre en service et dimensionner un entrepôt de données. Par exemple, l’allocation des capacités d’infrastructure, l’automatisation des tâches d’administration continues telles que l’application des sauvegardes et correctifs, et la surveillance des nœuds et des lecteurs pour permettre la récupération en cas de défaillance. Dans le cas de Redshift Spectrum, Amazon Redshift gère l'ensemble de l'infrastructure de calcul, de l'équilibrage de charge, de la planification, de la programmation et de l'exécution de vos requêtes portant sur les données stockées dans Amazon S3.

Q : En quoi les performances d'Amazon Redshift sont-elles différentes de celles de la plupart des bases de données sur site en matière d'entreposage de données et d'analyse ?

Amazon Redshift exploite différentes innovations pour aboutir à des performances jusqu'à 10 fois meilleures à celles des bases de données classiques pour l'entreposage des données et les charges de travail d'analyse. Les innovations incluses sont :

  • Stockage en colonne des données : au lieu de stocker les données en rangées successives, Amazon Redshift les classe sous forme de colonnes. Contrairement aux systèmes linéaires, qui conviennent parfaitement au traitement des transactions, les systèmes en colonnes sont mieux adaptés à l'entreposage et à l'analyse des données, où les interrogations impliquent souvent d'effectuer des agrégations sur de grands volumes de données. Seules les colonnes concernées par les interrogations sont traitées et les données en colonnes sont stockées de manière séquentielle sur le dispositif de stockage. Ainsi, les systèmes en colonnes nécessitent moins d'E/S, ce qui améliore considérablement les performances.
  • Fonction de compression avancée : les magasins de données en colonnes peuvent être compressés beaucoup plus facilement que les magasins de données linéaires, car les données similaires sont stockées sur disque de manière séquentielle. Amazon Redshift utilise plusieurs techniques de compression, ce qui permet souvent d'obtenir une compression plus performante que les magasins de données traditionnels. Lors du chargement des données dans une table vide, Amazon Redshift crée automatiquement des échantillons et sélectionne le schéma de compression le plus approprié.
  • Traitement massivement parallèle (MPP, Massively Parallel Processing) : Amazon Redshift répartit automatiquement la charge des données et requêtes sur tous les nœuds. Amazon Redshift simplifie l'ajout de nœuds à votre entrepôt de données et vous permet de conserver des performances d'interrogation élevées à mesure que votre entrepôt de données s'agrandit.
  • Redshift Spectrum : Redshift Spectrum vous permet d'exécuter des requêtes sur des exaoctets de données dans Amazon S3. Aucun chargement ni ETL n'est nécessaire. Même si vous ne stockez aucune donnée dans Amazon Redshift, vous pouvez utiliser Redshift Spectrum pour exécuter des requêtes sur des ensembles de données de l'ordre d'un exaoctet dans Amazon S3. Lorsque vous envoyez une requête, elle est dirigée vers le point de terminaison SQL d'Amazon Redshift, qui génère un plan de requête. Amazon Redshift détermine si les données sont stockées en local ou dans Amazon S3, génère un plan pour minimiser le volume de données d'Amazon S3 qui doivent être lues, demande à des programmes d'exécution Amazon Redshift Spectrum au sein d'un groupe de ressources partagées de lire et traiter les données provenant d'Amazon S3, puis redirige les résultats vers votre cluster Amazon Redshift pour les éventuelles tâches de traitement restantes.
  • Vues matérialisées : les vues matérialisées permettent de bénéficier de performances beaucoup plus rapides en cas de charges de travail analytiques répétées et prévisibles induites, notamment, par la génération de tableaux de bord, les requêtes provenant d'outils d'informatique décisionnelle et le traitement de données de type ELT (Extract, Load, Transform). Grâce aux vues matérialisées, vous pouvez stocker les résultats précalculés des requêtes et les gérer efficacement en traitant, de manière incrémentielle, les dernières modifications apportées aux tables source. Les requêtes suivantes qui référencent ces mêmes vues s'appuient ensuite sur ces résultats pour s'exécuter bien plus rapidement. Les vues matérialisées peuvent être créées sur la base d'une ou plusieurs tables source à l'aide de filtres, de projections, de jointures internes, d'agrégations, de regroupements, de fonctions spécifiques et d'autres constructions SQL.
  • Évolutivité : les capacités de calcul et de stockage des entrepôts de données sur site sont limitées par les contraintes liées au matériel sur site. Redshift vous donne la possibilité de dimensionner les capacités de calcul et de stockage selon vos besoins pour répondre à l’évolution de vos charges de travail.

Q : Comment démarrer avec Amazon Redshift ?

Vous pouvez vous inscrire et faire vos premiers pas en quelques minutes, à partir de la page de présentation d'Amazon Redshift ou d'AWS Management Console. Si vous n'avez pas encore de compte AWS, vous serez invité à en créer un. Rendez-vous sur la page Mise en route pour savoir comment essayer gratuitement Amazon Redshift.

Q : Comment créer et accéder à un cluster d'entrepôts de données Amazon Redshift ?

Vous pouvez facilement créer un cluster d'entrepôts de données Amazon Redshift à l'aide d'AWS Management Console ou des API Amazon Redshift. Vous pouvez commencer avec un entrepôt de données de 160 Go à un seul nœud, puis augmenter votre configuration pour atteindre jusqu'à un pétaoctet, en quelques clics dans AWS Console ou via un seul appel d'API.

La configuration à un seul nœud, qui est plus adaptée à l’évaluation ou au développement/test des charges de travail, vous permet une mise en route rapide et à moindres frais avec Amazon Redshift. Par la suite, vous procédez à une mise à l'échelle ascendante à mesure que vos besoins augmentent. Un cluster d'entrepôts de données Redshift peut contenir 1 à 128 nœuds de calcul, selon le type de nœud utilisé. Pour en savoir plus, consultez notre documentation.

La configuration à plusieurs nœuds requiert un nœud « leader » qui gère les connexions client et réceptionne les interrogations, et deux nœuds de calcul qui stockent les données et effectuent les interrogations et les calculs. Ce nœud « leader », dont la taille est identique à celle du nœud de calcul, est automatiquement dimensionné pour vous, sans aucuns frais.

Indiquez simplement votre zone de disponibilité (AZ) préférée (facultatif), le nombre de nœuds, un nom principal et un mot de passe, des groupes de sécurité, vos préférences en matière de rétention des sauvegardes, ainsi que d'autres paramètres système. Une fois que vous avez sélectionné la configuration de votre choix, Amazon Redshift met en service les ressources requises et configure votre cluster d'entrepôts de données.

Lorsque votre cluster d'entrepôts de données est disponible, vous pouvez récupérer son point de terminaison et une chaîne de connexion JDBC ou ODBC à partir d'AWS Management Console ou des API Redshift. Vous pouvez ensuite utiliser cette chaîne de connexion avec votre outil de base de données, langage de programmation ou outil d'informatique décisionnelle (BI) favori. Il vous faut également autoriser les demandes réseau vers votre cluster d'entrepôts de données en cours d'exécution. Pour une explication détaillée, reportez-vous à notre manuel de mise en route.

Q : Quelle est la capacité de stockage maximale par nœud de calcul ? Pour des performances optimales, quel est le volume de données recommandé par nœud de calcul ?

Vous pouvez créer un cluster à l'aide des types de nœud RA3, DC ou DS. Les types de nœuds RA3 vous permettent de dimensionner et de payer indépendamment le calcul et le stockage. Vous choisissez le nombre d'instances dont vous avez besoin en fonction des exigences de performances et vous ne payez que pour le stockage géré que vous utilisez.

Les types de nœuds RA3 sont disponibles dans deux tailles : RA3.16XL et RA3.4XL. Chaque nœud RA3.16XL dispose de 48 processeurs virtuels et de 384 Gio de mémoire, et prend en charge 8 Go/s d’E/S. Ces deux types de clusters (RA3.16XL et RA3.4XL) fonctionnent avec un minimum de deux nœuds, et un cluster RA3.16XL ou RA3.4XL disposant de deux nœuds offre 128 To de stockage géré. Le quota de stockage géré pour les clusters RA3.16XL et RA3.4XL est de 64 To par nœud. Les clusters RA3.16XL peuvent dimensionner jusqu’à 128 nœuds, ce qui permet de créer un cluster avec jusqu'à 8 pétaoctets dans un stockage géré. Un nœud RA3.4XL dispose de 12 processeurs virtuels et de 96 Gio de mémoire, et prend en charge 2 Go/s d’E/S. Les clusters RA3.4XL peuvent dimensionner jusqu’à 64 nœuds, ce qui permet de créer un cluster avec jusqu'à 4 pétaoctets dans un stockage géré. Remarque : toutes les tailles de stockage géré mentionnées ici sont pour des données compressées. Redshift compresse les données 3 ou 4 fois. Par conséquent, la taille des données décompressées est 3 ou 4 fois supérieure à ce qui est indiqué ici.

Les types de nœuds de calcul denses (DC) sont également disponibles dans deux tailles. Le modèle Large présente une capacité de stockage SSD de 160 Go, deux cœurs virtuels Intel Xeon E5-2670v2 (Ivy Bridge) et 15 Gio de RAM. Le modèle Eight Extra Large est seize fois plus grand, avec 2,56 To de stockage SSD, 32 cœurs virtuels Intel Xeon E5-2670v2 et 244 Gio de RAM. Vous pouvez commencer avec un seul nœud DC2.Large pour 0,25 USD de l'heure, puis augmenter votre configuration jusqu'à 128 nœuds 8XL avec 326 To de stockage SSD, 3 200 cœurs virtuels et 24 Tio de RAM.

Les types de nœuds de stockage dense (DS) sont disponibles en deux tailles différentes : Extra Large et Eight Extra Large. Les nœuds Extra Large (XL) comportent trois disques durs pour un total de 2 To sur bande magnétique, tandis que les nœuds Eight Extra Large (8XL) comportent 24 disques durs pour un total de 16 To sur bande magnétique. Les nœuds DS2.8XLarge comportent 36 cœurs virtuels Intel Xeon E5-2676 v3 (Haswell) et 244 Gio de RAM. Les nœuds DS2.XL, quant à eux, comportent quatre cœurs virtuels Intel Xeon E5-2676 v3 (Haswell) et 31 Gio de RAM.

Pour plus d'informations, consultez la page Tarification.

Q : Quand vaut-il mieux utiliser Amazon Redshift plutôt qu' Amazon RDS ?

Amazon Redshift et Amazon RDS vous permettent d'exécuter des bases de données relationnelles classiques dans le cloud tout en vous déchargeant de l'administration des bases de données. Les clients utilisent les bases de données Amazon RDS principalement pour la charge de travail de traitement de transactions en ligne (OLTP), tandis qu'ils utilisent principalement Redshift pour la création de rapports et les analyses. Les charges de travail de traitement de transactions en ligne nécessitent d’interroger rapidement des informations spécifiques et prennent en charge des transactions telles que l’insertion, la mise à jour et la suppression, et sont mieux gérées par Amazon RDS. Amazon Redshift tire parti de la portée et des ressources de plusieurs nœuds et fait appel à différentes techniques d'optimisation pour permettre une amélioration considérable par rapport aux bases de données classiques en matière d'analyse et de génération de rapports lorsqu'il s'agit de traiter des ensembles de données très volumineux. Amazon Redshift propose une option exceptionnelle de dimensionnement ascendant vous permettant de répondre à la complexité croissante de vos données et interrogations, et de ne pas entraver les performances de votre charge OLTP avec les tâches d'analyse et de génération de rapports. Désormais, avec la nouvelle fonctionnalité de requête fédérée, vous pouvez facilement interroger des données sur vos services de base de données Amazon RDS ou Aurora avec Amazon Redshift.

Q : Quand vaut-il mieux utiliser Amazon Redshift ou Redshift Spectrum plutôt qu' qu’Amazon EMR ?

Choisissez Amazon EMR si vous utilisez du code personnalisé pour traiter et analyser des ensembles de données extrêmement volumineux avec des infrastructures de traitement de Big Data telles qu'Apache Spark, Hadoop, Presto ou Hbase. Amazon EMR vous permet de contrôler entièrement la configuration de vos clusters et les logiciels installés sur ceux-ci.

Les entrepôts de données tels qu'Amazon Redshift sont conçus pour un tout autre type d'analyse. Les entrepôts de données visent à rassembler des données de sources très diverses, issues par exemple de systèmes d'inventaire, de gestion financière ou de vente au détail. Pour garantir un enregistrement des données exact et cohérent dans l'ensemble de l'entreprise, les entrepôts de données stockent les informations de manière très structurée. Cette structure permet d'intégrer des règles de cohérence des données directement dans les tables de la base de données. Amazon Redshift est le service à utiliser lorsque vous devez exécuter des requêtes complexes sur des ensembles volumineux de données structurées et semi-structurées tout en bénéficiant de performances rapides.

La fonctionnalité Redshift Spectrum est très efficace pour exécuter des requêtes sur des données stockées dans Amazon Redshift et S3, mais n'est pas vraiment adaptée aux cas d'utilisation typiques des entreprises qui font appel aux infrastructures de traitement Amazon EMR. Amazon EMR fait bien plus qu'exécuter des requêtes SQL. Amazon EMR est un service géré qui vous permet de traiter et d'analyser des ensembles de données extrêmement volumineux avec les dernières versions des infrastructures de traitement de Big Data les plus populaires telles que Spark, Hadoop et Presto, sur la base de clusters entièrement personnalisables. Avec Amazon EMR, vous pouvez exécuter un grand nombre de tâches de traitement de données avec montée en charge pour des applications telles que le machine learning, l'analyse graphique, la transformation de données, la diffusion de données et quasiment toutes les opérations que vous pouvez coder.

Vous pouvez aussi utiliser Redshift Spectrum avec EMR. Redshift Spectrum adopte la même approche qu'Amazon EMR pour le stockage des définitions des tables. Redshift Spectrum peut prendre en charge le même Apache Hive Metastore que celui utilisé par Amazon EMR pour localiser les définitions de données et de tables. Si vous utilisez Amazon EMR et avez déjà un Hive Metastore, il vous suffit de configurer votre cluster Amazon Redshift afin de l'utiliser. Vous pouvez alors commencer sans attendre à exécuter des requêtes sur ces données, en parallèle de vos tâches Amazon EMR. Par conséquent, si vous utilisez déjà EMR pour traiter un gros volume de données, vous pouvez simultanément utiliser Redshift Spectrum pour exécuter des requêtes sur ces données sans interférer avec vos tâches Amazon EMR.

Que ce soit les services de requête, les entrepôts de données ou les infrastructures de traitement des données complexes, tous ont leur utilité, même si leurs applications sont différentes. Vous devez donc sélectionner l'outil le plus approprié pour vos tâches.

Q : Quand dois-je utiliser Amazon Athena plutôt que Redshift Spectrum ?

Amazon Athena est la solution la plus simple pour permettre à tous vos employés d'exécuter ponctuellement des requêtes sur des données stockées dans Amazon S3. Athena ne requiert aucun serveur : vous pouvez donc commencer à analyser les données immédiatement, sans avoir à configurer ni gérer d'infrastructure.

Si vous accédez fréquemment à certaines données qui doivent être stockées dans un format cohérent et très structuré, nous vous conseillons d'utiliser un entrepôt de données tel qu'Amazon Redshift. Vous avez ainsi la possibilité de stocker les données structurées auxquelles vous accédez fréquemment dans Amazon Redshift, et d'utiliser Redshift Spectrum pour étendre vos requêtes Amazon Redshift à l'ensemble des données de votre lac de données Amazon S3. Ainsi, vous pouvez stocker les données où vous le souhaitez, dans n'importe quel format et prêtes à être traitées quand vous en avez besoin.

Q : Pourquoi devrais-je utiliser Amazon Redshift plutôt que mon propre cluster d'entrepôts de données MPP sur Amazon EC2 ?

Amazon Redshift gère automatiquement bon nombre des tâches habituellement chronophages associées à la gestion de votre entrepôt de données, notamment :
  • Configuration : avec Amazon Redshift, il vous suffit de créer un cluster d'entrepôts de données, de définir votre schéma, puis de charger et d'interroger vos données. Vous n’avez à gérer ni l’allocation, ni la configuration, ni l’application de correctifs.
  • Durabilité des données : Amazon Redshift réplique vos données au sein de votre cluster d'entrepôts de données et procède à une sauvegarde continue de vos données vers un compartiment Amazon S3, lequel est conçu pour fournir une disponibilité de 99,999999999 % (« 11 neuf »). Amazon Redshift met en miroir les données de chaque lecteur sur les autres nœuds présents dans votre cluster. En cas d'échec d'un lecteur, vos interrogations se poursuivent, avec une légère augmentation de la latence, tandis que Redshift reconstitue votre lecteur à partir des réplicas. En cas de défaillance d'un ou plusieurs nœuds, Amazon Redshift met automatiquement en service de nouveaux nœuds et commence à restaurer les données des autres lecteurs au sein du cluster ou à partir d'Amazon S3. Vos données les plus fréquemment interrogées sont restaurées en priorité, afin que les interrogations les plus souvent exécutées soient rapidement performantes.
  • Dimensionnement : vous pouvez ajouter ou supprimer des nœuds de votre cluster d'entrepôts de données Amazon Redshift à partir d'un seul appel d'API ou en quelques clics dans AWS Management Console, afin de répondre à l'évolution de vos besoins en termes de capacités et de performances. Vous pouvez également planifier vos opérations de dimensionnement et de redimensionnement à l'aide de la fonction de planification dans Redshift.
  • Application automatique des mises à jour et des correctifs : Amazon Redshift applique automatiquement les mises à jour et les correctifs à votre entrepôt de données afin que vous puissiez rester concentré sur votre application, et non sur son administration.
  • Requêtes pouvant porter sur des exaoctets de données : Redshift Spectrum vous permet d'exécuter des requêtes sur des exaoctets de données dans Amazon S3. Aucun chargement ni ETL n'est nécessaire. Même si vous ne stockez aucune donnée dans Amazon Redshift, vous pouvez utiliser Redshift Spectrum pour exécuter des requêtes sur des ensembles de données de l'ordre d'un exaoctet dans Amazon S3.

Facturation

Q : Comment mon utilisation d'Amazon Redshift me sera-t-elle facturée ?

Vous ne payez que ce que vous utilisez et il n'y a pas de frais minimums ou d'installation. Amazon Redshift prend en charge la capacité de mettre en pause ou de relancer un cluster, vous permettant ainsi de suspendre facilement la facturation à la demande pendant que le cluster n'est pas utilisé. Par exemple, le cluster utilisé pour le développement peut avoir une facturation calculée suspendue lorsqu’il n’est pas utilisé. Lorsque le cluster est en pause, vous n’êtes facturé que pour le stockage du cluster. Pour les charges de travail régulières en production, vous pouvez réaliser d’importantes économies par rapport à la tarification à la demande en passant aux instances réservées.

La facturation débute dès que le cluster d'entrepôts de données est disponible. La facturation continue jusqu'à ce que le cluster d'entrepôts de données soit résilié, c'est-à-dire lors de sa suppression ou dans le cas d'une instance défaillante. Vous êtes facturé sur la base des éléments suivants :

  • Heures d'utilisation des nœuds de calcul : les heures d'utilisation des nœuds de calcul correspondent au nombre total d'heures pendant lesquelles vous exécutez tous vos nœuds de calcul, au cours de la période de facturation. Des heures d'utilisation des nœuds vous sont facturées pour chaque heure durant laquelle votre cluster d'entrepôts de données s'exécute à l'état disponible. Si vous ne souhaitez plus payer de frais pour votre cluster d'entrepôts de données, vous devez mettre fin à votre cluster afin qu'aucune heure supplémentaire d'utilisation de nœud ne vous soit facturée. Les heures partielles d'utilisation de nœud sont facturées comme des heures entières. Vous êtes facturé 1 unité par nœud et par heure. Ainsi, un cluster d'entrepôts de données à 3 nœuds exécutés en permanence pendant un mois équivaut à 2 160 heures d'instance. Les heures d'utilisation des nœuds « leader » ne font l'objet d'aucuns frais. Seuls les nœuds de calcul sont facturables.
  • Stockage géré : vous payez les données stockées dans le stockage géré à un taux par Go-mois fixe pour votre région. Le stockage géré comprend exclusivement des types de nœuds RA3 et vous payez le même tarif réduit pour le stockage géré Redshift, quelle que soit la taille des données. L’utilisation de stockage géré est calculée sur une base horaire en fonction des données totales présentes dans le stockage géré. Vous pouvez surveiller la quantité de données de votre cluster RA3 via Amazon CloudWatch ou AWS Management Console. Vous ne payez aucuns frais de transfert de données entre les nœuds RA3 et le stockage géré. Les frais de stockage géré n'incluent pas les frais de stockage de sauvegarde dus aux instantanés automatiques et manuels. Une fois le cluster supprimé, la conservation de vos sauvegardes manuelles continuera de vous être facturée.
  • Stockage de sauvegarde : le stockage de sauvegarde correspond au stockage des instantanés manuels et automatiques de votre entrepôt de données. L'allongement de votre période de rétention des sauvegardes ou la prise d'instantanés supplémentaires augmente le volume du stockage de sauvegarde consommé par votre entrepôt de données. Aucuns frais supplémentaires ne vous sont facturés si votre stockage de sauvegarde est inférieur ou égal à 100 % du stockage mis en service pour votre cluster d'entrepôts de données actif. Par exemple, pour un cluster d'entrepôts de données avec un seul nœud XL actif, incluant 2 To de stockage d'instance local, nous fournissons jusqu'à 2 To par mois de stockage de sauvegarde et ce, sans frais supplémentaires. Au-delà de la taille de stockage allouée et pour les sauvegardes stockées après l'arrêt de votre cluster, des frais vous sont facturés selon les tarifs standard d'Amazon S3.
  • Transfert de données : aucuns frais ne sont associés au transfert de données vers ou en provenance d'Amazon Redshift et d'Amazon S3 dans la même région d'AWS. Pour tous les transferts de données vers et à partir d'Amazon Redshift, les tarifs de transfert de données AWS standard s'appliqueront.
  • Données analysées : avec Redshift Spectrum, seule la quantité de données Amazon S3 analysée pour exécuter votre requête vous est facturée. Redshift Spectrum ne coûte rien quand vous n'exécutez pas de requêtes. Si vous stockez les données dans un format orienté colonnes tel que Parquet ou RC, vos frais seront inférieurs, car Redshift Spectrum analysera uniquement les colonnes nécessaires pour la requête au lieu de traiter les lignes en entier. De même, vos coûts diminueront si vous compressez vos données en utilisant l'un des formats pris en charge par Redshift Spectrum. Nous appliquons les tarifs Amazon S3 standard pour le stockage de données et les tarifs d'instance Amazon Redshift pour le cluster utilisé.

Sauf indication contraire, nos prix n'incluent pas les taxes et redevances applicables, y compris la TVA et les taxes sur les ventes applicables. Pour les clients dont l'adresse de facturation est située au Japon, l'utilisation de services AWS est soumise à la taxe sur la consommation applicable dans ce pays. En savoir plus.

Pour connaître les tarifs d'Amazon Redshift, consultez la page de tarification d'Amazon Redshift.

Intégration et chargement des données

Q : Comment charger des données dans un entrepôt Amazon Redshift ?

Vous pouvez charger les données dans Amazon Redshift à partir de diverses sources de données, notamment Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline et/ou tout hôte compatible SSH, sur Amazon EC2 ou sur site. Amazon Redshift tente de charger vos données en parallèle dans chaque nœud de calcul afin d'optimiser le taux d'absorption des données dans votre cluster d'entrepôts de données. Les clients peuvent se connecter à Amazon Redshift à partir d'ODBC ou de JDBC, puis lancer des commandes SQL « Insert » afin d'insérer les données. Notez, toutefois, que cette méthode est plus lente que d'utiliser les services S3 ou DynamoDB. En effet, ces services chargent les données en parallèle sur chaque nœud de calcul, tandis que les instructions SQL Insert effectuent le chargement à partir d'un seul et même nœud « leader ». Pour en savoir plus sur le chargement de données dans Amazon Redshift, consultez notre manuel de mise en route.

Q : Comment charger des données dans Amazon Redshift à partir de mes sources de données Amazon RDS, Amazon EMR, Amazon DynamoDB et Amazon EC2 existantes ?

Vous pouvez utiliser notre commande COPY pour charger des données en parallèle directement dans Amazon Redshift depuis Amazon EMR, Amazon DynamoDB ou tout hôte compatible SSH. Redshift Spectrum vous permet également de charger des données dans votre cluster depuis Amazon S3 via une simple commande INSERT INTO. Vous avez ainsi la possibilité de charger dans votre cluster des données correspondant à différents formats, notamment Parquet et RC. Notez cependant que cette approche entraîne une augmentation des frais Redshift Spectrum pour les données analysées depuis Amazon S3. 

Par ailleurs, de nombreuses sociétés d'ETL ont certifié qu'Amazon Redshift pouvait être utilisé avec leurs outils, et beaucoup d'entre elles proposent des essais gratuits pour vous aider à débuter dans le chargement de vos données. AWS Data Pipeline propose une solution performante, fiable et tolérante aux pannes permettant de charger des données à partir de diverses sources de données AWS, comme Amazon RDS vers Redshift. Vous pouvez utiliser AWS Data Pipeline pour spécifier la source de données et les transformations que vous souhaitez apporter à vos données, puis exécuter un script d'importation pré-écrit afin de charger vos données dans Amazon Redshift. En outre, AWS Glue est un service d'extraction, de transformation et de chargement (ETL) entièrement géré qui facilite la préparation et le chargement des données pour analyse. Vous pouvez créer et exécuter une tâche ETL AWS Glue en quelques clics grâce à AWS Management Console.

Q : Je dispose d'un grand volume de données à charger pour la première fois dans Amazon Redshift. Le transfert par Internet prendrait beaucoup de temps. Comment puis-je charger ces données ?

Vous pouvez utiliser AWS Import/Export afin de transférer les données vers Amazon S3 à partir de périphériques de stockage portables. Vous pouvez également utiliser AWS Direct Connect afin d'établir une connexion réseau privée entre AWS et votre réseau ou centre de données. Pour transférer vos données, vous avez le choix entre les ports de connexion à 1 Gbit/s ou 10 Gbits/s.

Sécurité

Q : Comment Amazon Redshift assure-t-il la sécurité de mes données ?

Amazon Redshift prend en charge la sécurité de pointe du secteur avec l’intégration native à AWS IAM, la fédération d’identité pour l’authentification unique (Signle-Sign On, SSO), l’authentification multi-facteurs, le contrôle d’accès au niveau de la colonne, Amazon Virtual Private Cloud (Amazon VPC), et offre une intégration native à AWS KMS afin de protéger vos données en transit et au repos. Amazon Redshift crypte vos données et protège à la fois vos données en transit et au repos à l'aide de techniques de cryptage standard. Pour assurer la sécurité de vos données en transit, Amazon Redshift prend en charge les connexions SSL entre votre application cliente et votre cluster d'entrepôts de données Amazon Redshift. Pour assurer la sécurité de vos données au repos, Amazon Redshift crypte chaque bloc à mesure qu'il est écrit sur le disque à l'aide du cryptage AES 256 avec accélération matérielle. Cette opération a lieu à un niveau inférieur du sous-système d'E/S, qui crypte toutes les données écrites sur le disque, y compris les résultats intermédiaires des interrogations. Les blocs sont sauvegardés « en l'état », ce qui signifie que les sauvegardes sont également cryptées. Par défaut, Amazon Redshift se charge de la gestion des clés. Néanmoins, vous avez la possibilité de gérer vos clés via AWS Key Management Service. Toutes les fonctionnalités de sécurité d’Amazon Redshift sont fournies sans frais supplémentaires. Redshift Spectrum prend en charge la fonctionnalité de chargement côté serveur (Server Side Encryption, SSE) d'Amazon S3 à l'aide de la clé par défaut de votre compte, gérée par le service AWS Key Management Service (KMS).

Q : Redshift prend-t-il en charge les contrôles précis des accès tels que la sécurité au niveau des colonnes ?

Oui. Les contrôles précis de sécurité au niveau des colonnes garantissent que les utilisateurs ne voient que les données auxquelles ils doivent avoir accès. Amazon Redshift prend en charge le contrôle des accès au niveau des colonnes des tables locales pour que vous puissiez contrôler l'accès aux différentes colonnes d'une table, ou afficher les autorisations et révocations des privilèges au niveau des colonnes d'un utilisateur ou d'un groupe d’utilisateurs. Redshift est intégré à AWS Lake Formation, garantissant que les contrôles d'accès au niveau des colonnes de Lake Formation sont également appliqués pour les requêtes Redshift sur les données dans le lac de données.

Q : Redshift prend-t-il en charge l'authentification unique ?

Oui. Les clients qui souhaitent utiliser leurs fournisseurs d'identité d'entreprise tels que Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate ou tout autre fournisseur d'identité compatible avec SAML peuvent configurer Amazon Redshift afin de proposer l'authentification unique.

Q : Comment Redshift prend-t-il en charge l'authentification unique avec Microsoft Azure Active Directory ?

Vous pouvez vous connecter au cluster Amazon Redshift avec des identités Microsoft Azure Active Directory (AD). Cela vous permet de vous connecter à Redshift sans dupliquer ces identités Azure Active Directory dans Redshift.

Q : Amazon Redshift prend-t-il en charge l'authentification multi-facteurs (MFA) ?

Oui. Vous pouvez utiliser l'authentification multi-facteurs (MFA) pour plus de sécurité au moment de vous identifier pour entrer dans votre cluster Amazon Redshift.

Q : Puis-je utiliser Amazon Redshift dans Amazon Virtual Private Cloud (Amazon VPC) ?

Oui, vous pouvez utiliser Amazon Redshift dans le cadre de votre configuration de VPC. Avec Amazon VPC, vous pouvez définir une topologie virtuelle de réseau qui ressemble étroitement à un réseau traditionnel que vous pourriez faire fonctionner dans votre propre centre de données. Vous disposez ainsi d'un contrôle total sur les utilisateurs pouvant accéder à votre cluster d'entrepôts de données Amazon Redshift. Vous pouvez utiliser Redshift Spectrum avec un cluster Amazon Redshift faisant partie de votre VPC.

Q : Puis-je accéder à mes nœuds de calcul Amazon Redshift directement ?

Non. Vos nœuds de calcul Amazon Redshift se trouvent dans un espace réseau privé et sont uniquement accessibles à partir du nœud « leader » de votre cluster d'entrepôts de données. Cela permet d'ajouter une couche de sécurité supplémentaire pour vos données.

Disponibilité et durabilité

Q : Si le lecteur associé à l'un de mes nœuds est défaillant, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

Amazon Redshift détecte automatiquement le nœud en échec dans votre cluster d'entrepôts de données et le remplace. Le cluster d'entrepôts de données reste indisponible pour les interrogations et les mises à jour jusqu'à ce qu'un nœud de remplacement soit mis en service et ajouté à la base de données. Amazon Redshift rend votre nœud de remplacement immédiatement disponible et charge vos données les plus fréquemment consultées à partir d'Amazon S3 afin que vous puissiez reprendre l'interrogation des données aussi rapidement que possible. Les clusters ne comportant qu'un nœud ne prennent pas en charge la réplication des données. En cas de défaillance d'un disque, vous devrez restaurer le cluster à partir d'un instantané stocké dans S3. Nous vous recommandons donc d'utiliser au moins deux nœuds en mode production.

Q : Si un nœud échoue de manière isolée, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

Amazon Redshift détecte automatiquement le nœud en échec dans votre cluster d'entrepôts de données et le remplace. Le cluster d'entrepôts de données reste indisponible pour les interrogations et les mises à jour jusqu'à ce qu'un nœud de remplacement soit mis en service et ajouté à la base de données. Amazon Redshift rend votre nœud de remplacement immédiatement disponible et charge vos données les plus fréquemment consultées à partir d'Amazon S3 afin que vous puissiez reprendre l'interrogation des données aussi rapidement que possible. Les clusters ne comportant qu'un nœud ne prennent pas en charge la réplication des données. En cas de défaillance d'un disque, vous devrez restaurer le cluster à partir d'un instantané stocké dans S3. Nous vous recommandons donc d'utiliser au moins deux nœuds en mode production.

Q : En cas de panne au niveau de la zone de disponibilité (AZ) de mon cluster d'entrepôts de données, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

En cas d'indisponibilité de la zone AZ de votre cluster d'entrepôts de données Amazon Redshift, vous ne pouvez pas utiliser le cluster tant que l'alimentation et l'accès réseau de la zone AZ ne sont pas rétablis. Les données de votre cluster d'entrepôts de données sont préservées, de sorte que vous pouvez utiliser votre entrepôt de données Amazon Redshift dès lors que la zone de disponibilité redevient disponible. Vous avez également la possibilité de restaurer les instantanés existants dans une autre zone de disponibilité appartenant à la même région. Amazon Redshift restaure en priorité les données auxquelles vous accédez le plus fréquemment, afin que vous puissiez reprendre les interrogations dès que possible.

Q : Amazon Redshift prend-il en charge les déploiements multi-AZ ?

Actuellement, Amazon Redshift prend uniquement en charge les déploiements mono-AZ. Vous pouvez exécuter vos clusters d'entrepôts de données dans plusieurs zones de disponibilité en chargeant les données dans deux clusters d'entrepôts de données Amazon Redshift situés dans différentes zones de disponibilité (AZ) à partir du même ensemble de fichiers d'entrée Amazon S3. Avec Redshift Spectrum, vous pouvez utiliser plusieurs clusters sur différentes zones de disponibilité et accéder à vos données dans Amazon S3 sans avoir à les charger dans votre cluster. Vous pouvez également restaurer un cluster d'entrepôts de données dans une autre zone de disponibilité depuis vos instantanés de cluster d'entrepôts de données.

Sauvegarde et restauration

Q : Comment Amazon Redshift procède-t-il pour sauvegarder mes données ? Comment restaurer mon cluster à partir d'une sauvegarde ?

Amazon Redshift réplique toutes vos données au sein de votre cluster d'entrepôts de données lors de leur chargement, tout en continuant à sauvegarder vos données dans Amazon S3. Amazon Redshift tente toujours de conserver au moins trois copies de vos données (l'original et le réplica sur les nœuds de calcul, ainsi qu'une sauvegarde dans Amazon S3). Redshift peut également répliquer vos instantanés (snapshots) de façon asynchrone sur S3, dans une autre région, à des fins de reprise après sinistre.

Par défaut, Amazon Redshift active la sauvegarde automatique de votre cluster d'entrepôts de données avec une période de rétention d'une journée. Vous pouvez modifier ce paramètre afin de prolonger la sauvegarde jusqu'à 35 jours.

Le stockage de sauvegarde gratuit est limité à la taille totale du stockage sur les nœuds appartenant au cluster d'entrepôts de données. Il s'applique uniquement aux clusters d'entrepôts de données actifs. Par exemple, pour un stockage total de 8 To d'entrepôts de données, nous fournissons jusqu'à 8 To de stockage de sauvegarde sans frais supplémentaires. Si vous souhaitez prolonger la période de rétention au-delà d'une journée, utilisez AWS Management Console ou les API Amazon Redshift. Pour en savoir plus sur les instantanés automatiques, consultez le manuel Management Guide d'Amazon Redshift. Amazon Redshift sauvegarde uniquement les données qui ont été modifiées. Ainsi, la plupart des instantanés (snapshots) n'utilisent qu'une faible portion de votre stockage de sauvegarde gratuit.

Lorsque vous avez besoin de restaurer une sauvegarde, vous avez accès à toutes les sauvegardes automatisées dans votre fenêtre de conservation des sauvegardes. Une fois que vous avez choisi la sauvegarde à partir de laquelle procéder à la restauration, nous mettons en service un nouveau cluster d'entrepôts de données et restaurons vos données sur celui-ci.

Q : Comment gérer la rétention de mes sauvegardes et instantanés (snapshots) automatiques ?

Vous pouvez utiliser AWS Management Console ou l'API ModifyCluster pour gérer la période pendant laquelle vos sauvegardes automatiques sont conservées via le paramètre RetentionPeriod. Si vous souhaitez désactiver complètement les sauvegardes automatiques, vous pouvez définir la période de rétention sur 0 (bien que cette option ne soit pas recommandée).

Q : Qu'arrive-t-il à mes sauvegardes si je supprime mon cluster d'entrepôts de données ?

Lorsque vous supprimez un cluster d'entrepôt de données, vous avez la possibilité de spécifier si un instantané final est créé lors de la suppression. Cela permet d'effectuer une restauration ultérieure du cluster d'entrepôt de données supprimé. Tous les instantanés de votre cluster d'entrepôts de données que vous aurez créés manuellement seront conservés et facturés selon les tarifs standard d'Amazon S3, sauf si vous choisissez de les supprimer.

Scalabilité

Q : Comment puis-je dimensionner mon cluster d'entrepôts de données Amazon Redshift et mettre à l'échelle ses performances ?

Si vous souhaitez augmenter les performances d'interrogation ou remédier à une surutilisation de la CPU, de la mémoire ou des E/S, vous pouvez augmenter le nombre de nœuds figurant dans votre cluster d'entrepôts de données à l'aide du redimensionnement Elastic via AWS Management Console ou l'API ModifyCluster. Les modifications que vous apportez à votre cluster d'entrepôts de données sont immédiatement appliquées. Les mesures relatives à l'utilisation des capacités de calcul et de stockage, ainsi qu'au trafic en lecture/écriture de votre cluster d'entrepôts de données Amazon Redshift, sont disponibles gratuitement via AWS Management Console ou les API Amazon CloudWatch. Vous pouvez également ajouter des mesures supplémentaires que vous aurez définies, via la fonctionnalité de mesures personnalisées d'Amazon CloudWatch.

Avec la fonctionnalité d'adaptation de la simultanéité, vous pouvez prendre en charge un nombre illimité d'utilisateurs et de requêtes simultanés, avec des performances de requête constamment élevées. Lorsque l'adaptation de la simultanéité est activée, Amazon Redshift ajoute automatiquement une capacité de cluster supplémentaire lorsque vous en avez besoin pour traiter une augmentation du nombre de requêtes de lecture simultanées.

Avec Redshift Spectrum, vous pouvez exécuter plusieurs clusters Amazon Redshift accédant aux mêmes données dans Amazon S3. Il est ainsi possible de faire appel à différents clusters selon les cas d'utilisation. Par exemple, vous pouvez utiliser un cluster pour la génération de rapports standard, et un autre pour les requêtes de science des données. Votre équipe marketing peut avoir ses propres clusters, bien distincts de ceux de l'équipe opérationnelle. Redshift Spectrum répartit automatiquement l'exécution de la requête entre plusieurs programmes d'exécution Redshift Spectrum au sein d'un groupe de ressources partagées, chargés de lire et traiter les données provenant d'Amazon S3, puis redirige les résultats vers votre cluster Amazon Redshift pour les éventuelles tâches de traitement restantes.

Q : Mon cluster d'entrepôts de données restera-t-il disponible pendant le dimensionnement ?

Cela dépend. Lorsque vous utilisez la fonctionnalité d'adaptation de la simultanéité, le cluster est entièrement disponible en lecture et en écriture lors de l'adaptation de la simultanéité. Avec le redimensionnement Elastic, le cluster est indisponible quatre à huit minutes pendant la période de redimensionnement. Grâce à l'élasticité du stockage Redshift RA3 dans le stockage géré, le cluster est entièrement disponible et les données sont automatiquement transférées entre les nœuds de calcul et de stockage géré.

Simultanéité

Q : Comment gérer les ressources pour veiller à ce que mon cluster Redshift puisse fournir des performances rapides en permanence pendant les périodes de simultanéité élevée ?

Un entrepôt de données type présente une divergence importante dans l'utilisation simultanée de requêtes au cours d'une journée. Il est plus rentable d'ajouter des ressources uniquement pour la période au cours de laquelle elles sont nécessaires plutôt que d'en allouer aux pics de demande. Amazon Redshift gère automatiquement cela en votre nom.

L'adaptation de la simultanéité est une fonctionnalité d'Amazon Redshift, qui offre des performances de requête toujours élevées, même en présence de milliers de requêtes simultanées. Avec cette fonctionnalité, Amazon Redshift ajoute automatiquement une capacité transitoire dès lors qu'il faut gérer une demande importante. Amazon Redshift achemine automatiquement les requêtes vers des clusters de dimensionnement, qui sont mis en service en quelques secondes et commencent à traiter les requêtes immédiatement.

Cette fonctionnalité est gratuite pour la plupart des clients. Chaque cluster Amazon Redshift bénéficie d'une heure de crédit d'adaptation de la simultanéité gratuit au maximum par jour. Cela vous donne une prévisibilité dans vos coûts mensuels, et ce, même pendant les périodes de fluctuation de la demande en analyse.

Q : Qu'est-ce que le redimensionnement Elastic et en quoi diffère-t-il de l'adaptation de la simultanéité ?

Elastic Resize ajoute ou supprime des nœuds d'un seul cluster Redshift en quelques minutes pour gérer son débit de requêtes. Par exemple, un workload ETL durant certaines heures d'un rapport de fin de journée ou de mois peut requérir des ressources Redshift supplémentaires pour être finalisé à temps. L'adaptation de la simultanéité ajoute des ressources de cluster supplémentaires pour accroître la simultanéité des requêtes.

Q : Puis-je accéder directement aux clusters d'adaptation de la simultanéité ?

Non. L'adaptation de la simultanéité est un groupe de ressources Redshift extrêmement évolutif. Les clients ne peuvent pas y accéder.

Interrogation et analyse

Q : Amazon Redshift et Redshift Spectrum sont-ils compatibles avec mon package logiciel d'informatique décisionnelle et mes outils d'ETL favoris ?

Amazon Redshift utilise les instructions SQL standard du secteur et est accessible depuis les pilotes JDBC et ODBC standard. Vous pouvez télécharger les pilotes JDBC et ODBC personnalisés d'Amazon Redshift à partir de l'onglet Connect Client de notre console Redshift. Nous disposons d'intégrations validées auprès de vendeurs de BI et d'ETL populaires, dont la plupart proposent des essais gratuits pour vous aider à débuter dans le chargement et l'analyse de vos données. Vous pouvez également vous rendre sur AWS Marketplace afin de déployer et configurer en quelques minutes des solutions conçues pour fonctionner avec Amazon Redshift.

Redshift Spectrum prend en charge tous les outils clients d'Amazon Redshift. Ces outils clients peuvent continuer à se connecter au point de terminaison du cluster Amazon Redshift à l'aide de connexions ODBC ou JDBC. Aucune modification n'est nécessaire.

Vous utilisez exactement la même syntaxe de requête et avez les mêmes possibilités d'accès aux tables dans Redshift Spectrum que pour les tables du stockage local de votre cluster Redshift. Les tables externes sont référencées à l'aide du nom de schéma défini dans la commande CREATE EXTERNAL SCHEMA utilisée pour leur enregistrement.

Q : Quels sont les formats de données et les formats de compression pris en charge par Redshift Spectrum ?

Redshift Spectrum prend actuellement en charge de nombreux formats de données open source, notamment Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text et TSV.

À ce jour, Redshift Spectrum prend en charge la compression Gzip et Snappy.

Q : Que se passe-t-il si une table dans mon stockage local a le même nom qu'une table externe ?

Comme pour les tables locales, vous pouvez utiliser le nom de schéma pour sélectionner précisément la table souhaitée en insérant la valeur nom_schéma.nom_table dans votre requête.

Q : J'ai recours à un Hive Metastore pour stocker les métadonnées relatives à mon data lake S3. Puis-je utiliser Redshift Spectrum ?

Oui. La commande CREATE EXTERNAL SCHEMA prend en charge les Hive Metastores. Toutefois, nous ne prenons pas encore en charge le langage DDL pour le Hive Metastore.

Q : Comment obtenir la liste de toutes les tables de base de données externes créées dans mon cluster ?

Vous pouvez interroger la table système SVV_EXTERNAL_TABLES pour obtenir cette information.

Surveillance

Q : Comment puis-je surveiller les performances de mon cluster d'entrepôts de données Amazon Redshift ?

Les mesures relatives à l'utilisation des capacités de calcul et de stockage, ainsi qu'au trafic en lecture/écriture de votre cluster d'entrepôts de données Amazon Redshift, sont disponibles gratuitement via AWS Management Console ou les API Amazon CloudWatch. Vous pouvez également ajouter des mesures supplémentaires que vous aurez définies, via la fonctionnalité de mesures personnalisées d'Amazon CloudWatch. AWS Management Console fournit un tableau de bord de surveillance qui vous aide à surveiller la santé et les performances de tous vos clusters. Amazon Redshift fournit également des informations sur les performances des interrogations et du cluster via AWS Management Console. Ces informations vous permettent de voir quels utilisateurs et requêtes consomment le plus de ressources système afin de diagnostiquer les problèmes de performances en consultant les plans de requête et les statistiques d'exécution. Vous pouvez également consulter l'utilisation des ressources sur chacun de vos nœuds de calcul, afin de vous assurer que vos données et interrogations sont correctement équilibrées sur tous les nœuds.

Maintenance

Q : Qu'est-ce qu'une fenêtre de maintenance ? Mon cluster d'entrepôts de données sera-t-il disponible pendant la maintenance logicielle ?

Amazon Redshift effectue périodiquement des opérations de maintenance pour apporter des correctifs, des améliorations et de nouvelles fonctionnalités à votre cluster. Vous pouvez changer les fenêtres de maintenance planifiées en modifiant le cluster par programmation ou avec Redshift Console. Durant ces fenêtres de maintenance, votre cluster Amazon Redshift n'est pas disponible pour les opérations normales. Pour en savoir plus sur les fenêtres de maintenance et les programmations par région, consultez la section Fenêtres de maintenance du manuel Amazon Redshift Management Guide.

En savoir plus sur la tarification d'Amazon Redshift

Visiter la page de tarification
Prêt à concevoir ?
Démarrer avec Amazon Redshift
D'autres questions ?
Contactez-nous