Questions d'ordre général

Pour découvrir les nouveautés d'Amazon Redshift, consultez la page Nouveautés.
Pour consulter des informations plus détaillées et des conseils d'utilisation dans la documentation.

Q : Qu'est-ce qu'Amazon Redshift ?

Amazon Redshift est l'entrepôt de données cloud le plus largement utilisé du marché. C'est une solution rapide, simple et économique pour analyser toutes vos données à l'aide du SQL standard et de vos outils d'informatique décisionnelle existants. Vous pouvez ainsi exécuter des requêtes analytiques complexes sur quelques téraoctets ou plusieurs pétaoctets de données structurées ou semi-structurées en utilisant l'optimisation de requête sophistiquée, le stockage en colonnes hautes performances et l'exécution de requêtes massivement parallèle. Vous obtenez alors plus de résultats à la seconde. Avec Redshift, vous pouvez commencer par un faible volume à seulement 0,25 USD de l'heure, sans engagement, puis l'augmenter pour atteindre plusieurs pétaoctets de données à un tarif de 1 000 USD par téraoctet et par an, soit dix fois moins que la majorité des solutions traditionnelles sur site. Amazon Redshift inclut également Amazon Redshift Spectrum, qui vous permet d'exécuter des requêtes SQL directement sur plusieurs exaoctets de données non structurées dans les lacs de données Amazon S3. Aucun chargement ni aucune transformation ne sont nécessaires, et vous pouvez utiliser des formats de données ouverts, notamment Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text, Hudi, Delta et TSV. Redshift Spectrum dimensionne automatiquement la capacité de calcul de la requête selon les données extraites, si bien que les requêtes adressées à Amazon S3 s'exécutent rapidement, quelle que soit la taille de l'ensemble de données.

Amazon Redshift fournit des capacités d'interrogation rapide sur les données structurées utilisant les plus courants des clients basés sur SQL et des outils d'informatique décisionnelle (BI) reposant sur les connexions ODBC et JDBC. Les interrogations sont réparties et mises en parallèle sur différentes ressources physiques. Vous pouvez facilement mettre à l'échelle un entrepôt de données Amazon Redshift de façon ascendante ou descendante, en quelques clics dans AWS Management Console ou via un seul appel d'API. Amazon Redshift effectue automatiquement l'application de correctifs et la sauvegarde de votre entrepôt de données, en stockant les sauvegardes pendant une période de rétention définie par l'utilisateur. Amazon Redshift utilise la réplication et les sauvegardes continues afin d'optimiser la disponibilité et la durabilité des données. De plus, ce service est capable de réaliser une récupération automatique en cas de défaillance d'un composant ou d'un nœud. En outre, Amazon Redshift prend en charge la sécurité de pointe du secteur avec l’intégration à AWS IAM, la fédération d’identité, le contrôle d’accès au niveau de la colonne, Amazon Virtual Private Cloud (Amazon VPC), les certificats SSL, le chiffrement AES-256, et l’intégration native à AWS KMS afin de protéger vos données en transit et au repos. Toutes les fonctionnalités de sécurité d’Amazon Redshift sont incluses sans frais supplémentaires.

Amazon Redshift s'intègre à AWS CloudTrail pour vous permettre d'auditer tous les appels d'API Redshift. Redshift consigne toutes les opérations SQL, notamment les tentatives de connexion, les requêtes et les modifications apportées à votre entrepôt de données. Vous pouvez accéder à ces journaux en lançant des requêtes SQL sur des tables système, ou choisir d'enregistrer les journaux vers un emplacement sécurisé dans Amazon S3. Amazon Redshift respecte les normes SOC1, SOC2 et SOC3, ainsi que les exigences de la certification de conformité PCI DSS de niveau 1.

A l'instar de toutes les offres d'Amazon Web Services, il n'y a pas d'investissement initial à réaliser et vous ne payez que les ressources que vous utilisez. Avec Amazon Redshift, vous payez en fonction de votre utilisation. Vous pouvez même essayer Amazon Redshift gratuitement.

Pour plus d'informations sur la disponibilité régionale d'Amazon Redshift, consultez le tableau des régions AWS.

Q : Pourquoi utiliserais-je Amazon Redshift sur un entrepôt de données sur site ?

La gestion des entrepôts de données sur site nécessite beaucoup de temps et de ressources, en particulier pour les ensembles de données volumineux. En outre, les coûts financiers associés à la conception, à la maintenance et au développement d'un entrepôt de données autogéré sur site sont très élevés. À mesure que votre volume de données augmente, vous devez constamment décider quelles données charger dans votre entrepôt et quelles données archiver afin de gérer les coûts, de limiter la complexité du processus d'ETL et d'assurer de bonnes performances. Non seulement Amazon Redshift permet de réduire significativement les coûts et la charge opérationnelle liés à un entrepôt de données, mais avec Redshift Spectrum, ce service facilite également l'analyse des gros volumes de données dans leur format natif, sans que vous ayez besoin de charger ces données.

Q : Qu'est-ce qu'AQUA (Advanced Query Accelerator) pour Amazon Redshift ?

AQUA est un nouveau cache distribué à accélération matérielle qui permet à Redshift de fonctionner 10 fois plus rapidement que tout autre entrepôt de données cloud d'entreprise. Les architectures d'entreposage de données existantes avec stockage centralisé sont nécessaires pour déplacer des données vers des clusters de calcul afin qu'elles puissent être traitées. Puisque les entrepôts de données vont continuer de se développer au cours des prochaines années, la bande passante réseau avait besoin de migrer toutes ces données avant qu’elles ne deviennent un goulot d’étranglement sur les performances des requêtes.

AQUA adopte une nouvelle approche envers l’entreposage de données dans le cloud. AQUA rapproche les capacités de calcul et de stockage en traitant une part importante des données en place sur ce cache innovant. De plus, ce cache utilise des processeurs conçus par AWS et une architecture évolutive pour accélérer le traitement des données au-delà de toutes les performances des processeurs existants. En savoir plus.

Q : Quels types de nœuds prennent en charge AQUA ?

AQUA est disponible avec les nœuds RA3.16xlarge, RA3.4xlarge ou RA3.xlplus.

Q : Comment mon utilisation d'AQUA me sera-t-elle facturée et débitée ?

L'utilisation d'AQUA est comprise avec le type d'instance Redshift RA3 sans frais supplémentaire. Des informations sur la tarification du nœud RA3 sont disponibles ici.

Q : Comment activer/désactiver AQUA pour mon entrepôt de données Redshift ?

Pour les clusters Redshift s'exécutant sur des nœuds RA3, vous pouvez activer/désactiver AQUA au niveau du cluster à l'aide de la console Redshift, de l'interface de ligne de commande ou de l'API. Le cluster devra être redémarré pour que le paramètre prenne effet. Pour les clusters Redshift s'exécutant sur DC, DS ou des nœuds de génération plus anciens, vous devez d'abord mettre à niveau vers des nœuds RA3, puis activer/désactiver AQUA. Le paramètre par défaut pour AQUA est Automatique, ce qui permet à Redshift de savoir si AQUA est activé/désactivé. Ce paramètre est une propriété au niveau du cluster. Une fois défini, il s'applique à toutes les bases de données, schémas et requêtes du cluster.

Q : Quels types de requêtes sont accélérées par AQUA ?

AQUA accélère les requêtes d'analyse en exécutant les tâches gourmandes en données, comme les analyses, le filtrage et l'agrégation, plus près de la couche de stockage au moyen d'un matériel conçu à cet effet. Vous verrez une amélioration remarquable des performances des requêtes qui nécessitent des analyses importantes, particulièrement celles avec les prédicats LIKE et SIMILAR_TO. Au fil du temps, les types de requêtes qui sont accélérées par AQUA augmenteront.

Q : Comment AQUA garantit la sécurité de mes données ?

AQUA prend en charge l'authentification, le chiffrement, l'isolation et la conformité afin d'assurer la sécurité de vos données au repos et en mouvement. L'authentification est gérée par Redshift à l'aide du service d'authentification AWS IAM. Pour le chiffrement, AQUA utilise le canal chiffré TLS avec les clés fournies par le client pour sécuriser dans le cache les données en mouvement et au repos.

Q : Comment savoir quelles requêtes de mon cluster Redshift sont accélérées par AQUA ?

Vous pouvez interroger les tables du système pour voir les requêtes qui sont accélérées par AQUA.

Q : Qu'est-ce que Redshift Spectrum ?

Redshift Spectrum est une fonctionnalité d'Amazon Redshift qui vous permet d'exécuter des requêtes sur des exaoctets de données non structurées dans Amazon S3, sans qu'aucun chargement ou ETL soit requis. Lorsque vous envoyez une requête, elle est dirigée vers le point de terminaison SQL d'Amazon Redshift, qui génère et optimise un plan de requête. Amazon Redshift détermine si les données sont stockées en local ou dans Amazon S3, génère un plan pour réduire le volume de données d'Amazon S3 qui doivent être lues et demande à des programmes d'exécution Amazon Redshift Spectrum au sein d'un groupe de ressources partagées de lire et traiter les données en provenance d'Amazon S3.

Le cas échéant, Redshift Spectrum peut déployer des milliers d'instances pour que les requêtes soient exécutées rapidement, quel que soit le volume de données. En outre, vous pouvez utiliser exactement la même syntaxe SQL pour les données d'Amazon S3 que pour vos requêtes Amazon Redshift, et vous connecter au même point de terminaison Amazon Redshift à l'aide des mêmes outils d'informatique décisionnelle. Redshift Spectrum vous permet de séparer les ressources de stockage et de calcul, et de les dimensionner indépendamment les unes des autres. Vous pouvez configurer autant de clusters Amazon Redshift que nécessaire afin de lancer des demandes sur votre lac de données Amazon S3, profitant ainsi de la haute disponibilité et de la simultanéité illimitée. Redshift Spectrum vous permet de stocker les données où vous le souhaitez, dans n'importe quel format et prêtes à être traitées quand vous en avez besoin. Pour plus d'informations sur la disponibilité régionale de Redshift Spectrum, consultez la page de tarification d'Amazon Redshift.

Q : En quoi l'utilisation d'AQUA est-elle différente de celle de Redshift Spectrum ?

Redshift Spectrum est conçu pour permettre d'exécuter des requêtes sur des formats ouverts stockés dans Amazon S3. Les formats ouverts peuvent être interrogés par divers moteurs, dont Amazon EMR qui prend en charge Apache Spark ou Amazon Athena qui offre une expérience sans serveur. Redshift Spectrum ne prend en charge ni les mises à jour transactionnelles ni le format Redshift natif optimisé utilisé pour stocker les données ingérées dans Redshift. L'utilisation de Redshift Spectrum nécessite la définition explicite d'une table externe alors qu'AQUA opère sur les tables natives de Redshift. Spectrum est idéal pour exécuter des requêtes peu fréquentes sur des données brutes de manière intégrée à partir d'un cluster Redshift.

AQUA permet à Redshift d'ANALYSER et d'AGRÉGER de larges volumes de données faisant partie de votre base de données Redshift. Même en cas d'utilisation d'AQUA, Redshift maintient le support des transactions, et AQUA exploite toujours les données les plus récentes.

Q : Qu'est-ce le stockage géré d'Amazon Redshift ?

Le stockage géré d’Amazon Redshift est disponible avec les types de nœuds RA3. Il vous permet également de mettre à l’échelle et de payer indépendamment le calcul et le stockage, ce qui fait que vous pouvez dimensionner votre cluster en fonction de vos besoins en calcul. Il utilise automatiquement un stockage local SSD à hautes performances comme cache de niveau 1 et tire profit des optimisations telles que la température des blocs de données, l’âge des blocs de données et les modèles de charge de travail afin d’offrir de hautes performances tout en dimensionnant automatiquement le stockage dans Amazon S3 lorsque cela est nécessaire et sans requérir aucune action de votre part.

Q : Comment utiliser le stockage géré d’Amazon Redshift ?

Si vous utilisez déjà les nœuds de stockage denses (DS) ou de calcul denses (DC) d’Amazon Redshift, vous pouvez mettre à niveau à clusters existants vers la nouvelle instance de calcul RA3 afin d’utiliser le stockage géré. Vous pouvez également créer un nouveau cluster basé sur l’instance RA3, et le stockage géré est alors automatiquement inclus. Aucune autre action n’est requise pour utiliser cette fonctionnalité.

Q : Comment Amazon Redshift simplifie-t-il la gestion des entrepôts de données ?

Amazon Redshift gère les tâches requises pour configurer, mettre en service et dimensionner un entrepôt de données. Par exemple, l'allocation des capacités d'infrastructure, l'automatisation des tâches d'administration continues telles que l'application des sauvegardes et correctifs, et la surveillance des nœuds et des lecteurs pour permettre la récupération en cas de défaillance. Redshift dispose également de capacités de réglage automatique et d'espaces de recommandations pour la gestion de votre entrepôt dans Redshift Advisor. Dans le cas de Redshift Spectrum, Amazon Redshift gère l'ensemble de l'infrastructure de calcul, de l'équilibrage de charge, de la planification, de la programmation et de l'exécution de vos requêtes portant sur les données stockées dans Amazon S3.

Q : En quoi les performances d'Amazon Redshift sont-elles différentes de celles de la plupart des bases de données sur site en matière d'entreposage de données et d'analyse ?

Amazon Redshift exploite différentes innovations pour aboutir à des performances jusqu'à 10 fois meilleures à celles des bases de données classiques pour l'entreposage des données et les charges de travail d'analyse. Les innovations incluses sont :

  • Stockage en colonne des données : au lieu de stocker les données en rangées successives, Amazon Redshift les classe sous forme de colonnes. Contrairement aux systèmes linéaires, qui conviennent parfaitement au traitement des transactions, les systèmes en colonnes sont mieux adaptés à l'entreposage et à l'analyse des données, où les interrogations impliquent souvent d'effectuer des agrégations sur de grands volumes de données. Seules les colonnes concernées par les interrogations sont traitées et les données en colonnes sont stockées de manière séquentielle sur le dispositif de stockage. Ainsi, les systèmes en colonnes nécessitent moins d'E/S, ce qui améliore considérablement les performances.
  • Fonction de compression avancée : les magasins de données en colonnes peuvent être compressés beaucoup plus facilement que les magasins de données linéaires, car les données similaires sont stockées sur disque de manière séquentielle. Amazon Redshift utilise plusieurs techniques de compression, ce qui permet souvent d'obtenir une compression plus performante que les magasins de données traditionnels. Lors du chargement des données dans une table vide, Amazon Redshift crée automatiquement des échantillons et sélectionne le schéma de compression le plus approprié.
  • Traitement massivement parallèle (MPP, Massively Parallel Processing) : Amazon Redshift répartit automatiquement la charge des données et requêtes sur tous les nœuds. Amazon Redshift simplifie l'ajout de nœuds à votre entrepôt de données et vous permet de conserver des performances d'interrogation élevées à mesure que votre entrepôt de données s'agrandit.
  • Redshift Spectrum : Redshift Spectrum vous permet d'exécuter des requêtes sur des exaoctets de données dans Amazon S3. Aucun chargement ni ETL n'est nécessaire. Même si vous ne stockez aucune donnée dans Amazon Redshift, vous pouvez utiliser Redshift Spectrum pour exécuter des requêtes sur des ensembles de données de l'ordre d'un exaoctet dans Amazon S3. Lorsque vous envoyez une requête, elle est dirigée vers le point de terminaison SQL d'Amazon Redshift, qui génère un plan de requête. Amazon Redshift détermine si les données sont stockées en local ou dans Amazon S3, génère un plan pour minimiser le volume de données d'Amazon S3 qui doivent être lues, demande à des programmes d'exécution Amazon Redshift Spectrum au sein d'un groupe de ressources partagées de lire et traiter les données provenant d'Amazon S3, puis redirige les résultats vers votre cluster Amazon Redshift pour les éventuelles tâches de traitement restantes.
  • Vues matérialisées : les vues matérialisées permettent de bénéficier de performances de requête beaucoup plus rapides en cas de charges de travail analytiques répétées et prévisibles, notamment, par la génération de tableaux de bord, les requêtes provenant d'outils d'informatique décisionnelle et le traitement de données de type ELT (Extract, Load, Transform). Grâce aux vues matérialisées, vous pouvez stocker les résultats pré-calculés des requêtes et les gérer efficacement en traitant, de manière incrémentielle, les dernières modifications apportées aux tables source. Les requêtes ultérieures qui référencent les vues matérialisées utilisent les résultats pré-calculés pour s'exécuter beaucoup plus rapidement, ainsi que l'actualisation automatique et les capacités de réécritures pour simplifier et automatiser l'utilisation des vues matérialisées. Les vues matérialisées peuvent être créées sur la base d'une ou plusieurs tables source à l'aide de filtres, de projections, de jointures internes, d'agrégations, de regroupements, de fonctions spécifiques et d'autres constructions SQL.
  • Évolutivité : les capacités de calcul et de stockage des entrepôts de données sur site sont limitées par les contraintes liées au matériel sur site. Redshift vous donne la possibilité de dimensionner les capacités de calcul et de stockage selon vos besoins pour répondre à l'évolution de vos charges de travail.
  • Automatic Table Optimization (ATO) est une capacité d'auto-réglage vous permettant de tirer profit des clés de tri et de distribution sans intervention manuelle. ATO observe la manière dont les requêtes interagissent avec les tables et utilise le machine learning pour sélectionner les meilleures clés de tri et de distribution afin d'optimiser les performances en fonction de la charge de travail du cluster. Si Redshift détermine que l'application d'une clé améliore les performances du cluster, les tables sont automatiquement modifiées en quelques heures sans nécessiter l'intervention de l'administrateur. Les optimisations issues de la fonctionnalité ATO ont permis d'augmenter les performances du cluster de 24 % et de 34 %, en utilisant respectivement les références TPC-DS de 3 To et de 30 To, comparé à un cluster non doté de la fonctionnalité ATO. Grâce aux fonctionnalités supplémentaires telles que Automatic Vacuum Delete, Automatic Table Sort et Automatic Analyze, il n'est plus nécessaire d'effectuer une maintenance manuelle ni de régler les clusters de Redshift afin d'obtenir les meilleures performances pour de nouveaux clusters et charges de travail en production.
  • Amazon Redshift Advisor élabore des recommandations personnalisées afin d'augmenter les performances et d'optimiser les coûts, en analysant votre charge de travail et les métriques d'utilisation de votre cluster. Connectez-vous à la console Amazon Redshift pour voir les recommandations Advisor. Pour en savoir plus, consultez la page Working with recommendations from Amazon Redshift Advisor.

Q : Comment démarrer avec Amazon Redshift ?

Vous pouvez vous inscrire et faire vos premiers pas en quelques minutes, à partir de la page de présentation d'Amazon Redshift ou d'AWS Management Console. Si vous n'avez pas encore de compte AWS, vous serez invité à en créer un. Rendez-vous sur la page Mise en route pour savoir comment essayer gratuitement Amazon Redshift.

Q : Comment créer et accéder à un cluster d'entrepôts de données Amazon Redshift ?

Vous pouvez facilement créer un cluster d'entrepôts de données Amazon Redshift à l'aide d'AWS Management Console ou des API Amazon Redshift. Vous pouvez commencer avec un entrepôt de données de 160 Go à un seul nœud, puis augmenter votre configuration pour atteindre jusqu'à un pétaoctet, en quelques clics dans AWS Console ou via un seul appel d'API.

La configuration à un seul nœud, qui est plus adaptée à l’évaluation ou au développement/test des charges de travail, vous permet une mise en route rapide et à moindres frais avec Amazon Redshift. Par la suite, vous procédez à une mise à l'échelle ascendante à mesure que vos besoins augmentent. Un cluster d'entrepôts de données Redshift peut contenir 1 à 128 nœuds de calcul, selon le type de nœud utilisé. Lorsqu'il s'agit des nœuds dernière génération, RA3, leur nombre minimal est de deux. Pour en savoir plus, veuillez consulter notre documentation.

La configuration à plusieurs nœuds requiert un nœud « leader » qui gère les connexions client et réceptionne les interrogations, et deux nœuds de calcul qui stockent les données et effectuent les interrogations et les calculs. Ce nœud « leader », dont la taille est identique à celle du nœud de calcul, est automatiquement dimensionné pour vous, sans aucuns frais.

Indiquez simplement votre zone de disponibilité (AZ) préférée (facultatif), le nombre de nœuds, un nom principal et un mot de passe, des groupes de sécurité, vos préférences en matière de rétention des sauvegardes, ainsi que d'autres paramètres système. Une fois que vous avez sélectionné la configuration de votre choix, Amazon Redshift met en service les ressources requises et configure votre cluster d'entrepôts de données.

Lorsque votre cluster d'entrepôts de données est disponible, vous pouvez récupérer son point de terminaison et une chaîne de connexion JDBC ou ODBC à partir d'AWS Management Console ou des API Redshift. Vous pouvez ensuite utiliser cette chaîne de connexion avec votre outil de base de données, langage de programmation ou outil d'informatique décisionnelle (BI) favori. Il vous faut également autoriser les demandes réseau vers votre cluster d'entrepôts de données en cours d'exécution. Pour une explication détaillée, reportez-vous à notre manuel de mise en route.

Q : Quelle est la capacité de stockage maximale par nœud de calcul ? Pour des performances optimales, quel est le volume de données recommandé par nœud de calcul ?

Vous pouvez créer un cluster à l'aide des types de nœud RA3, DC ou DS. Les types de nœuds RA3 vous permettent de dimensionner et de payer indépendamment le calcul et le stockage. Vous choisissez le nombre d'instances dont vous avez besoin en fonction des exigences de performances et vous ne payez que pour le stockage géré que vous utilisez.

Les types de nœuds RA3 sont disponibles dans trois tailles : RA3.16XL, RA3.4XL et RA3.XLPLUS. Chaque nœud RA3.16XL dispose de 48 vCPU et de 384 GiB de mémoire, et prend en charge 8 Go/s d'E/S. Ces deux types de clusters (RA3.16XL et RA3.4XL) fonctionnent avec un minimum de deux nœuds, et un cluster RA3.16XL ou RA3.4XL disposant de deux nœuds offre 256 To de stockage géré. Le quota de stockage géré pour les clusters RA3.16XL et RA3.4XL est de 128 To par nœud. Les clusters RA3.16XL peuvent mettre à l’échelle jusqu’à 128 nœuds, ce qui permet de créer un cluster avec jusqu'à 16 pétaoctets dans un stockage géré. Un nœud RA3.4XL dispose de 12 vCPU et de 96 GiB de mémoire, et prend en charge 2 Go/s d’E/S. Les clusters RA3.4XL peuvent dimensionner jusqu'à 64 nœuds, ce qui permet de créer un cluster avec jusqu'à 4 pétaoctets dans un stockage géré. Un nœud RA3.XLPLUS dispose de 4 processeurs virtuels et de 32 Gio de mémoire, et prend en charge 650 Mo d'E/S. Les clusters RA3.XLPLUS peuvent dimensionner jusqu'à 32 nœuds, ce qui permet de créer un cluster avec jusqu'à 5 pétaoctets dans un stockage géré. Remarque : toutes les tailles de stockage géré mentionnées ici sont pour des données compressées. Redshift compresse les données 3 ou 4 fois. Par conséquent, la taille des données décompressées est 3 ou 4 fois supérieure à ce qui est indiqué ici.

Les types de nœuds de calcul denses (DC) sont également disponibles dans deux tailles. Le modèle Large présente une capacité de stockage SSD de 160 Go, deux cœurs virtuels Intel Xeon E5-2670v2 (Ivy Bridge) et 15 Gio de RAM. Le modèle Eight Extra Large est seize fois plus grand, avec 2,56 To de stockage SSD, 32 cœurs virtuels Intel Xeon E5-2670v2 et 244 Gio de RAM. Vous pouvez commencer avec un seul nœud DC2.Large pour 0,25 USD de l'heure, puis augmenter votre configuration jusqu'à 128 nœuds 8XL avec 326 To de stockage SSD, 3 200 cœurs virtuels et 24 Tio de RAM.

Les types de nœuds de stockage dense (DS) sont disponibles en deux tailles différentes : Extra Large et Eight Extra Large. Les nœuds Extra Large (XL) comportent trois disques durs pour un total de 2 To sur bande magnétique, tandis que les nœuds Eight Extra Large (8XL) comportent 24 disques durs pour un total de 16 To sur bande magnétique. Les nœuds DS2.8XLarge comportent 36 cœurs virtuels Intel Xeon E5-2676 v3 (Haswell) et 244 Gio de RAM. Les nœuds DS2.XL, quant à eux, comportent quatre cœurs virtuels Intel Xeon E5-2676 v3 (Haswell) et 31 Gio de RAM.

Pour plus d'informations, consultez la page Tarification.

Q : Quand vaut-il mieux utiliser Amazon Redshift plutôt qu' Amazon RDS ?

Amazon Redshift et Amazon RDS vous permettent d'exécuter des bases de données relationnelles classiques dans le cloud tout en vous déchargeant de l'administration des bases de données. Les clients utilisent les bases de données Amazon RDS principalement pour la charge de travail de traitement de transactions en ligne (OLTP), tandis qu'ils utilisent principalement Redshift pour la création de rapports et les analyses. Les charges de travail de traitement de transactions en ligne nécessitent d’interroger rapidement des informations spécifiques et prennent en charge des transactions telles que l’insertion, la mise à jour et la suppression, et sont mieux gérées par Amazon RDS. Amazon Redshift tire parti de la portée et des ressources de plusieurs nœuds et fait appel à différentes techniques d'optimisation pour permettre une amélioration considérable par rapport aux bases de données classiques en matière d'analyse et de génération de rapports lorsqu'il s'agit de traiter des ensembles de données très volumineux. Amazon Redshift propose une option exceptionnelle de dimensionnement ascendant vous permettant de répondre à la complexité croissante de vos données et interrogations, et de ne pas entraver les performances de votre charge OLTP avec les tâches d'analyse et de génération de rapports. Désormais, avec la nouvelle fonctionnalité de requête fédérée, vous pouvez facilement interroger des données sur vos services de base de données Amazon RDS ou Aurora avec Amazon Redshift.

Q : Quand vaut-il mieux utiliser Amazon Redshift ou Redshift Spectrum plutôt qu' qu’Amazon EMR ?

Choisissez Amazon EMR si vous utilisez du code personnalisé pour traiter et analyser des ensembles de données extrêmement volumineux avec des infrastructures de traitement de Big Data telles qu'Apache Spark, Hadoop, Presto ou Hbase. Amazon EMR vous permet de contrôler entièrement la configuration de vos clusters et les logiciels installés sur ceux-ci.

Les entrepôts de données tels qu'Amazon Redshift sont conçus pour un tout autre type d'analyse. Les entrepôts de données visent à rassembler des données de sources très diverses, issues par exemple de systèmes d'inventaire, de gestion financière ou de vente au détail. Pour garantir un enregistrement des données exact et cohérent dans l'ensemble de l'entreprise, les entrepôts de données stockent les informations de manière très structurée. Cette structure permet d'intégrer des règles de cohérence des données directement dans les tables de la base de données. Amazon Redshift est le service à utiliser lorsque vous devez exécuter des requêtes complexes sur des ensembles volumineux de données structurées et semi-structurées tout en bénéficiant de performances rapides.

La fonctionnalité Redshift Spectrum est très efficace pour exécuter des requêtes sur des données stockées dans Amazon Redshift et S3, mais n'est pas vraiment adaptée aux cas d'utilisation typiques des entreprises qui font appel aux infrastructures de traitement Amazon EMR. Amazon EMR fait bien plus qu'exécuter des requêtes SQL. Amazon EMR est un service géré qui vous permet de traiter et d'analyser des ensembles de données extrêmement volumineux avec les dernières versions des infrastructures de traitement de Big Data les plus populaires telles que Spark, Hadoop et Presto, sur la base de clusters entièrement personnalisables. Avec Amazon EMR, vous pouvez exécuter un grand nombre de tâches de traitement de données avec montée en charge pour des applications telles que le machine learning, l'analyse graphique, la transformation de données, la diffusion de données et quasiment toutes les opérations que vous pouvez coder.

Vous pouvez aussi utiliser Redshift Spectrum avec EMR. Redshift Spectrum adopte la même approche qu'Amazon EMR pour le stockage des définitions des tables. Redshift Spectrum peut prendre en charge le même Apache Hive Metastore que celui utilisé par Amazon EMR pour localiser les définitions de données et de tables. Si vous utilisez Amazon EMR et avez déjà un Hive Metastore, il vous suffit de configurer votre cluster Amazon Redshift afin de l'utiliser. Vous pouvez alors commencer sans attendre à exécuter des requêtes sur ces données, en parallèle de vos tâches Amazon EMR. Par conséquent, si vous utilisez déjà EMR pour traiter un gros volume de données, vous pouvez simultanément utiliser Redshift Spectrum pour exécuter des requêtes sur ces données sans interférer avec vos tâches Amazon EMR.

Que ce soit les services de requête, les entrepôts de données ou les infrastructures de traitement des données complexes, tous ont leur utilité, même si leurs applications sont différentes. Vous devez donc sélectionner l'outil le plus approprié pour vos tâches.

Q : Quand dois-je utiliser Amazon Athena plutôt que Redshift Spectrum ?

Amazon Athena est la solution la plus simple pour permettre à tous vos employés d'exécuter ponctuellement des requêtes sur des données stockées dans Amazon S3. Athena ne requiert aucun serveur : vous pouvez donc commencer à analyser les données immédiatement, sans avoir à configurer ni gérer d'infrastructure.

Si vous accédez fréquemment à certaines données qui doivent être stockées dans un format cohérent et très structuré, nous vous conseillons d'utiliser un entrepôt de données tel qu'Amazon Redshift. Vous avez ainsi la possibilité de stocker les données structurées auxquelles vous accédez fréquemment dans Amazon Redshift, et d'utiliser Redshift Spectrum pour étendre vos requêtes Amazon Redshift à l'ensemble des données de votre lac de données Amazon S3. Ainsi, vous pouvez stocker les données où vous le souhaitez, dans n'importe quel format et prêtes à être traitées quand vous en avez besoin.

Q : Pourquoi devrais-je utiliser Amazon Redshift plutôt que mon propre cluster d'entrepôts de données MPP sur Amazon EC2 ?

Amazon Redshift gère automatiquement bon nombre des tâches habituellement chronophages associées à la gestion de votre entrepôt de données, notamment :
  • Configuration : avec Amazon Redshift, il vous suffit de créer un cluster d'entrepôts de données, de définir votre schéma, puis de charger et d'interroger vos données. Vous n’avez à gérer ni l’allocation, ni la configuration, ni l’application de correctifs.
  • Durabilité des données : Amazon Redshift réplique vos données au sein de votre cluster d'entrepôts de données et procède à une sauvegarde continue de vos données vers un compartiment Amazon S3, lequel est conçu pour fournir une disponibilité de 99,999999999 % (« 11 neuf »). Amazon Redshift met en miroir les données de chaque lecteur sur les autres nœuds présents dans votre cluster. En cas d'échec d'un lecteur, vos interrogations se poursuivent, avec une légère augmentation de la latence, tandis que Redshift reconstitue votre lecteur à partir des réplicas. En cas de défaillance d'un ou plusieurs nœuds, Amazon Redshift met automatiquement en service de nouveaux nœuds et commence à restaurer les données des autres lecteurs au sein du cluster ou à partir d'Amazon S3. Vos données les plus fréquemment interrogées sont restaurées en priorité, afin que les interrogations les plus souvent exécutées soient rapidement performantes.
  • Dimensionnement : vous pouvez ajouter ou supprimer des nœuds de votre cluster d'entrepôts de données Amazon Redshift à partir d'un seul appel d'API ou en quelques clics dans AWS Management Console, afin de répondre à l'évolution de vos besoins en termes de capacités et de performances. Vous pouvez également planifier vos opérations de dimensionnement et de redimensionnement à l'aide de la fonction de planification dans Redshift.
  • Application automatique des mises à jour et des correctifs : Amazon Redshift applique automatiquement les mises à jour et les correctifs à votre entrepôt de données afin que vous puissiez rester concentré sur votre application, et non sur son administration.
  • Requêtes pouvant porter sur des exaoctets de données : Redshift Spectrum vous permet d'exécuter des requêtes sur des exaoctets de données dans Amazon S3. Aucun chargement ni ETL n'est nécessaire. Même si vous ne stockez aucune donnée dans Amazon Redshift, vous pouvez utiliser Redshift Spectrum pour exécuter des requêtes sur des ensembles de données de l'ordre d'un exaoctet dans Amazon S3.

Facturation

Q : Comment mon utilisation d'Amazon Redshift me sera-t-elle facturée ?

Vous ne payez que ce que vous utilisez et il n'y a pas de frais minimums ou d'installation. Amazon Redshift prend en charge la capacité de mettre en pause ou de relancer un cluster, vous permettant ainsi de suspendre facilement la facturation à la demande pendant que le cluster n'est pas utilisé. Par exemple, le cluster utilisé pour le développement peut avoir une facturation calculée suspendue lorsqu’il n’est pas utilisé. Lorsque le cluster est en pause, vous n’êtes facturé que pour le stockage du cluster. Pour les charges de travail régulières en production, vous pouvez réaliser d’importantes économies par rapport à la tarification à la demande en passant aux instances réservées.

La facturation débute dès que le cluster d'entrepôts de données est disponible. La facturation continue jusqu'à ce que le cluster d'entrepôts de données soit résilié, c'est-à-dire lors de sa suppression ou dans le cas d'une instance défaillante. Vous êtes facturé sur la base des éléments suivants :

  • Heures d'utilisation des nœuds de calcul : les heures d'utilisation des nœuds de calcul correspondent au nombre total d'heures pendant lesquelles vous exécutez tous vos nœuds de calcul, au cours de la période de facturation. Des heures d'utilisation des nœuds vous sont facturées pour chaque heure durant laquelle votre cluster d'entrepôts de données s'exécute à l'état disponible. Si vous ne souhaitez plus payer de frais pour votre cluster d'entrepôts de données, vous devez mettre fin à votre cluster afin qu'aucune heure supplémentaire d'utilisation de nœud ne vous soit facturée. Les heures partielles d'utilisation de nœud sont facturées comme des heures entières. Vous êtes facturé 1 unité par nœud et par heure. Ainsi, un cluster d'entrepôts de données à 3 nœuds exécutés en permanence pendant un mois équivaut à 2 160 heures d'instance. Les heures d'utilisation des nœuds « leader » ne font l'objet d'aucuns frais. Seuls les nœuds de calcul sont facturables.
  • Stockage géré : vous payez les données stockées dans le stockage géré à un taux par Go-mois fixe pour votre région. Le stockage géré comprend exclusivement des types de nœuds RA3 et vous payez le même tarif réduit pour le stockage géré Redshift, quelle que soit la taille des données. L’utilisation de stockage géré est calculée sur une base horaire en fonction des données totales présentes dans le stockage géré. Vous pouvez surveiller la quantité de données de votre cluster RA3 via Amazon CloudWatch ou AWS Management Console. Vous ne payez aucuns frais de transfert de données entre les nœuds RA3 et le stockage géré. Les frais de stockage géré n'incluent pas les frais de stockage de sauvegarde dus aux instantanés automatiques et manuels. Une fois le cluster supprimé, la conservation de vos sauvegardes manuelles continuera de vous être facturée.
  • Stockage de sauvegarde : stockage associé aux instantanés issus de votre entrepôt de données. L'allongement de votre période de conservation des sauvegardes ou la capture d'instantanés supplémentaires augmente le volume du stockage de sauvegarde consommé par votre entrepôt de données. Redshift facture les instantanés manuels que vous prenez en utilisant la console, l'API ou l'interface en ligne de commande. Les instantanés automatiques de Redshift, créés à l'aide de la fonctionnalité de planification des instantanés de Redshift, ne sont pas facturés. Les données stockées sur les clusters RA3 font partie du stockage géré Redshift (RMS) et sont facturées selon les taux de RMS, mais les instantanés manuels pris pour les clusters RA3 sont facturés en tant que stockage de sauvegarde aux taux Amazon S3 standards énoncés sur cette page. Par exemple, si votre cluster RA3 possède 10 To de données et 30 To d'instantanés manuels, vous serez facturé pour 10 To de RMS et 30 To de stockage de sauvegarde. Avec les clusters de calcul dense (DC) et de stockage dense (DS), le stockage est inclus dans le cluster et n'est pas facturé séparément, mais les sauvegardes sont stockées de manière externe dans S3. Le stockage de sauvegarde dépassant la taille de stockage fournie dans les clusters DC et DS est facturé en tant que stockage de sauvegarde aux tarifs standard d'Amazon S3. Les instantanés sont facturés jusqu'à leur expiration ou leur suppression, y compris lorsque le cluster est mis en pause ou supprimé.
  • Transfert de données : aucuns frais ne s'appliquent au transfert de données vers ou en provenance d'Amazon Redshift et d'Amazon S3 dans la même région d'AWS. Pour tous les transferts de données vers et à partir d'Amazon Redshift, les tarifs de transfert de données AWS standard s'appliqueront.
  • Données analysées : avec Redshift Spectrum, seule la quantité de données Amazon S3 analysée pour exécuter votre requête vous est facturée. Redshift Spectrum ne coûte rien quand vous n'exécutez pas de requêtes. Si vous stockez les données dans un format orienté colonnes tel que Parquet ou RC, vos frais seront inférieurs, car Redshift Spectrum analysera uniquement les colonnes nécessaires pour la requête au lieu de traiter les lignes en entier. De même, vos coûts diminueront si vous compressez vos données en utilisant l'un des formats pris en charge par Redshift Spectrum. Nous appliquons les tarifs Amazon S3 standard pour le stockage de données et les tarifs d'instance Amazon Redshift pour le cluster utilisé.
  • Adaptation de la simultanéité : Avec l'Adaptation de la simultanéité, Redshift ajoute automatiquement de la capacité transitoire pour fournir des performances rapides en permanence, même en présence de milliers de requêtes et d'utilisateurs simultanés. Il n'y a ni ressources à gérer ni coûts initiaux, et les temps de démarrage et d'arrêt des clusters transitoires ne vous sont pas facturés. Vous pouvez accumuler une heure de crédits de cluster d'adaptation de la simultanéité toutes les 24 heures lorsque votre cluster principal est en cours d'exécution. Vous êtes facturés un tarif à la demande par seconde pour tout cluster transitoire d'adaptation de la simultanéité utilisé en sus de votre crédit gratuit, et ce uniquement si vous utilisez ledit cluster pour vos requêtes. Par ailleurs, vous payez un coût minimal d'une minute à chaque activation d'un cluster d'adaptation de la simultanéité. Le tarif à la demande par seconde est basé sur le type et le nombre de nœuds existant dans votre cluster Amazon Redshift.

Sauf indication contraire, nos prix n'incluent pas les taxes et redevances applicables, y compris la TVA et les taxes sur les ventes applicables. Pour les clients dont l'adresse de facturation est située au Japon, l'utilisation de services AWS est soumise à la taxe sur la consommation applicable dans ce pays. En savoir plus.

Pour connaître les tarifs d'Amazon Redshift, consultez la page de tarification d'Amazon Redshift.

Intégration et chargement des données

Q : Comment charger des données dans un entrepôt Amazon Redshift ?

Vous pouvez charger les données dans Amazon Redshift à partir de diverses sources de données, notamment Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline et/ou tout hôte compatible SSH, sur Amazon EC2 ou sur site. Amazon Redshift tente de charger vos données en parallèle dans chaque nœud de calcul afin d'optimiser le taux d'absorption des données dans votre cluster d'entrepôts de données. Les clients peuvent se connecter à Amazon Redshift à partir d'ODBC ou de JDBC, puis lancer des commandes SQL « Insert » afin d'insérer les données. Notez, toutefois, que cette méthode est plus lente que d'utiliser les services S3 ou DynamoDB. En effet, ces services chargent les données en parallèle sur chaque nœud de calcul, tandis que les instructions SQL Insert effectuent le chargement à partir d'un seul et même nœud « leader ». Pour en savoir plus sur le chargement de données dans Amazon Redshift, consultez notre manuel de mise en route.

Q : Comment charger des données dans Amazon Redshift à partir de mes sources de données Amazon RDS, Amazon EMR, Amazon DynamoDB et Amazon EC2 existantes ?

Vous pouvez utiliser notre commande COPY pour charger des données en parallèle directement dans Amazon Redshift depuis Amazon EMR, Amazon DynamoDB ou tout hôte compatible SSH. Redshift Spectrum vous permet également de charger des données dans votre cluster depuis Amazon S3 via une simple commande INSERT INTO. Vous avez ainsi la possibilité de charger dans votre cluster des données correspondant à différents formats, notamment Parquet et RC. Notez cependant que cette approche entraîne une augmentation des frais Redshift Spectrum pour les données analysées depuis Amazon S3. 

En outre, de nombreuses sociétés d'ETL ont certifié qu'Amazon Redshift pouvait être utilisé avec leurs outils, et beaucoup d'entre elles proposent des essais gratuits pour vous aider à débuter dans le chargement de vos données. AWS Data Pipeline propose une solution performante, fiable et tolérante aux pannes permettant de charger des données à partir de diverses sources de données AWS, comme Amazon RDS vers Redshift. Vous pouvez utiliser AWS Data Pipeline pour spécifier la source de données et les transformations que vous souhaitez apporter à vos données, puis exécuter un script d'importation pré-écrit afin de charger vos données dans Amazon Redshift. En outre, AWS Glue est un service d'extraction, de transformation et de chargement (ETL) entièrement géré qui facilite la préparation et le chargement des données pour analyse. Vous pouvez créer et exécuter une tâche ETL AWS Glue en quelques clics grâce à AWS Management Console.

Q : Je dispose d'un grand volume de données à charger pour la première fois dans Amazon Redshift. Le transfert par Internet prendrait beaucoup de temps. Comment puis-je charger ces données ?

Vous pouvez utiliser AWS Snowball afin de transférer les données vers Amazon S3 à partir de périphériques de stockage portables. Vous pouvez également utiliser AWS Direct Connect afin d'établir une connexion réseau privée entre AWS et votre réseau ou centre de données. Pour transférer vos données, vous avez le choix entre les ports de connexion à 1 Gbit/s ou 10 Gbits/s.

Sécurité

Q : Comment Amazon Redshift assure-t-il la sécurité de mes données ?

Amazon Redshift prend en charge la sécurité de pointe du secteur avec l’intégration native à AWS IAM, la fédération d’identité pour l’authentification unique (Signle-Sign On, SSO), l’authentification multi-facteurs, le contrôle d’accès au niveau de la colonne, Amazon Virtual Private Cloud (Amazon VPC), et offre une intégration native à AWS KMS afin de protéger vos données en transit et au repos. Amazon Redshift crypte vos données et protège à la fois vos données en transit et au repos à l'aide de techniques de cryptage standard. Pour assurer la sécurité de vos données en transit, Amazon Redshift prend en charge les connexions SSL entre votre application cliente et votre cluster d'entrepôts de données Amazon Redshift. Pour assurer la sécurité de vos données au repos, Amazon Redshift crypte chaque bloc à mesure qu'il est écrit sur le disque à l'aide du cryptage AES 256 avec accélération matérielle. Cette opération a lieu à un niveau inférieur du sous-système d'E/S, qui crypte toutes les données écrites sur le disque, y compris les résultats intermédiaires des interrogations. Les blocs sont sauvegardés « en l'état », ce qui signifie que les sauvegardes sont également cryptées. Par défaut, Amazon Redshift se charge de la gestion des clés. Néanmoins, vous avez la possibilité de gérer vos clés via AWS Key Management Service. Toutes les fonctionnalités de sécurité d'Amazon Redshift sont fournies sans frais supplémentaires. Redshift Spectrum prend en charge la fonctionnalité de chargement côté serveur (Server Side Encryption, SSE) d'Amazon S3 à l'aide de la clé par défaut de votre compte, gérée par le service AWS Key Management Service (KMS).

Q : Redshift prend-t-il en charge les contrôles précis des accès tels que la sécurité au niveau des colonnes ?

Oui. Les contrôles précis de sécurité au niveau des colonnes garantissent que les utilisateurs ne voient que les données auxquelles ils doivent avoir accès. Amazon Redshift prend en charge le contrôle des accès au niveau des colonnes des tables locales pour que vous puissiez contrôler l'accès aux différentes colonnes d'une table, ou afficher les autorisations et révocations des privilèges au niveau des colonnes d'un utilisateur ou d'un groupe d’utilisateurs. Redshift est intégré à AWS Lake Formation, garantissant que les contrôles d'accès au niveau des colonnes de Lake Formation sont également appliqués pour les requêtes Redshift sur les données dans le lac de données.

Q : Amazon Redshift prend-il en charge le masquage des données ou la segmentation en jetons des données ?

Les fonctions définies par l'utilisateur (UDF) d'Amazon Lambda vous permettent d'utiliser une fonction AWS Lambda comme une UDF dans Amazon Redshift et de l'appeler avec les requêtes SQL de Redshift. Avec cette fonctionnalité, vous pouvez écrire des extensions personnalisées pour votre requête SQL afin de renforcer l'intégration avec d'autres services ou des produits tiers. Vous pouvez écrire des UDF Lambda pour permettre la segmentation en jetons externe, le masquage des données, l'identification ou la désidentification des données, en intégrant des fournisseurs comme Protegrity, et protéger ou déprotéger les données sensibles en fonction des groupes et des permissions de l'utilisateur au moment de la requête.

Q : Redshift prend-t-il en charge l'authentification unique ?

Oui. Les clients qui souhaitent utiliser leurs fournisseurs d'identité d'entreprise tels que Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate ou tout autre fournisseur d'identité compatible avec SAML peuvent configurer Amazon Redshift afin de proposer l'authentification unique.

Q : Comment Redshift prend-t-il en charge l'authentification unique avec Microsoft Azure Active Directory ?

Vous pouvez vous connecter au cluster Amazon Redshift avec des identités Microsoft Azure Active Directory (AD). Cela vous permet de vous connecter à Redshift sans dupliquer ces identités Azure Active Directory dans Redshift.

Q : Amazon Redshift prend-t-il en charge l'authentification multi-facteurs (MFA) ?

Oui. Vous pouvez utiliser l'authentification multi-facteurs (MFA) pour plus de sécurité au moment de vous identifier pour entrer dans votre cluster Amazon Redshift.

Q : Puis-je utiliser Amazon Redshift dans Amazon Virtual Private Cloud (Amazon VPC) ?

Oui, vous pouvez utiliser Amazon Redshift dans le cadre de votre configuration de VPC. Avec Amazon VPC, vous pouvez définir une topologie virtuelle de réseau qui ressemble étroitement à un réseau traditionnel que vous pourriez faire fonctionner dans votre propre centre de données. Vous disposez ainsi d'un contrôle total sur les utilisateurs pouvant accéder à votre cluster d'entrepôts de données Amazon Redshift. Vous pouvez utiliser Redshift Spectrum avec un cluster Amazon Redshift faisant partie de votre VPC.

Q : Puis-je accéder à mes nœuds de calcul Amazon Redshift directement ?

Non. Vos nœuds de calcul Amazon Redshift se trouvent dans un espace réseau privé et sont uniquement accessibles à partir du nœud « leader » de votre cluster d'entrepôts de données. Cela permet d'ajouter une couche de sécurité supplémentaire pour vos données.

Disponibilité et durabilité

Q : Si le lecteur associé à l'un de mes nœuds est défaillant, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

Amazon Redshift détecte automatiquement le nœud en échec dans votre cluster d'entrepôts de données et le remplace. Le cluster d'entrepôts de données reste indisponible pour les interrogations et les mises à jour jusqu'à ce qu'un nœud de remplacement soit mis en service et ajouté à la base de données. Amazon Redshift rend votre nœud de remplacement immédiatement disponible et charge vos données les plus fréquemment consultées à partir d'Amazon S3 afin que vous puissiez reprendre l'interrogation des données aussi rapidement que possible. Les clusters ne comportant qu'un nœud ne prennent pas en charge la réplication des données. En cas de défaillance d'un disque, vous devrez restaurer le cluster à partir d'un instantané stocké dans S3. Nous vous recommandons donc d'utiliser au moins deux nœuds en mode production.

Q : Si un nœud échoue de manière isolée, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

Amazon Redshift détecte automatiquement le nœud en échec dans votre cluster d'entrepôts de données et le remplace. Le cluster d'entrepôts de données reste indisponible pour les interrogations et les mises à jour jusqu'à ce qu'un nœud de remplacement soit mis en service et ajouté à la base de données. Amazon Redshift rend votre nœud de remplacement immédiatement disponible et charge vos données les plus fréquemment consultées à partir d'Amazon S3 afin que vous puissiez reprendre l'interrogation des données aussi rapidement que possible. Les clusters ne comportant qu'un nœud ne prennent pas en charge la réplication des données. En cas de défaillance d'un disque, vous devrez restaurer le cluster à partir d'un instantané stocké dans S3. Nous vous recommandons donc d'utiliser au moins deux nœuds en mode production.

Q : En cas de panne au niveau de la zone de disponibilité (AZ) de mon cluster d'entrepôts de données, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

Si la zone de disponibilité de votre cluster d'entrepôts de données Amazon Redshift n'est plus disponible, Amazon Redshift va automatiquement transférer votre cluster vers une autre zone de disponibilité AWS (AZ) sans entraîner des pertes de données ou des changements de l'application. Pour activer cette procédure, vous devez activer la capacité de transfert dans les paramètres de configuration de votre cluster.

Q : Amazon Redshift prend-il en charge les déploiements multi-AZ ?

Actuellement, Amazon Redshift prend uniquement en charge les déploiements mono-AZ. Vous pouvez exécuter vos clusters d'entrepôts de données dans plusieurs zones de disponibilité en chargeant les données dans deux clusters d'entrepôts de données Amazon Redshift situés dans différentes zones de disponibilité (AZ) à partir du même ensemble de fichiers d'entrée Amazon S3. Avec Redshift Spectrum, vous pouvez utiliser plusieurs clusters sur différentes zones de disponibilité et accéder à vos données dans Amazon S3 sans avoir à les charger dans votre cluster. Vous pouvez également restaurer un cluster d'entrepôts de données dans une autre zone de disponibilité depuis vos instantanés de cluster d'entrepôts de données.

Sauvegarde et restauration

Q : Comment Amazon Redshift procède-t-il pour sauvegarder mes données ? Comment restaurer mon cluster à partir d'une sauvegarde ?

Amazon Redshift réplique toutes vos données au sein de votre cluster d'entrepôts de données lors de leur chargement, tout en continuant à sauvegarder vos données dans Amazon S3. Amazon Redshift tente toujours de conserver au moins trois copies de vos données (l'original et le réplica sur les nœuds de calcul, ainsi qu'une sauvegarde dans Amazon S3). Redshift peut également répliquer vos instantanés (snapshots) de façon asynchrone sur S3, dans une autre région, à des fins de reprise après sinistre.

Par défaut, Amazon Redshift active la sauvegarde automatique de votre cluster d'entrepôts de données avec une période de rétention d'une journée. Vous pouvez modifier ce paramètre afin de prolonger la sauvegarde jusqu'à 35 jours.

Le stockage de sauvegarde gratuit est limité à la taille totale du stockage sur les nœuds appartenant au cluster d'entrepôts de données. Il s'applique uniquement aux clusters d'entrepôts de données actifs. Par exemple, pour un stockage total de 8 To d'entrepôts de données, nous fournissons jusqu'à 8 To de stockage de sauvegarde sans frais supplémentaires. Si vous souhaitez prolonger la période de rétention au-delà d'une journée, utilisez AWS Management Console ou les API Amazon Redshift. Pour en savoir plus sur les instantanés automatiques, consultez le manuel Management Guide d'Amazon Redshift. Amazon Redshift sauvegarde uniquement les données qui ont été modifiées. Ainsi, la plupart des instantanés (snapshots) n'utilisent qu'une faible portion de votre stockage de sauvegarde gratuit.

Lorsque vous avez besoin de restaurer une sauvegarde, vous avez accès à toutes les sauvegardes automatisées dans votre fenêtre de conservation des sauvegardes. Une fois que vous avez choisi la sauvegarde à partir de laquelle procéder à la restauration, nous mettons en service un nouveau cluster d'entrepôts de données et restaurons vos données sur celui-ci.

Q : Comment gérer la rétention de mes sauvegardes et instantanés (snapshots) automatiques ?

Vous pouvez utiliser AWS Management Console ou l'API ModifyCluster pour gérer la période pendant laquelle vos sauvegardes automatiques sont conservées via le paramètre RetentionPeriod. Si vous souhaitez désactiver complètement les sauvegardes automatiques, vous pouvez définir la période de rétention sur 0 (bien que cette option ne soit pas recommandée).

Q : Qu'arrive-t-il à mes sauvegardes si je supprime mon cluster d'entrepôts de données ?

Lorsque vous supprimez un cluster d'entrepôt de données, vous avez la possibilité de spécifier si un instantané final est créé lors de la suppression. Cela permet d'effectuer une restauration ultérieure du cluster d'entrepôt de données supprimé. Tous les instantanés de votre cluster d'entrepôts de données que vous aurez créés manuellement seront conservés et facturés selon les tarifs standard d'Amazon S3, sauf si vous choisissez de les supprimer.

Scalabilité

Q : Comment puis-je dimensionner mon cluster d'entrepôts de données Amazon Redshift et mettre à l'échelle ses performances ?

Si vous souhaitez augmenter les performances d'interrogation ou remédier à une surutilisation de la CPU, de la mémoire ou des E/S, vous pouvez augmenter le nombre de nœuds figurant dans votre cluster d'entrepôts de données à l'aide du redimensionnement Elastic via AWS Management Console ou l'API ModifyCluster. Les modifications que vous apportez à votre cluster d'entrepôts de données sont immédiatement appliquées. Les mesures relatives à l'utilisation des capacités de calcul et de stockage, ainsi qu'au trafic en lecture/écriture de votre cluster d'entrepôts de données Amazon Redshift, sont disponibles gratuitement via AWS Management Console ou les API Amazon CloudWatch. Vous pouvez également ajouter des mesures supplémentaires que vous aurez définies, via la fonctionnalité de mesures personnalisées d'Amazon CloudWatch.

Avec la fonctionnalité d'adaptation de la simultanéité, vous pouvez prendre en charge un nombre illimité d'utilisateurs et de requêtes simultanés, avec des performances de requête constamment élevées. Lorsque l'adaptation de la simultanéité est activée, Amazon Redshift ajoute automatiquement une capacité de cluster supplémentaire lorsque vous en avez besoin pour traiter une augmentation du nombre de requêtes de lecture simultanées.

Avec Redshift Spectrum, vous pouvez exécuter plusieurs clusters Amazon Redshift accédant aux mêmes données dans Amazon S3. Il est ainsi possible de faire appel à différents clusters selon les cas d'utilisation. Par exemple, vous pouvez utiliser un cluster pour la génération de rapports standard, et un autre pour les requêtes de science des données. Votre équipe marketing peut avoir ses propres clusters, bien distincts de ceux de l'équipe opérationnelle. Redshift Spectrum répartit automatiquement l'exécution de la requête entre plusieurs programmes d'exécution Redshift Spectrum au sein d'un groupe de ressources partagées, chargés de lire et traiter les données provenant d'Amazon S3, puis redirige les résultats vers votre cluster Amazon Redshift pour les éventuelles tâches de traitement restantes.

Q : Mon cluster d'entrepôts de données restera-t-il disponible pendant le dimensionnement ?

Cela dépend. Lorsque vous utilisez la fonctionnalité d'adaptation de la simultanéité, le cluster est entièrement disponible en lecture et en écriture lors de l'adaptation de la simultanéité. Avec le redimensionnement Elastic, le cluster est indisponible quatre à huit minutes pendant la période de redimensionnement. Grâce à l'élasticité du stockage Redshift RA3 dans le stockage géré, le cluster est entièrement disponible et les données sont automatiquement transférées entre les nœuds de calcul et de stockage géré.

Q : Qu'est-ce que le partage de données d'Amazon Redshift ?

Le partage de données d'Amazon Redshift permet de partager facilement et en toute sécurité les données en direct dans Redshift. Il améliore l'agilité des organisations en leur fournissant un accès instantané, granulaire et de haute performance aux données contenues dans tout cluster Redshift, sans devoir les copier ou les déplacer, et fournit un accès direct aux données afin que les utilisateurs puissent voir les informations les plus récentes et cohérentes, actualisées dans le cluster. Grâce au partage de données, vous pouvez rapidement intégrer de nouvelles charges de travail d'analyse et leur allouer des ressources de calcul isolées pour répondre à vos SLA de performances tout en leur permettant d'accéder aux données communes. Outre le partage de données au sein d'organisations, le partage de données permet également une collaboration sûre et dirigée d'une organisation à l'autre, ainsi qu'avec des collaborateurs externes. Les utilisations fréquentes du partage de données incluent la configuration d'un cluster ETL central afin de partager des données avec de nombreux clusters BI pour fournir un isolement de la charge de travail lue et une rétrofacturation ; la mise à disposition des données en tant que service ainsi que le partage de données avec des clients externes et des groupes commerciaux d'une même organisation partageant et travaillant sur des données afin d'y apporter différents éclairages ; et le partage de données entre les environnements de développement, de test et de production. Pour en savoir plus et faire vos premiers pas, consultez la documentation Redshift.  

Q : Qu'est-ce que les requêtes inter-bases de données dans Redshift ?

Avec les requêtes inter-bases de données, vous pouvez rechercher des données et y accéder sans problème dans toutes les bases de données Redshift auxquelles vous avez accès, peu importe la base de données à laquelle vous êtes connecté. Cela concerne tant les bases de données locales sur le cluster que les jeux de données partagés disponibles sur des clusters distants. Les requêtes inter-bases de données vous offrent la flexibilité nécessaire pour organiser vos données dans différentes bases afin de permettre les configurations à locataires multiples.

Q : Quand les clients doivent ils utiliser l'adaptation de la simultanéité ou le partage des données ?

Le partage des données et l'adaptation de la simultanéité sont des fonctionnalités complémentaires. Avec l'adaptation de la simultanéité, Redshift vous permet de dimensionner automatiquement une ou plusieurs charges de travail dans un cluster unique afin de gérer une grande simultanéité et les pics de requêtes. Redshift augmente automatiquement et de manière élastique la capacité en quelques secondes afin de gérer les pics d'activité des utilisateurs, et la diminue lorsque l'activité baisse. Les applications continuent à interagir avec Redshift en utilisant un seul point de terminaison de l'application. Le partage de données vous permet de mettre à l'échelle pour traiter diverses charges de travail issues de plusieurs clusters et déployées par divers comptes. Cela permet l'isolement de la charge de travail, la facturation, la collaboration de divers groupes dans des environnements décentralisés et la mise à disposition des données en tant que service pour les parties prenantes internes et externes. Vous pouvez activer l'adaptation de la simultanéité tant sur les clusters des initiateurs du partage de données que sur les clusters des consommateurs.

Simultanéité

Q : Comment gérer les ressources pour veiller à ce que mon cluster Redshift puisse fournir des performances rapides en permanence pendant les périodes de simultanéité élevée ?

Un entrepôt de données type présente une divergence importante dans l'utilisation simultanée de requêtes au cours d'une journée. Il est plus rentable d'ajouter des ressources uniquement pour la période au cours de laquelle elles sont nécessaires plutôt que d'en allouer aux pics de demande. Amazon Redshift gère automatiquement cela en votre nom.

L'adaptation de la simultanéité est une fonctionnalité d'Amazon Redshift, qui offre des performances de requête toujours élevées, même en présence de milliers de requêtes simultanées. Avec cette fonctionnalité, Amazon Redshift ajoute automatiquement une capacité transitoire dès lors qu'il faut gérer une demande importante. Amazon Redshift achemine automatiquement les requêtes vers des clusters de dimensionnement, qui sont mis en service en quelques secondes et commencent à traiter les requêtes immédiatement.

Cette fonctionnalité est gratuite pour la plupart des clients. Chaque cluster Amazon Redshift bénéficie d'une heure de crédit d'adaptation de la simultanéité gratuit au maximum par jour. Cela vous donne une prévisibilité dans vos coûts mensuels, et ce, même pendant les périodes de fluctuation de la demande en analyse.

Q : Qu'est-ce que le redimensionnement Elastic et en quoi diffère-t-il de l'adaptation de la simultanéité ?

Elastic Resize ajoute ou supprime des nœuds d'un seul cluster Redshift en quelques minutes pour gérer son débit de requêtes. Par exemple, un workload ETL durant certaines heures d'un rapport de fin de journée ou de mois peut requérir des ressources Redshift supplémentaires pour être finalisé à temps. L'adaptation de la simultanéité ajoute des ressources de cluster supplémentaires pour accroître la simultanéité des requêtes.

Q : Puis-je accéder directement aux clusters d'adaptation de la simultanéité ?

Non. L'adaptation de la simultanéité est un groupe de ressources Redshift extrêmement évolutif. Les clients ne peuvent pas y accéder.

Interrogation et analyse

Q : Amazon Redshift et Redshift Spectrum sont-ils compatibles avec mon package logiciel d'informatique décisionnelle et mes outils d'ETL favoris ?

Oui, Amazon Redshift utilise les instructions SQL standard du secteur et est accessible depuis les pilotes JDBC et ODBC standard. Vous pouvez télécharger les pilotes JDBC et ODBC personnalisés d'Amazon Redshift à partir de l'onglet Connect Client de notre console Redshift. Nous disposons d'intégrations validées auprès de fournisseurs de BI et d'ETL populaires, dont la plupart proposent des essais gratuits pour vous aider à débuter dans le chargement et l'analyse de vos données. Vous pouvez également vous rendre sur AWS Marketplace afin de déployer et configurer en quelques minutes des solutions conçues pour fonctionner avec Amazon Redshift.

Redshift Spectrum prend en charge tous les outils clients d'Amazon Redshift. Ces outils clients peuvent continuer à se connecter au point de terminaison du cluster Amazon Redshift à l'aide de connexions ODBC ou JDBC. Aucune modification n'est nécessaire.

Vous utilisez exactement la même syntaxe de requête et avez les mêmes possibilités d'accès aux tables dans Redshift Spectrum que pour les tables du stockage local de votre cluster Redshift. Les tables externes sont référencées à l'aide du nom de schéma défini dans la commande CREATE EXTERNAL SCHEMA utilisée pour leur enregistrement.

Q : Quels sont les formats de données et les formats de compression pris en charge par Redshift Spectrum ?

Redshift Spectrum prend actuellement en charge de nombreux formats de données open source, notamment Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text et TSV.

À ce jour, Redshift Spectrum prend en charge la compression Gzip et Snappy.

Q : Que se passe-t-il si une table dans mon stockage local a le même nom qu'une table externe ?

Comme pour les tables locales, vous pouvez utiliser le nom de schéma pour sélectionner précisément la table souhaitée en insérant la valeur nom_schéma.nom_table dans votre requête.

Q : J'ai recours à un Hive Metastore pour stocker les métadonnées relatives à mon data lake S3. Puis-je utiliser Redshift Spectrum ?

Oui. La commande CREATE EXTERNAL SCHEMA prend en charge les Hive Metastores. Toutefois, nous ne prenons pas encore en charge le langage DDL pour le Hive Metastore.

Q : Comment obtenir la liste de toutes les tables de base de données externes créées dans mon cluster ?

Vous pouvez interroger la table système SVV_EXTERNAL_TABLES pour obtenir cette information.

Q : Redshift permet-il d'utiliser le machine learning avec SQL ?

Oui, la fonctionnalité Amazon Redshift ML permet aux utilisateurs de SQL de créer, d'entraîner et de déployer facilement des modèles de machine learning (ML) en utilisant les commandes SQL habituelles. Amazon Redshift ML permet aux clients de tirer parti de leurs données dans Amazon Redshift avec Amazon SageMaker, un service de machine learning entièrement géré.

Q : Amazon Redshift fournit-il une API pour interroger les données ?

Amazon Redshift fournit l'API Data qui vous permet d'accéder facilement aux données d'Amazon Redshift avec tous types d'applications (applications basées sur des événements, basées sur des services Web, sans serveur, traditionnelles, natives cloud et conteneurisées). L'API Data simplifie l'accès à Amazon Redshift car vous n'avez pas besoin de configurer les pilotes et de gérer les connexions aux bases de données. Vous pouvez exécuter des commandes SQL sur un cluster Amazon Redshift en appelant un point de terminaison d'API sécurisé fourni par l'API Data. L'API Data prend en charge la gestion des connexions à la base de données et la mise en mémoire tampon des données. L'API Data est asynchrone ; vous pouvez donc récupérer les résultats plus tard. Les résultats de votre requête sont hébergés durant 24 heures.

Q : Quels types d'informations d'identification puis-je utiliser avec l'API Data d'Amazon Redshift ?

L'API Data prend en charge les informations d'identification IAM et les clés secrètes d'AWS Secrets Manager. L'API Data réunit les informations d'identification d'AWS Identity and Access Management (IAM) afin que vous puissiez utiliser des fournisseurs d'identité comme Okta ou Azure Active Directory ou les informations d'identification à la base de données enregistrées dans Secrets Manager sans fournir les informations d'identification à la base de données dans les appels d'API.

Q : Puis-je utiliser l'API Data d'Amazon Redshift depuis l'interface de ligne de commande AWS CLI ?

Oui, vous pouvez utiliser l'API Data depuis l'interface de ligne de commande AWS CLI via l'option de ligne de commande aws redshift-data.

Q : L'API Data Redshift est-elle intégrée à d'autres services AWS ?

Vous pouvez utiliser l'API Data à partir d'autres services comme AWS Lambda, AWS Cloud9, AWS AppSync et Amazon EventBridge.

Q : Dois-je payer séparément pour utiliser l'API Data d'Amazon Redshift ?

Non, il n'y a pas d'autre facturation pour l'utilisation de l'API Data.

Surveillance

Q : Comment puis-je surveiller les performances de mon cluster d'entrepôts de données Amazon Redshift ?

Les mesures relatives à l'utilisation des capacités de calcul et de stockage, ainsi qu'au trafic en lecture/écriture de votre cluster d'entrepôts de données Amazon Redshift, sont disponibles gratuitement via AWS Management Console ou les API Amazon CloudWatch. Vous pouvez également ajouter des mesures supplémentaires que vous aurez définies, via la fonctionnalité de mesures personnalisées d'Amazon CloudWatch. AWS Management Console fournit un tableau de bord de surveillance qui vous aide à surveiller la santé et les performances de tous vos clusters. Amazon Redshift fournit également des informations sur les performances des interrogations et du cluster via AWS Management Console. Ces informations vous permettent de voir quels utilisateurs et requêtes consomment le plus de ressources système afin de diagnostiquer les problèmes de performances en consultant les plans de requête et les statistiques d'exécution. Vous pouvez également consulter l'utilisation des ressources sur chacun de vos nœuds de calcul, afin de vous assurer que vos données et interrogations sont correctement équilibrées sur tous les nœuds.

Maintenance

Q : Qu'est-ce qu'une fenêtre de maintenance ? Mon cluster d'entrepôts de données sera-t-il disponible pendant la maintenance logicielle ?

Amazon Redshift effectue périodiquement des opérations de maintenance pour apporter des correctifs, des améliorations et de nouvelles fonctionnalités à votre cluster. Vous pouvez changer les fenêtres de maintenance planifiées en modifiant le cluster par programmation ou avec Redshift Console. Durant ces fenêtres de maintenance, votre cluster Amazon Redshift n'est pas disponible pour les opérations normales. Pour en savoir plus sur les fenêtres de maintenance et les programmations par région, consultez la section Fenêtres de maintenance du manuel Amazon Redshift Management Guide.

En savoir plus sur la tarification d'Amazon Redshift

Visiter la page de tarification
Prêt à concevoir ?
Démarrer avec Amazon Redshift
D'autres questions ?
Nous contacter