Questions d'ordre général

Pour découvrir les nouveautés d'Amazon Redshift, consultez la page Nouveautés.
Pour des informations plus détaillées et des conseils d'utilisation, consultez la documentation.

Q : Qu'est-ce qu'Amazon Redshift ?

Amazon Redshift est un entrepôt des données cloud entièrement géré qui vous permet d'obtenir plus rapidement des informations avec une analytique simple, rapide et sécurisée à l'échelle. Des milliers de clients se reposent sur Amazon Redshift pour analyser des volumes de données en téraoctets et en pétaoctets, puis pour exécuter des requêtes d'analyse complexes. Vous pouvez obtenir des informations en temps réel ainsi que d'effectuer l'analytique prédictive sur toutes les données de l'ensemble de vos bases de données, lacs de données, entrepôts des données et jeux de donnés tiers opérationnels. Amazon Redshift offre tout cela à un rapport prix/performances jusqu'à trois fois supérieur à celui d'autres entrepôts des données cloud prêts à l'emploi. Vous pouvez ainsi prévoir vos coûts.

Amazon Redshift Serverless vous permet d'exécuter facilement l'analytique à l'échelle du pétaoctet en quelques secondes afin d'obtenir rapidement des informations sans devoir configurer et gérer les clusters de vos entrepôts des données. Amazon Redshift Serverless alloue et met à l'échelle automatiquement la capacité de l'entrepôt des données pour fournir des performances élevées aux charges de travail exigeantes et imprévisibles, et vous ne payez que pour les ressources que vous utilisez.

Q : Quelles sont les principales raisons pour lesquelles les clients choisissent Amazon Redshift ?

Des milliers de clients choisissent Amazon Redshift pour obtenir plus rapidement des informations car cette solution est facile à utiliser, offre des performances peu importe l'échelle et vous permet d'analyser toutes vos données. Amazon Redshift est un service entièrement géré et offre les deux options avec allocation et sans serveur. Il est ainsi plus facile d'exécuter et de mettre à l'échelle les analytiques sans devoir gérer tout votre entrepôt des données. Vous pouvez choisir l'option avec allocation pour des charges de travail prévisibles ou utiliser l'option Amazon Redshift Serverless pour allouer et mettre à l'échelle automatiquement la capacité de l'entrepôt des données afin de fournir des performances élevées pour les charges de travail exigeantes et imprévisibles. La solution offre des performances à toute échelle avec un rapport prix/performances jusqu'à trois fois supérieur à celui d'autres entrepôts des données cloud prêts à l'emploi. Vous pouvez ainsi prévoir vos coûts. Amazon Redshift vous permet d'obtenir des informations en exécutant l'analytique en temps réel et prédictive sur toutes les données de l'ensemble de vos bases de données, lacs de données, entrepôts des données et milliers de jeux de donnés tiers opérationnels. Amazon Redshift conserve vos données sécurisées au repos et réponds aux exigences internes et externes en matière de conformité. La solution prend en charge la sécurité à la pointe de l'industrie pour protéger vos données en transit et au repos, et elle est conforme aux exigences SOC1, SOC2, SOC3 et PCI DSS niveau 1. Toutes les fonctions de conformité et de sécurité Redshift sont incluses sans frais supplémentaires.

Q : Comment Amazon Redshift simplifie-t-il la gestion des entrepôts des données ?

Amazon Redshift est entièrement géré par AWS et vous n'avez plus besoin de vous soucier des tâches de gestion de l'entrepôt des données telles que l'approvisionnement matériel, l'application de correctifs logiciels, l'installation, la configuration, la surveillance des nœuds et des lecteurs pour reprendre après des échecs ou des sauvegardes. AWS gère le travail nécessaire pour installer, opérer et mettre à l'échelle un entrepôt des données à votre place, vous permettant ainsi de vous concentrer sur la création de vos applications. Amazon Redshift dispose également de capacités de réglage automatique et d'espaces de recommandations pour la gestion de votre entrepôt dans Redshift Advisor. Dans le cas de Redshift Spectrum, Amazon Redshift gère l'ensemble de l'infrastructure de calcul, de la répartition de charge, de la planification, de la programmation et de l'exécution de vos requêtes portant sur les données stockées dans Amazon S3. L'option sans serveur alloue et met à l'échelle automatiquement la capacité de l'entrepôt des données pour fournir des performances élevées aux charges de travail exigeantes et imprévisibles, et vous ne payez que pour les ressources que vous utilisez.

Q : Comment les performances d'Amazon Redshift se comparent-elles à celles des autres entrepôts des données ?

Les résultats de référence TPC-DS indiquent qu'Amazon Redshift fournit le meilleur rapport prix/performances prêt à l'emploi, même pour un jeu de données comparativement petit de 3 To. Amazon Redshift offre un rapport prix/performances jusqu'à 3 fois supérieur à celui d'autres entrepôts des données cloud. Cela signifie que vous pouvez bénéficier du rapport prix/performances d'Amazon Redshift dès le début sans réglage manuel. Profitez d'un rapport prix/performances jusqu'à 3 fois supérieur avec Amazon Redshift comparé aux autres entrepôts des données cloud | Blog AWS consacré au big data.

Amazon Redshift utilise une variété d'innovations pour atteindre des performances jusqu'à 10 fois supérieures à celles des bases de données traditionnelles pour les charges de travail d'entreposage et d'analytique des données, notamment le stockage de données compressées en colonnes optimisé pour la lecture avec des clusters de calcul MPP (traitement massivement parallèle) qui sont mis à l'échelle de manière linéaire jusqu'à des centaines de nœuds. Au lieu de stocker les données en rangées successives, Amazon Redshift les classe sous forme de colonnes. Lors du chargement des données dans une table vide, Amazon Redshift crée automatiquement des échantillons de vos données et sélectionne le schéma de compression le plus approprié.

Redshift Spectrum vous permet d'exécuter des requêtes sur des exaoctets de données dans Amazon S3. Aucune tâche Extract-Transform-Load (ETL) n'est requise. Même si vous ne stockez aucune donnée dans Amazon Redshift, vous pouvez néanmoins utiliser Redshift Spectrum pour exécuter des requêtes sur des jeux de données de l'ordre d'un exaoctet dans Amazon S3. Les vues matérialisées offrent des performances de requêtes nettement plus rapides pour les charges de travail d'analytique répétées et prévisibles, telles que les tableaux de bord, les requêtes des outils de Business Intelligence (BI) et le traitement des données ETL. Grâce aux vues matérialisées, vous pouvez stocker les résultats pré-calculés des requêtes et les gérer efficacement en traitant, de manière progressive, les dernières modifications apportées aux tables sources. Les requêtes ultérieures qui référencent les vues matérialisées utilisent les résultats précalculés pour s'exécuter beaucoup plus rapidement, et les capacités d'actualisation automatique et de réécritures simplifient et automatisent l'utilisation des vues matérialisées.

Les capacités de calcul et de stockage des entrepôts des données sur site sont limitées par les contraintes liées au matériel sur site. Amazon Redshift vous donne la possibilité de mettre à l'échelle indépendamment les capacités de calcul et de stockage selon vos besoins pour répondre à l'évolution de vos charges de travail. Avec Redshift Managed Storage (RMS), vous pouvez désormais mettre à l'échelle votre stockage en pétaoctets en utilisant le stockage Amazon S3.

Automatic Table Optimization (ATO) est une capacité d'auto-réglage vous permettant de tirer profit de la création de clés de tri et de distribution optimales sans intervention manuelle. ATO observe la manière dont les requêtes interagissent avec les tables et utilise le machine learning (ML) pour sélectionner les meilleures clés de tri et de distribution afin d'optimiser les performances en fonction de la charge de travail du cluster. Les optimisations ATO ont permis d'augmenter les performances du cluster de 24 % et de 34 %, en utilisant respectivement les références TPC-DS de 3 To et de 30 To, comparé à un cluster non doté de la fonctionnalité ATO. Grâce à des fonctions supplémentaires telles qu'Automatic Vacuum Delete, Automatic Table Sort et Automatic Analyze, il n'est plus nécessaire d'effectuer une maintenance manuelle ni de régler les clusters Redshift pour obtenir les meilleures performances pour de nouveaux clusters et charges de travail de production.

La gestion des charges de travail vous permet d'acheminer les requêtes vers un ensemble de files d'attente définies pour gérer la simultanéité et l'utilisation des ressources du cluster. Aujourd'hui, Amazon Redshift a les deux types de configuration, automatique et manuelle. Avec les configurations WLM manuelles, vous avez la responsabilité de définir la quantité de mémoire allouée à chaque file d'attente et le nombre maximum de requêtes, chacune obtient une fraction de cette mémoire, qui peut être exécutée dans chacune de leurs files d'attente. Les configurations WLM manuelles ne s'adaptent pas aux changements dans votre charge de travail et nécessitent une bonne connaissance de l'utilisation des ressources de vos requêtes pour être correctes. Avec Amazon Redshift Auto WLM, vous n'avez pas à définir l'utilisation de la mémoire ou la simultanéité pour les files d'attente. À la place, la solution ajuste la simultanéité de manière dynamique afin d'optimiser le débit. Vous pouvez aussi définir les priorités des requêtes pour fournir l'allocation préférentielle des ressources des requêtes en fonction de vos priorités métier. Auto WLM fournit aussi des outils puissants pour vous permettre de gérer votre charge de travail. Les priorités de requête vous laisse définir les priorités des charges de travail afin qu'elles puissent avoir un traitement préférentiel dans Amazon Redshift, y compris plus de ressources lors des périodes actives à des fins de performances de requête homogènes, et les règles de surveillance des requêtes offrent des façons de gérer des situations inattendues telles que détecter et empêcher les requêtes en attente ou coûteuses de consommer les ressources système. Voici les domaines clés d'Auto WLM avec des améliorations en termes de performances de simultanéité adaptative : allocation appropriée de la mémoire, élimination du partitionnement statique de la mémoire entre les files d'attente et débit plus élevé.

Amazon Redshift Advisor élabore des recommandations personnalisées afin d'augmenter les performances et d'optimiser les coûts, en analysant votre charge de travail et les métriques d'utilisation de votre cluster. Connectez-vous à la console Amazon Redshift pour voir les recommandations Advisor. Pour en savoir plus, consultez la page Working with recommendations (Travailler avec des recommandations) d'Amazon Redshift Advisor.

Q : Comment démarrer avec Amazon Redshift ?

En quelques clics de souris dans la console de gestion AWS, vous pouvez démarrer l'interrogation des données. Vous pouvez tirer parti des jeux de données d'échantillons préchargés, y compris des jeux de données de référence TPC-H, TPC-DS et d'autres exemples de requêtes pour démarrer l'analytique sans délai. Vous pouvez également créer des bases de données, des schémas, des tables et charger des données à partir d'Amazon S3, des partages de données Amazon Redshift ou effectuer une restauration à partir d'un instantané de cluster alloué Amazon Redshift existant. Vous pouvez par ailleurs interroger directement les données dans des formats ouverts comme Parquet ou ORC dans un lac de données Amazon S3, ou interroger des données dans des bases de données opérationnelles, notamment Amazon Aurora, Amazon RDS PostgreSQL et MySQL.

Pour démarrer avec Amazon Redshift Serverless, choisissez « Try Amazon Redshift Serverless » (Essayer Amazon Redshift Serverless) et commencez à interroger les données. Amazon Redshift Serverless met automatiquement à l'échelle pour répondre à toute augmentation des charges de travail.

Q : Puis-je obtenir de l'aide pour en savoir plus sur Amazon Redshift et sur son intégration ?

R : Oui, des spécialistes Amazon Redshift sont disponibles pour répondre à vos questions et vous fournir un support. Contactez-nous et nous vous répondrons dans un délai d'un jour ouvré pour discuter de la manière dont AWS peut aider votre organisation.

Q : Qu'est-ce que l'Advanced Query Accelerator (AQUA) pour Amazon Redshift ?

Advanced Query Accelerator (AQUA) est un nouveau cache distribué à accélération matérielle qui permet à Amazon Redshift de s'exécuter jusqu'à dix fois plus rapidement que tout autre entrepôt des données cloud d'entreprise en optimisant automatiquement certains types de requêtes. AQUA est disponible avec les nœuds RA3.16xlarge, RA3.4xlarge ou RA3.xlplus, sans frais supplémentaires et sans modification de code.

Q : Comment activer/désactiver AQUA pour mon entrepôt des données Redshift ?

Pour les clusters Redshift s'exécutant sur des nœuds RA3, vous pouvez activer/désactiver AQUA au niveau du cluster à l'aide de la console Redshift, de l'interface de ligne de commande (CLI) ou de l'API AWS. Pour les clusters Redshift s'exécutant sur DC, DS ou des nœuds de génération plus anciens, vous devez d'abord mettre à niveau vers des nœuds RA3, puis activer/désactiver AQUA.

Q : Quels types de requêtes sont accélérées par AQUA ?

AQUA accélère les requêtes d'analytique en exécutant les tâches gourmandes en données, comme les analyses, le filtrage et l'agrégation, plus près de la couche de stockage. Vous verrez une amélioration remarquable des performances des requêtes qui nécessitent des analyses importantes, particulièrement celles avec les prédicats LIKE et SIMILAR_TO. Au fil du temps, les types de requêtes qui sont accélérées par AQUA augmenteront.

Q : Comment savoir quelles requêtes de mon cluster Redshift sont accélérées par AQUA ?

Vous pouvez interroger les tables du système pour voir les requêtes qui sont accélérées par AQUA.

Q : Qu'est-ce le stockage géré d'Amazon Redshift ?

Le stockage géré d'Amazon Redshift est disponible avec les types de nœuds RA3 et sans serveur. Il vous permet également de mettre à l'échelle et de payer indépendamment le calcul et le stockage, ce qui fait que vous pouvez dimensionner votre cluster en fonction de vos besoins en calcul. Il utilise automatiquement un stockage local SSD à hautes performances comme cache de niveau 1 et tire profit des optimisations telles que la température des blocs de données, l'âge des blocs de données et les modèles de charge de travail afin d'offrir de hautes performances tout en mettant à l'échelle automatiquement le stockage dans Amazon S3 lorsque cela est nécessaire et sans requérir aucune action de votre part.

Q : Comment utiliser le stockage géré d'Amazon Redshift ?

Si vous utilisez déjà les nœuds de stockage denses (DS) ou de calcul denses (DC) d'Amazon Redshift, vous pouvez utiliser le redimensionnement Elastic pour mettre à niveau vos clusters existants vers la nouvelle instance de calcul RA3. Amazon Redshift Serverless et les clusters utilisant l'instance RA3 utilisent automatiquement le stockage géré par Redshift pour stocker les données. Aucune autre action en dehors de l'utilisation d'instances Amazon Redshift Serverless ou RA3 est requise pour utiliser cette capacité.

Q : Qu'est-ce qu'Amazon Redshift Spectrum ?

Amazon Redshift Spectrum est une fonction d'Amazon Redshift qui vous permet d'exécuter des requêtes par rapport à votre lac de données dans Amazon S3, sans chargement des données ou d'ETL requis. Lorsque vous envoyez une requête SQL, elle est dirigée vers le point de terminaison Amazon Redshift, qui génère et optimise un plan de requête. Amazon Redshift détermine si les données sont stockées en local ou dans Amazon S3, génère un plan pour réduire le volume de données S3 qui doivent être lues et demande à des programmes d'exécution Amazon Redshift Spectrum au sein d'un groupe de ressources partagées de lire et traiter les données en provenance de S3.

Q : Quand dois-je envisager l'utilisation d'instances RA3 ?

Envisagez de choisir les types de nœud RA3 dans ces cas :

  • Vous avez besoin de flexibilité pour mettre à l'échelle et payer le calcul séparément du stockage.
  • Vous interrogez une fraction du total de vos données.
  • Le volume de vos données croît rapidement ou il est attendu que cela soit le cas.
  • Vous voulez de la flexibilité pour dimensionner le cluster uniquement en fonction de vos besoins en performance.

À mesure que l'échelle des données continue de croître, atteignant des pétaoctets, la quantité de données que vous intégrez dans votre entrepôt des données Amazon Redshift augmente aussi. Vous cherchez peut-être comment analyser toutes vos données de manière plus économique.

Grâce aux nouvelles instances Amazon Redshift RA3 avec un stockage géré, vous pouvez choisir le nombre de nœuds en fonction de vos exigences de performance, et uniquement payer pour le stockage géré utilisé. Vous bénéficiez de la flexibilité de dimensionner votre cluster RA3 en fonction de la quantité de données que vous traitez chaque jour, sans augmenter vos coûts de stockage. Créées sur AWS Nitro System, les instances RA3 avec stockage géré utilisent des SSD haute performance pour vos données chaudes et Amazon S3 pour vos données froides, offrant un stockage rentable et facile à utiliser, ainsi que des performances de requête rapides.

Q : Quand vaut-il mieux utiliser Amazon Redshift plutôt qu'Amazon RDS ? 

Amazon Redshift et Amazon Relational Database Service (RDS) vous permettent d'exécuter des bases de données relationnelles classiques dans le cloud tout en vous déchargeant de l'administration des bases de données. Les clients utilisent les bases de données Amazon RDS principalement pour les charges de travail de traitement de transactions en ligne (OLTP), tandis qu'ils utilisent surtout Amazon Redshift pour la création de rapports et l'analytique. Les charges de travail de traitement de transactions en ligne (OLTP) nécessitent d'interroger rapidement des informations spécifiques, et prennent en charge des transactions telles que l'insertion, la mise à jour et la suppression. Ces charges de travail sont mieux gérées par Amazon RDS. Amazon Redshift tire parti de la portée et des ressources de plusieurs nœuds et fait appel à différentes techniques d'optimisation pour permettre une amélioration considérable par rapport aux bases de données classiques pour les charges de travail d'analytique et de génération de rapports lorsqu'il s'agit de traiter des jeux de données très volumineux. Amazon Redshift propose une option exceptionnelle de mise à l'échelle ascendante vous permettant de répondre à la complexité croissante de vos données et requêtes, et de ne pas entraver les performances de votre charge de travail OLTP avec les tâches d'analytique et de génération de rapports. Désormais, avec la nouvelle fonctionnalité de requête fédérée, vous pouvez facilement interroger des données sur vos services de base de données Amazon RDS ou Aurora avec Amazon Redshift.

Q : Quand vaut-il mieux utiliser Amazon Redshift ou Redshift Spectrum plutôt qu' qu’Amazon EMR ?

Choisissez Amazon EMR si vous utilisez du code personnalisé pour traiter et analyser des ensembles de données extrêmement volumineux avec des infrastructures de traitement de Big Data telles qu'Apache Spark, Hadoop, Presto ou Hbase. Amazon EMR vous permet de contrôler entièrement la configuration de vos clusters et les logiciels installés sur ceux-ci.

Les entrepôts de données tels qu'Amazon Redshift sont conçus pour un tout autre type d'analyse. Les entrepôts de données visent à rassembler des données de sources très diverses, issues par exemple de systèmes d'inventaire, de gestion financière ou de vente au détail. Pour garantir un enregistrement des données exact et cohérent dans l'ensemble de l'entreprise, les entrepôts de données stockent les informations de manière très structurée. Cette structure permet d'intégrer des règles de cohérence des données directement dans les tables de la base de données. Amazon Redshift est le service à utiliser lorsque vous devez exécuter des requêtes complexes sur des ensembles volumineux de données structurées et semi-structurées tout en bénéficiant de performances rapides.

La fonctionnalité Redshift Spectrum est très efficace pour exécuter des requêtes sur des données stockées dans Amazon Redshift et S3, mais n'est pas vraiment adaptée aux cas d'utilisation typiques des entreprises qui font appel aux infrastructures de traitement Amazon EMR. Amazon EMR fait bien plus qu'exécuter des requêtes SQL. Amazon EMR est un service géré qui vous permet de traiter et d'analyser des ensembles de données extrêmement volumineux avec les dernières versions des infrastructures de traitement de Big Data les plus populaires telles que Spark, Hadoop et Presto, sur la base de clusters entièrement personnalisables. Avec Amazon EMR, vous pouvez exécuter un grand nombre de tâches de traitement de données avec montée en charge pour des applications telles que le machine learning, l'analyse graphique, la transformation de données, la diffusion de données et quasiment toutes les opérations que vous pouvez coder.

Vous pouvez aussi utiliser Redshift Spectrum avec EMR. Redshift Spectrum adopte la même approche qu'Amazon EMR pour le stockage des définitions des tables. Redshift Spectrum peut prendre en charge le même Apache Hive Metastore que celui utilisé par Amazon EMR pour localiser les définitions de données et de tables. Si vous utilisez Amazon EMR et avez déjà un Hive Metastore, il vous suffit de configurer votre cluster Amazon Redshift afin de l'utiliser. Vous pouvez alors commencer sans attendre à exécuter des requêtes sur ces données, en parallèle de vos tâches Amazon EMR. Par conséquent, si vous utilisez déjà EMR pour traiter un gros volume de données, vous pouvez simultanément utiliser Redshift Spectrum pour exécuter des requêtes sur ces données sans interférer avec vos tâches Amazon EMR.

Que ce soit les services de requête, les entrepôts de données ou les infrastructures de traitement des données complexes, tous ont leur utilité, même si leurs applications sont différentes. Vous devez donc sélectionner l'outil le plus approprié pour vos tâches.

Q : Quand dois-je utiliser Amazon Athena plutôt qu' Amazon Redshift Spectrum ?

Amazon Athena est un service de requête interactif qui facilite l'analyse des données dans Amazon S3 à l'aide de la syntaxe SQL standard. Athena est facile à utiliser. Cliquez simplement sur vos données dans S3, définissez le schéma et commencez à lancer vos requêtes à l'aide du SQL standard.

Redshift Spectrum est une fonction d'Amazon Redshift. Si vous devez analyser des données fréquemment utilisées, avec un contrat de niveau de service (SLA) strict aux performances les plus élevées, vous devez utiliser Amazon Redshift. Vous pouvez utiliser Redshift Spectrum pour étendre vos requêtes Amazon Redshift à des données moins souvent utilisées dans votre lac de données Amazon S3. Ainsi, vous pouvez stocker les données où vous le souhaitez, dans n'importe quel format et prêtes à être traitées quand vous en avez besoin.

Q : Pourquoi devrais-je utiliser Amazon Redshift plutôt que mon propre cluster d'entrepôts des données MPP sur Amazon EC2 ?

Amazon Redshift gère automatiquement bon nombre des tâches habituellement chronophages associées à la gestion de votre entrepôt de données, notamment :
  • Configuration : avec Amazon Redshift, il vous suffit de créer un cluster d'entrepôts de données, de définir votre schéma, puis de charger et d'interroger vos données. Vous n’avez à gérer ni l’allocation, ni la configuration, ni l’application de correctifs.
  • Durabilité des données : Amazon Redshift réplique vos données au sein de votre cluster d'entrepôts de données et procède à une sauvegarde continue de vos données vers un compartiment Amazon S3, lequel est conçu pour fournir une disponibilité de 99,999999999 % (« 11 neuf »). Amazon Redshift met en miroir les données de chaque lecteur sur les autres nœuds présents dans votre cluster. En cas d'échec d'un lecteur, vos interrogations se poursuivent, avec une légère augmentation de la latence, tandis que Redshift reconstitue votre lecteur à partir des réplicas. En cas de défaillance d'un ou plusieurs nœuds, Amazon Redshift met automatiquement en service de nouveaux nœuds et commence à restaurer les données des autres lecteurs au sein du cluster ou à partir d'Amazon S3. Vos données les plus fréquemment interrogées sont restaurées en priorité, afin que les interrogations les plus souvent exécutées soient rapidement performantes.
  • Mise à l'échelle : vous pouvez ajouter ou supprimer des nœuds de votre cluster d'entrepôts des données Amazon Redshift à partir d'un seul appel d'API ou en quelques clics dans la console de gestion AWS, afin de répondre à l'évolution de vos besoins en termes de capacités et de performances. Vous pouvez également planifier vos opérations de mise à l'échelle et de redimensionnement à l'aide de la fonction de planificateur dans Amazon Redshift.
  • Application automatique des mises à jour et des correctifs : Amazon Redshift applique automatiquement les mises à jour et les correctifs à votre entrepôt des données afin que vous puissiez rester concentré sur votre application, et non sur son administration.
  • Requêtes pouvant porter sur des exaoctets de données : Amazon Redshift Spectrum vous permet d'exécuter des requêtes sur des exaoctets de données dans Amazon S3. Aucun chargement ni ETL n'est nécessaire. Même si vous ne stockez aucune donnée dans Amazon Redshift, vous pouvez néanmoins utiliser Redshift Spectrum pour exécuter des requêtes sur des jeux de données de l'ordre d'un exaoctet dans Amazon S3.

Q : Comment créer et accéder à un cluster d'entrepôts des données Amazon Redshift ?

Vous pouvez facilement créer un cluster d'entrepôts des données Amazon Redshift à l'aide de la console de gestion AWS ou des API Amazon Redshift. Vous pouvez démarrer avec un entrepôt des données de 160 Go à un seul nœud, puis augmenter votre échelle pour atteindre jusqu'à un pétaoctet ou plus, et ce en quelques clics dans la console AWS ou via un seul appel d'API.

La configuration à un seul nœud, qui est plus adaptée aux charges de travail d'évaluation ou de développement/test, vous permet de démarrer de manière rapide et économique avec Amazon Redshift, puis d'évoluer vers une configuration multinœud en fonction de vos besoins. Un cluster d'entrepôts des données Redshift peut contenir 1 à 128 nœuds de calcul, selon le type de nœud utilisé. Lorsqu'il s'agit des nœuds dernière génération, RA3, leur nombre minimal est de deux. Pour en savoir plus, consultez la documentation.

La configuration à plusieurs nœuds requiert un nœud « leader » qui gère les connexions client et réceptionne les interrogations, et deux nœuds de calcul qui stockent les données et effectuent les interrogations et les calculs. Ce nœud « leader », dont la taille est identique à celle du nœud de calcul, est automatiquement alloué pour vous, sans aucuns frais.

Indiquez simplement votre zone de disponibilité (AZ) préférée (facultatif), le nombre de nœuds, les types de nœuds, un nom principal et un mot de passe, des groupes de sécurité, vos préférences en matière de rétention des sauvegardes, ainsi que d'autres paramètres système. Une fois que vous avez sélectionné la configuration de votre choix, Amazon Redshift alloue les ressources requises et configure votre cluster d'entrepôts des données.

Lorsque votre cluster d'entrepôts des données est disponible, vous pouvez récupérer son point de terminaison et une chaîne de connexion JDBC ou ODBC à partir de la console de gestion AWS ou des API Redshift. Vous pouvez ensuite utiliser cette chaîne de connexion avec votre outil de base de données, langage de programmation ou outil Business Intelligence (BI) favori. Il vous faut également autoriser les demandes réseau vers votre cluster d'entrepôts de données en cours d'exécution. Pour une explication détaillée, reportez-vous à notre guide de démarrage.

Q : Pourquoi utiliser Amazon Redshift Spatial ?

Amazon Redshift Spatial fournit des analytiques basées sur les emplacements afin d'obtenir des informations riches sur vos données. Cette solution intègre en toute transparence des données métier et spatiale pour fournir des analytiques à des fins de prise de décision. En novembre 2019, Amazon Redshift a lancé un support de traitement de données spatiales natif, utilisant des données polymorphiques de type GÉOMÉTRIE et plusieurs fonctions spatiales SQL clé. Nous prenons maintenant en charge le type de données GEOGRAPHY et notre bibliothèque de fonctions spatiales SQL en contient à présent 80. Nous prenons en charge tous les types de données spatiales courants et standards, y compris Shapefiles, GeoJSON, WKT, WKB, eWKT et eWKB. Pour en savoir plus, consultez la page de documentation ou la page Amazon Redshift spatial tutorial (Didacticiel Amazon Redshift Spatial).

Q : Qu'est-ce que l'amélioration des performances de requêtes à froid et que fait Amazon Redshift pour améliorer les performances de requêtes à froid ?

Amazon Redshift peut traiter des requêtes jusqu'à deux fois plus rapidement lorsqu'elles doivent être compilées. Cette amélioration optimise vos performances de requêtes lors de la création d'un cluster Redshift, de l'intégration d'une nouvelle charge de travail sur un cluster existant ou après la mise à jour logicielle d'un cluster existant. L'amélioration des performances de requêtes est fournie gratuitement et son activation sur vos clusters ne nécessite aucune action de votre part.

Avec l'amélioration des performances de requête froide, les compilations de requêtes sont mises à l'échelle sur un service de compilation sans serveur au-delà des ressources de calcul du nœud principal de votre cluster. Amazon Redshift prend en charge un cache illimité pour stocker les objets compilés afin d'accroître de 99,60 % à 99,95 % l'accès au cache lors de l'envoi de vos requêtes stratégiques à Amazon Redshift.

Lors de l'envoi d'une requête à Amazon Redshift, le moteur d'exécution des requêtes compile la requête en un code machine et le distribue aux nœuds de cluster. Le code ainsi compilé s'exécute plus rapidement, en raison de l'élimination de l'utilisation d'un interprète. Pour un nouveau cluster sans cache de code ou après la mise à niveau d'un cluster existant avec la version la plus récente, le cache de code est vidé, et les requêtes doivent faire l'objet d'une compilation de requêtes. Par conséquent, la latence d'une requête peut varier, et ne peut pas répondre aux exigences de certaines charges de travail. Avec cette mise à jour, le cache illimité réduit la nécessité de compiler du code. Et lorsque la compilation est nécessaire, une ferme de compilation évolutive compile le code tout en accélérant vos charges de travail. La vitesse est fonction de la complexité et de la simultanéité de la charge de travail. Pour en savoir plus sur la compilation de code, consultez la section Traitement des requêtes dans le guide du développeur de bases de données.

Sans serveur

Q : Qu'est-ce qu'Amazon Redshift Serverless (prévisualisation) ?

Amazon Redshift Serverless (prévisualisation) est une option sans serveur d'Amazon Redshift qui facilite l'exécution et la mise à l'échelle des analytiques en secondes, sans devoir installer et gérer une infrastructure d'entrepôt des données. Avec Redshift Serverless, n'importe quel utilisateur, y compris les analystes de données, les développeurs, les professionnels de l'informatique et les scientifiques des données, peut obtenir des informations à partir de données, simplement en chargeant et en interrogeant les données de l'entrepôt.

Q : Comment démarrer avec Amazon Redshift Serverless (prévisualisation) ?

En seulement quelques clics dans la console de gestion AWS, vous pouvez choisir « Configure Amazon Redshift Serverless » (Configurer Amazon Redshift Serverless) et commencer à interroger les données. Vous pouvez tirer parti des jeux de données d'échantillons préchargés, tels que les données météo, les données de recensement et les jeux de données de référence, ainsi que des exemples de requêtes pour démarrer l'analytique sans délai. Vous pouvez également créer des bases de données, des schémas, des tables et charger des données à partir d'Amazon S3, accéder aux données via les partages de données Amazon Redshift ou effectuer une restauration à parti d'un instantané de cluster alloué Redshift existant. Vous pouvez par ailleurs interroger directement les données dans des formats ouverts (comme Parquet ou ORC) dans le lac de données Amazon S3, ou interroger des données dans des bases de données opérationnelles, notamment Amazon Aurora, Amazon RDS PostgreSQL et MySQL.

Q : Quelles fonctionnalités sont fournies par Amazon Redshift Serverless (prévisualisation) ?

Amazon Redshift Serverless vous offre de nombreux bénéfices, dont :

  • La capacité d'obtenir des informations rapidement sans approvisionnement et gestion de clusters.
  • Une scalabilité automatique et intelligente en fonction des demandes de charge de travail sans avoir à suralloué les ressources.
  • La disponibilité du service en continu pour la mise à l'échelle et les mises à jour de versions.
  • Des performances rapides de requête prête à l'emploi pour les données chargées dans l'entrepôt des données, les formats ouverts dans un lac de données Amazon S3 et des données dans des bases de données opérationnelles sans nécessiter de réglage de base de données.
  • Des analytiques SQL riches, de la durabilité et des garanties transactionnelles d'Amazon Redshift.
  • Une rentabilité en payant uniquement pour la capacité utilisée et un entrepôt des données moins complexe.

Q : Quels sont les avantages d'utiliser Amazon Redshift Serverless (prévisualisation) ? 

Si vous n'avez pas d'expérience dans la gestion d'entrepôt des données, vous n'avez pas à vous soucier de l'installation, de la configuration, de la gestion des clusters ou du réglage de l'entrepôt. Vous pouvez vous concentrer sur l'obtention d'informations importantes à partir de vos données ou sur la façon d'atteindre vos résultats métiers principaux via les données. Vous ne payez que pour ce que vous utilisez, ce qui permet de gérer les coûts. Vous bénéficiez toujours de toutes les meilleures performances d'Amazon Redshift, des fonctions SQL riches, de l'intégration transparente avec les lacs de données et des entrepôts des données opérationnels, ainsi que des analytiques prévisibles et des fonctionnalités de partage des données. Si vous souhaitez un contrôle plus précis de votre entrepôt des données, vous pouvez allouer des clusters Redshift.

Q : Comment fonctionne Amazon Redshift Serverless (prévisualisation) avec les autres services AWS ?

Vous pouvez continuer d'utiliser toutes les multiples fonctionnalités d'analytique d'Amazon Redshift, comme les jointures complexes, les requêtes directes de données dans le lac de données et les bases de données opérationnelles Amazon S3, les vues matérialisées, les procédures stockées, la prise en charge de données semi-structurées et le ML, ainsi que des performances élevées à grande échelle. Tous les services connexes avec lesquels Amazon Redshift s'intègre (comme Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation et AWS Glue) continuent de fonctionner avec Amazon Redshift Serverless.

Q : Quels cas d'utilisation puis-je gérer avec Amazon Redshift Serverless (version préliminaire) ?

Vous pouvez continuer à exécuter tous les cas d'utilisation d'analytique. Avec un simple flux de mise en route, une scalabilité automatique et la possibilité de payer en fonction de l'utilisation, l'expérience Amazon Redshift Serverless, simplifiée et plus rentable, permet d'exécuter et de tester les environnements ayant besoin de démarrer rapidement, les analytiques métiers ad-hoc, les charges de travail avec des besoins en calcul qui varient et sont imprévisibles, et des charges de travail intermittentes et sporadiques.

Q : En quoi est-ce qu'Amazon Athena est différent d'Amazon Redshift Serverless ?

Amazon Athena et Amazon Redshift répondent à des besoins et des cas d'utilisation différents même si les deux services sont sans serveur. Un entrepôt des données tel qu'Amazon Redshift est le meilleur choix si vous avez besoin de performances au meilleur prix pour des charges de travail d'analytique et de BI complexes nécessitant des performances élevées à n'importe quelle échelle. Amazon Redshift fournit aussi la possibilité d'interroger les données stockées dans Amazon S3 et de les combiner avec les données stockées dans l'entrepôt. Par comparaison, Athena est plus adapté pour les analyses interactives sur n'importe quel stockage de données sans se soucier de l'intégration et du formatage des données. L'analyse Athena est découplée à partir du stockage. Vous avez ainsi la flexibilité d'utiliser d'autres outils et services tels que Spark, Flink et Kafka pour enrichir davantage le traitement des données et des analyses sur les mêmes données analysées par Athena.

Partage de données

Q : Qu'est-ce que le partage de données d'Amazon Redshift ?

Le partage de données Amazon Redshift vous permet de partager des données en production dans Amazon Redshift pour partager des données facilement et de manière sécurisée à des fins de lecture avec d'autres clusters Redshift au sein et sur l'ensemble des comptes AWS et avec des services d'analytique AWS utilisant le lac de données. Avec le partage de données, vous pouvez instantanément interroger des données en production à partir de n'importe quel cluster Redshift, tant qu'elles ont des autorisations d'accès, sans la complexité et les délais associés aux copies des données et au mouvement des données. Amazon Redshift vous permet de partager et d'interroger des données en production sur l'ensemble de l'organisation, des comptes et même des régions.

Q : Quels sont les cas d'utilisation pour le partage des données ?

Voici de cas d'utilisation clé :

  • Un cluster ETL central partageant des données avec de nombreux clusters d'analytique/de BI pour fournir un isolement de la charge de travail de lecture et une possibilité de facturation facultative.
  • Un fournisseur de données partageant des données avec des consommateurs externes.
  • Le partage de jeux de données courants tels que les clients et les produits, avec différents groupes métiers et la collaboration pour de vastes analytiques et la science des données.
  • Décentralisation d'un entrepôt des données pour simplifier la gestion.
  • Le partage des données entre les environnements de développement, de test et de production.
  • L'accès aux données Redshift à partir d'autres services d'analytique AWS.

Q : Qu'est-ce que les requêtes inter-bases de données dans Amazon Redshift ?

Avec les requêtes inter-bases de données, vous pouvez rechercher des données et y accéder sans problème dans toutes les bases de données Redshift auxquelles vous avez accès, peu importe la base de données à laquelle vous êtes connecté. Cela concerne tant les bases de données locales sur le cluster que les jeux de données partagés disponibles sur des clusters distants. Les requêtes inter-bases de données vous offrent la flexibilité nécessaire pour organiser vos données dans différentes bases afin de permettre les configurations multi-locataire.

Q : Qu'est-ce qu'AWS Data Exchange for Amazon Redshift ?

AWS Data Exchange for Amazon Redshift vous permet de trouver et de vous abonner à des données tierces dans AWS Data Exchange que vous pouvez interroger dans un entrepôt des données Redshift en quelques minutes. Vous pouvez aussi facilement mettre vos données sous licence dans Amazon Redshift via AWS Data Exchange. L'accès est octroyé automatiquement lorsqu'un client s'abonne à vos données et automatiquement révoqué lorsque son abonnement se termine. Les factures sont générées automatiquement et les paiements sont automatiquement collectés et déboursés via AWS. Cette fonction vous permet d'interroger, d'analyser et de créer rapidement des applications avec des données tierces.

Q : Qui sont les principaux utilisateurs d'AWS Data Exchange ?

AWS Data Exchange permet aux clients AWS de facilement échanger et utiliser des données tierces dans AWS en toute sécurité. Les analystes de données, les responsables de produits, les responsables de portefeuilles, les scientifiques des données, les analystes quantitatifs, les techniciens d'essais cliniques et les développeurs de pratiquement tous les secteurs aimeraient accéder à plus de données pour stimuler les analytiques, entraîner les modèles ML et prendre des décisions orientées données. Mais il n'existe pas d'emplacement unique où trouver les données provenant de plusieurs fournisseurs et aucune cohérence de livraison des données, et les utilisateurs doivent gérer un mélange de supports physiques expédiés, d'informations d'identification FTP et d'appels d'API personnalisés. De même, de nombreuses organisations voudraient que leurs données soient disponibles à des fins de recherche ou commerciales, mais il est trop difficile et coûteux de créer et de maintenir la livraison des données, les droits et la technologie de facturation, réduisant davantage l'approvisionnement de données précieuses.

Q : Dans quelles régions AWS est-ce qu'AWS Data Exchange est disponible ?

AWS Data Exchange a un seul catalogue de produits disponibles mondialement proposés par les fournisseurs. Vous pouvez voir le même catalogue peu importe la région que vous utilisez. Les ressources sous-jacentes au produit (jeux de données, révisions et actifs) sont des ressources régionales que vous gérez par programmation ou via la console AWS Data Exchange dans des régions AWS spécifiques. Consultez le tableau Disponibilité AWS par région pour une liste des régions AWS où AWS Data Exchange est actuellement disponible.

Q : Quelle est la différence entre AWS Data Exchange et le Registre des données ouvertes sur AWS ?

Il existe cinq différences clés entre AWS Data Exchange et le Registre de données ouvertes sur AWS :

  • Tout d'abord, AWS Data Exchange prend en charge à la fois les produits de données commerciaux et gratuits, avec tous les frais commerciaux applicables appliqués à votre facture AWS. Le registre de données ouvertes sur AWS vous donne accès à une liste organisée de jeux de données ouverts et gratuits. 
  • Deuxièmement, AWS Data Exchange vous demande d'accepter explicitement l'Accord d'abonnement aux données décrivant les termes que le fournisseur de données définit lorsqu'il publie son produit. Les données sur le Registre de données ouvertes sur AWS n'incluent pas de conditions d'utilisation. 
  • Troisièmement, vous devez utiliser l'API AWS Data Exchange pour copier les données à partir d'AWS Data Exchange vers votre emplacement Amazon S3 souhaité. Les jeux de données du Registre de données ouvertes sur AWS sont accessibles via les API S3. 
  • Quatrièmement, AWS Data Exchange fournit aux fournisseurs de données un accès aux rapports quotidiens, hebdomadaires et mensuels, détaillant l'activité d'abonnement. Avec le Registre de données ouvertes sur AWS, les fournisseurs de données doivent analyser leurs propres journaux pour suivre l'utilisation des données. 
  • Enfin, pour devenir fournisseur de données sur AWS Data Exchange, les clients qualifiés doivent s'enregistrer en tant que fournisseur de données sur AWS Marketplace afin d'être éligibles pour répertorier à la fois les produits commerciaux et ceux gratuits. Cependant, tous les clients peuvent ajouter des données gratuites au Registre de données ouvertes sur AWS via GitHub et peuvent faire une demande d'adhésion au programme de jeux de données publics AWS afin qu'AWS parraine les coûts de stockage et de bande passante pour certains jeux de données ouverts.

Q : Qu'est-ce qu'Amazon Redshift Query Editor V2 ?

Amazon Redshift Query Editor v2 est une application client SQL web que vous pouvez utiliser pour créer et exécuter des requêtes sur votre entrepôt des données Redshift. Vous pouvez visualiser les résultats de requête avec des graphiques et collaborer en partageant des requêtes avec des membres de votre équipe. Query Editor v2 fournit plusieurs fonctionnalités, telles que la possibilité de parcourir et d'explorer plusieurs bases de données, des tables externes, des vues, des procédures stockées et des fonctions définies par l'utilisateur. Il fournit des assistants pour créer des schémas, des tables et des fonctions définies par l'utilisateur. Vous pouvez aussi charger des données dans Amazon Redshift à partir d'Amazon S3 à l'aide d'un assistant visuel. Il simplifie la gestion et la collaboration des requêtes enregistrées. Vous pouvez aussi obtenir des informations plus rapides en visualisant les résultats en un seul clic. Avec la dernière prévisualisation, les analystes de données peuvent partager leurs requêtes et collaborer par l'intermédiaire d'une interface commune appelée Query Doc qui leur permet d'incorporer des requêtes SQL/de code, des annotations, des résultats et des visualisations.

Q : Pourquoi utiliser Query Editor V2 ?

Si vous êtes un analyste des données, un scientifique des données ou un ingénieur des données, vous pouvez désormais utiliser Query Editor V2 pour parcourir et créer des schémas et des tables, charger des données et créer des requêtes SQL, des procédures stockées et des fonctions définies par l'utilisateur, le tout via une interface web. Vous pouvez aussi effectuer une analyse visuelle des données en place sans avoir à quitter l'outil. Vous pouvez planifier les longues exécutions de requêtes ou les requêtes pour simplement créer des rapports, comme les rapports quotidiens.

Q : Quelles sont les fonctions incluses dans Query Editor v2 ?

Query Editor V2 permet les opérations suivantes :

  • Créer visuellement des schémas et des tables et charger des données à partir d'Amazon S3.
  • Créer des requêtes et obtenir des informations plus rapidement avec un éditeur intuitif pour créer des requêtes SQL.
  • Effectuer des analyses des résultats et télécharger les résultats aux formats JSON/CSV sur votre bureau.
  • Gérer automatiquement les différentes versions des requêtes.
  • Collaborer avec d'autres utilisateurs pour partager des requêtes, des analyses et des résultats.
  • Exécuter des requêtes en arrière-plan même si le navigateur est fermé.

Capacité de mise à l'échelle et simultanéité

Q : Comment puis-je dimensionner mon cluster d'entrepôts des données Amazon Redshift et mettre à l'échelle ses performances ?

Si vous souhaitez augmenter les performances de requête ou remédier à une surutilisation du CPU, de la mémoire ou des I/O, vous pouvez augmenter le nombre de nœuds figurant dans votre cluster d'entrepôts des données à l'aide du redimensionnement Elastic via la console de gestion AWS ou l'API ModifyCluster. Les modifications que vous apportez à votre cluster d'entrepôts des données sont immédiatement appliquées. Les métriques relatives à l'utilisation des capacités de calcul et de stockage, ainsi qu'au trafic en lecture/écriture de votre cluster d'entrepôts des données Redshift, sont disponibles gratuitement via la console de gestion AWS ou les API Amazon CloudWatch. Vous pouvez également ajouter des métriques définies par l'utilisateur, via la fonctionnalité de métriques personnalisées d'Amazon CloudWatch.

Avec la fonction de mise à l'échelle de la simultanéité, vous pouvez prendre en charge un nombre quasi illimité d'utilisateurs et de requêtes simultanés, avec des performances de requêtes constamment rapides. Lorsque la mise à l'échelle de la simultanéité est activée, Amazon Redshift ajoute automatiquement une capacité de cluster supplémentaire lorsque le nombre de requêtes en file attente de votre cluster augmente.

Avec Amazon Redshift Spectrum, vous pouvez exécuter plusieurs clusters Redshift accédant aux mêmes données dans Amazon S3. Il est ainsi possible de faire appel à différents clusters selon les cas d'utilisation. Par exemple, vous pouvez utiliser un cluster pour la génération de rapports standard, et un autre pour les requêtes de science des données. Votre équipe marketing peut avoir ses propres clusters, bien distincts de ceux de l'équipe des opérations. Redshift Spectrum répartit automatiquement l'exécution de la requête entre plusieurs programmes d'exécution Redshift Spectrum au sein d'un groupe de ressources partagées, chargés de lire et traiter les données provenant d'Amazon S3, puis redirige les résultats vers votre cluster Redshift pour les éventuelles tâches de traitement restantes.

Q : Mon cluster d'entrepôts des données restera-t-il disponible pendant la mise à l'échelle ?

Cela dépend. Lorsque vous utilisez la fonctionnalité d'adaptation de la simultanéité, le cluster est entièrement disponible en lecture et en écriture lors de l'adaptation de la simultanéité. Avec le redimensionnement Elastic, le cluster est indisponible quatre à huit minutes pendant la période de redimensionnement. Grâce à l'élasticité du stockage Redshift RA3 dans le stockage géré, le cluster est entièrement disponible et les données sont automatiquement transférées entre les nœuds de calcul et de stockage géré.

Q : Quand utiliser la mise à l'échelle de la simultanéité ou le partage des données ?

Le partage des données et la mise à l'échelle de la simultanéité sont des fonctions complémentaires. Avec la mise à l'échelle de la simultanéité, Amazon Redshift vous permet de mettre automatiquement à l'échelle une ou plusieurs charges de travail dans un seul cluster afin de gérer une grande simultanéité et les pics de requêtes. Amazon Redshift augmente automatiquement et de manière élastique la capacité en quelques secondes afin de gérer les pics d'activité des utilisateurs, et la diminue lorsque l'activité baisse. Les applications continuent à interagir avec Amazon Redshift en utilisant un seul point de terminaison de l'application. Le partage de données vous permet de mettre à l'échelle pour traiter diverses charges de travail issues de plusieurs clusters et déployées par divers comptes. Cela permet d'isoler la charge de travail et la facturation, la collaboration entre groupes dans des environnements décentralisés et la mise à disposition des données en tant que service pour les parties prenantes internes et externes. Vous pouvez activer la mise à l'échelle de la simultanéité tant sur les clusters des initiateurs du partage de données que sur les clusters des consommateurs.

Q : Comment gérer les ressources pour veiller à ce que mon cluster Amazon Redshift puisse fournir des performances rapides en permanence pendant les périodes de simultanéité élevée ?

Un entrepôt de données type présente une divergence importante dans l'utilisation simultanée de requêtes au cours d'une journée. Il est plus rentable d'ajouter des ressources uniquement pour la période au cours de laquelle elles sont nécessaires plutôt que d'en allouer aux pics de demande. Amazon Redshift gère automatiquement cela en votre nom.

L'adaptation de la simultanéité est une fonctionnalité d'Amazon Redshift, qui offre des performances de requête toujours élevées, même en présence de milliers de requêtes simultanées. Avec cette fonctionnalité, Amazon Redshift ajoute automatiquement une capacité transitoire dès lors qu'il faut gérer une demande importante. Amazon Redshift achemine automatiquement les requêtes vers des clusters de dimensionnement, qui sont mis en service en quelques secondes et commencent à traiter les requêtes immédiatement.

Cette fonctionnalité est gratuite pour la plupart des clients. Chaque cluster Amazon Redshift bénéficie d'une heure de crédit d'adaptation de la simultanéité gratuit au maximum par jour. Cela vous donne une prévisibilité dans vos coûts mensuels, et ce, même pendant les périodes de fluctuation de la demande en analyse.

Q : Qu'est-ce que le redimensionnement Elastic et en quoi diffère-t-il de l'adaptation de la simultanéité ?

Le redimensionnement Elastic ajoute ou supprime des nœuds d'un seul cluster Redshift en quelques minutes pour gérer son débit de requêtes. Par exemple, une charge de travail ETL durant certaines heures d'un rapport de fin de journée ou de mois peut requérir des ressources Amazon Redshift supplémentaires pour être finalisée à temps. La mise à l'échelle de la simultanéité ajoute des ressources de cluster supplémentaires pour accroître la simultanéité globale des requêtes.

Q : Puis-je accéder directement aux clusters d'adaptation de la simultanéité ?

Non. La mise à l'échelle de la simultanéité est un groupe de ressources Amazon Redshift extrêmement évolutif. Les clients ne peuvent pas y accéder directement.

Intégration et chargement des données

Q : Comment charger des données dans un entrepôt Amazon Redshift ?

Vous pouvez charger les données dans Amazon Redshift à partir de diverses sources de données, notamment Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline et/ou tout hôte compatible SSH, sur Amazon EC2 ou sur site. Amazon Redshift tente de charger vos données en parallèle dans chaque nœud de calcul afin d'optimiser le taux d'absorption des données dans votre cluster d'entrepôts de données. Les clients peuvent se connecter à Amazon Redshift à partir d'ODBC ou de JDBC, puis lancer des commandes SQL « Insert » afin d'insérer les données. Notez, toutefois, que cette méthode est plus lente que d'utiliser les services S3 ou DynamoDB. En effet, ces services chargent les données en parallèle sur chaque nœud de calcul, tandis que les instructions SQL Insert effectuent le chargement à partir d'un seul et même nœud « leader ». Pour en savoir plus sur le chargement de données dans Amazon Redshift, consultez notre manuel de mise en route.

Q : Comment charger des données dans Amazon Redshift à partir de mes sources de données Amazon RDS, Amazon EMR, Amazon DynamoDB et Amazon EC2 existantes ?

Vous pouvez utiliser notre commande COPY pour charger des données en parallèle directement dans Amazon Redshift depuis Amazon EMR, Amazon DynamoDB ou tout hôte compatible SSH. Amazon Redshift Spectrum vous permet également de charger des données dans votre cluster depuis Amazon S3 via une simple commande INSERT INTO. Ainsi, vous pouvez charger des données dans votre cluster à partir de différents formats, notamment Parquet et ORC. Notez cependant que cette approche entraîne une augmentation des frais Redshift Spectrum pour les données analysées depuis Amazon S3. 

AWS Data Pipeline propose une solution performante, fiable et tolérante aux pannes permettant de charger des données à partir de diverses sources de données AWS, comme Amazon RDS vers Redshift. Vous pouvez utiliser AWS Data Pipeline pour spécifier la source de données et les transformations que vous souhaitez apporter à vos données, puis exécuter un script d'importation pré-écrit afin de charger vos données dans Amazon Redshift. En outre, AWS Glue est un service Extract-transform-load (ETL) entièrement géré qui facilite la préparation et le chargement des données pour analytique. Vous pouvez créer et exécuter une tâche ETL AWS Glue en quelques clics grâce à la console de gestion AWS. En outre, de nombreuses sociétés d'ETL ont certifié qu'Amazon Redshift pouvait être utilisé avec leurs outils, et beaucoup d'entre-elles proposent des essais gratuits pour vous aider à débuter dans le chargement de vos données. Certaines de ces fonctions ont aussi implémenté une intégration plus approfondie avec la console Redshift pour découvrir et surveiller plus facilement les pipelines de données dans Amazon Redshift à partir d'une grande variété de sources tierces.

Q : Je dispose d'un grand volume de données à charger pour la première fois dans Amazon Redshift. Le transfert par Internet prendrait beaucoup de temps. Comment puis-je charger ces données ?

Vous pouvez utiliser AWS Snowball afin de transférer les données vers Amazon S3 à partir de périphériques de stockage portables. Vous pouvez également utiliser AWS Direct Connect afin d'établir une connexion réseau privée entre AWS et votre réseau ou centre de données. Pour transférer vos données, vous avez le choix entre les ports de connexion à 1 Gbit/s ou 10 Gbits/s.

Sécurité

Q : Comment Amazon Redshift assure-t-il la sécurité de mes données ?

Amazon Redshift prend en charge la sécurité de pointe du secteur avec l’intégration native à AWS IAM, la fédération d’identité pour l’authentification unique (Signle-Sign On, SSO), l’authentification multi-facteurs, le contrôle d’accès au niveau de la colonne, Amazon Virtual Private Cloud (Amazon VPC), et offre une intégration native à AWS KMS afin de protéger vos données en transit et au repos. Amazon Redshift crypte vos données et protège à la fois vos données en transit et au repos à l'aide de techniques de cryptage standard. Pour assurer la sécurité de vos données en transit, Amazon Redshift prend en charge les connexions SSL entre votre application cliente et votre cluster d'entrepôts de données Amazon Redshift. Pour assurer la sécurité de vos données au repos, Amazon Redshift crypte chaque bloc à mesure qu'il est écrit sur le disque à l'aide du cryptage AES 256 avec accélération matérielle. Cette opération a lieu à un niveau inférieur du sous-système I/O, qui crypte toutes les données écrites sur le disque, y compris les résultats intermédiaires des interrogations. Les blocs sont sauvegardés « en l'état », ce qui signifie que les sauvegardes sont également cryptées. Par défaut, Amazon Redshift se charge de la gestion des clés. Néanmoins, vous avez la possibilité de gérer vos clés via AWS Key Management Service. Toutes les fonctionnalités de sécurité d'Amazon Redshift sont fournies sans frais supplémentaires. Redshift Spectrum prend en charge la fonctionnalité de chargement côté serveur (Server Side Encryption, SSE) d'Amazon S3 à l'aide de la clé par défaut de votre compte, gérée par le service AWS Key Management Service (KMS).

Q : Redshift prend-t-il en charge les contrôles précis des accès tels que la sécurité au niveau des colonnes ?

Oui. Les contrôles précis de sécurité au niveau des colonnes garantissent que les utilisateurs ne voient que les données auxquelles ils doivent avoir accès. Amazon Redshift prend en charge le contrôle des accès au niveau des colonnes des tables locales pour que vous puissiez contrôler l'accès aux différentes colonnes d'une table, ou afficher les autorisations et révocations des privilèges au niveau des colonnes d'un utilisateur ou d'un groupe d’utilisateurs. Redshift est intégré à AWS Lake Formation, garantissant que les contrôles d'accès au niveau des colonnes de Lake Formation sont également appliqués pour les requêtes Redshift sur les données dans le lac de données.

Q: Amazon Redshift prend-il en charge le masquage des données ou la création de jeton des données ?

Les fonctions définies par l'utilisateur AWS Lambda vous permettent d'utiliser une fonction AWS Lambda comme une fonction définie par l'utilisateur dans Amazon Redshift et de l'appeler avec les requêtes SQL Redshift. Avec cette fonctionnalité, vous pouvez écrire des extensions personnalisées pour votre requête SQL afin de renforcer l'intégration avec d'autres services ou des produits tiers. Vous pouvez écrire des fonctions définies par l'utilisateur Lambda pour permettre la création de jeton externe, le masquage des données, l'identification ou la désidentification des données, en intégrant des fournisseurs comme Protegrity, et protéger ou déprotéger les données sensibles en fonction des groupes et des autorisations de l'utilisateur au moment de la requête.

Q : Amazon Redshift prend-t-il en charge l'authentification unique ?

Oui. Les clients qui souhaitent utiliser leurs fournisseurs d'identité d'entreprise tels que Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate ou tout autre fournisseur d'identité conforme à SAML, peuvent configurer Amazon Redshift afin de proposer l'authentification unique.

Q : Comment Amazon Redshift prend-t-il en charge l'authentification unique avec Microsoft Azure Active Directory ?

Vous pouvez vous connecter au cluster Amazon Redshift avec des identités Microsoft Azure Active Directory (AD). Cela vous permet de vous connecter à Redshift sans dupliquer ces identités Azure Active Directory dans Redshift.

Q : Amazon Redshift prend-t-il en charge l'authentification multi-facteurs (MFA) ?

Oui. Vous pouvez utiliser l'authentification multi-facteurs (MFA) pour plus de sécurité au moment de vous identifier pour entrer dans votre cluster Amazon Redshift.

Q : Puis-je utiliser Amazon Redshift dans Amazon Virtual Private Cloud (Amazon VPC) ?

Oui. Vous pouvez utiliser Amazon Redshift dans le cadre de votre configuration de VPC. Avec Amazon VPC, vous pouvez définir une topologie virtuelle de réseau qui ressemble étroitement à un réseau traditionnel que vous pourriez faire fonctionner dans votre propre centre de données. Vous disposez ainsi d'un contrôle total sur les utilisateurs pouvant accéder à votre cluster d'entrepôts des données Redshift. Vous pouvez utiliser Redshift Spectrum avec un cluster Redshift faisant partie de votre Amazon VPC.

Amazon Redshift prend en charge les points de terminaison de VPC gérés (à technologie AWS PrivateLink) pour se connecter au cluster Redshift dans un VPC. Avec un point de terminaison géré par Amazon Redshift, vous pouvez accéder de façon privée à votre entrepôt des données Redshift de votre VPC depuis vos applications client d'un autre VPC dans le même ou autre compte AWS et exécuter sur site sans utiliser des IP publiques ou demander au trafic de passer par Internet.

Q : Puis-je accéder à mes nœuds de calcul Amazon Redshift directement ?

Non. Vos nœuds de calcul Amazon Redshift se trouvent dans un espace réseau privé et sont uniquement accessibles à partir du nœud « leader » de votre cluster d'entrepôts de données. Cela permet d'ajouter une couche de sécurité supplémentaire pour vos données.

Q : Est-ce que Redshift prend en charge le contrôle d'accès basé sur les rôles dans la base de données ? (Pré-annonce)

Amazon Redshift fournira bientôt une prise en charge pour le contrôle d'accès basé sur les rôles.

Disponibilité et durabilité

Q : Si le lecteur associé à l'un de mes nœuds est défaillant, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts des données ?

Amazon Redshift détectera un échec de lecteur ou de nœud dans ces cas-là et remplacera le nœud de cluster automatiquement. Sur les clusters de calcul dense (DC) et de stockage dense (DS2), les données sont stockées sur les nœuds de calcul pour garantir la durabilité élevée des données. Lorsqu'un nœud est remplacé, les données sont actualisées à partir de la copie en miroir sur l'autre nœud.

Les clusters RA3 et Redshift sans serveur ne sont pas impactés de la même manière car les données sont stockées dans Amazon S3 et le lecteur local est simplement utilisé comme cache des données. Lors d'un remplacement de nœud, les données sont récupérées à partir d'Amazon S3. Amazon S3 fournit une garantie de durabilité des données de 99,9999 %. Dans le cas d'un échec de cluster complet ou multinœud, une copie à jour des données est disponible dans S3 et le cluster peut être restauré dans la même zone de disponibilité ou dans une autre zone de disponibilité sans perte de données.

Le cluster d'entrepôts des données reste indisponible pour les requêtes et les mises à jour jusqu'à ce qu'un nœud de remplacement soit alloué et ajouté à la base de données. Amazon Redshift rend votre nœud de remplacement disponible immédiatement et charge vos données les plus utilisées à partir d'Amazon S3 sur RA3 et sans serveur, et à partir du miroir sur cluster DS2 et de calcul dense Amazon (DC2). Les clusters DC2 et DS2 à un seul nœud ne prennent pas en charge la réplication des données. En cas d'échec d'un lecteur, vous devrez restaurer le cluster à partir d'un instantané stocké dans S3. Les clusters RA3.XLPLUS à un seul nœud peuvent être recréés sans perte de données en utilisant les données stockées dans S3 avec l'aide d'AWS Support. Nous vous recommandons donc d'utiliser au moins deux nœuds en mode production pour optimiser la disponibilité.

Q : Si un nœud échoue de manière isolée, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts des données ?

Amazon Redshift détecte automatiquement le nœud en échec dans votre cluster d'entrepôts de données et le remplace. Le cluster d'entrepôts de données reste indisponible pour les interrogations et les mises à jour jusqu'à ce qu'un nœud de remplacement soit mis en service et ajouté à la base de données. Amazon Redshift rend votre nœud de remplacement immédiatement disponible et charge vos données les plus fréquemment consultées à partir d'Amazon S3 afin que vous puissiez reprendre l'interrogation des données aussi rapidement que possible. Les clusters ne comportant qu'un nœud ne prennent pas en charge la réplication des données. En cas de défaillance d'un disque, vous devrez restaurer le cluster à partir d'un instantané stocké dans S3. Nous vous recommandons donc d'utiliser au moins deux nœuds en mode production.

Q : En cas de panne au niveau de la zone de disponibilité (AZ) de mon cluster d'entrepôts de données, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

Si la zone de disponibilité de votre cluster d'entrepôts de données Amazon Redshift n'est plus disponible, Amazon Redshift va automatiquement transférer votre cluster vers une autre zone de disponibilité AWS (AZ) sans entraîner des pertes de données ou des changements de l'application. Pour activer cette procédure, vous devez activer la capacité de transfert dans les paramètres de configuration de votre cluster.

Q : Amazon Redshift prend-il en charge les déploiements multi-AZ ?

Actuellement, Amazon Redshift prend uniquement en charge les déploiements sur une seule région. Pour définir une configuration de reprise après sinistre, vous pouvez activer la copie d'instantané inter-région sur votre cluster. Cela permettra de répliquer tous les instantanés à partir de votre cluster vers une autre région AWS. En cas d'évènement de reprise après sinistre, les instantanés dans la région de réplique peuvent être restaurés pour créer un cluster. Amazon Redshift prend aussi en charge le partage de données inter-région, où un cluster de consommateur peut accéder aux données en direct d'un cluster de producteur dans une autre région. Cette capacité est uniquement prise en charge avec Amazon Redshift Serverless et RA3.

Interrogation et analytique

Q : Amazon Redshift et Redshift Spectrum sont-ils compatibles avec mon package logiciel d'informatique décisionnelle et mes outils d'ETL favoris ?

Oui, Amazon Redshift utilise les instructions SQL standard du secteur et est accessible depuis les pilotes JDBC et ODBC standard. Vous pouvez télécharger les pilotes JDBC et ODBC personnalisés d'Amazon Redshift à partir de l'onglet Connect Client de notre console Redshift. Nous disposons d'intégrations validées auprès de fournisseurs de BI et d'ETL populaires, dont la plupart proposent des essais gratuits pour vous aider à débuter dans le chargement et l'analyse de vos données. Vous pouvez également vous rendre sur AWS Marketplace afin de déployer et configurer en quelques minutes des solutions conçues pour fonctionner avec Amazon Redshift.

Amazon Redshift Spectrum prend en charge tous les outils clients Amazon Redshift. Ces outils clients peuvent continuer à se connecter au point de terminaison du cluster Amazon Redshift à l'aide de connexions ODBC ou JDBC. Aucune modification n'est nécessaire.

Vous utilisez exactement la même syntaxe de requête et avez les mêmes possibilités d'accès aux tables dans Redshift Spectrum que pour les tables du stockage local de votre cluster Redshift. Les tables externes sont référencées à l'aide du nom de schéma défini dans la commande CREATE EXTERNAL SCHEMA utilisée pour leur enregistrement.

Q : Quels sont les formats de données et les formats de compression pris en charge par Amazon Redshift Spectrum ?

Amazon Redshift Spectrum prend actuellement en charge de nombreux formats de données open source, notamment Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text et TSV.

Actuellement, Amazon Redshift Spectrum prend en charge la compression Gzip et Snappy.

Q : Que se passe-t-il si une table dans mon stockage local a le même nom qu'une table externe ?

Comme pour les tables locales, vous pouvez utiliser le nom de schéma pour sélectionner précisément la table souhaitée en insérant la valeur nom_schéma.nom_table dans votre requête.

Q : J'ai recours à un Hive Metastore pour stocker les métadonnées relatives à mon data lake S3. Puis-je utiliser Redshift Spectrum ?

Oui. La commande CREATE EXTERNAL SCHEMA prend en charge les Hive Metastores. Toutefois, nous ne prenons pas encore en charge le langage DDL pour le Hive Metastore.

Q : Comment obtenir la liste de toutes les tables de base de données externes créées dans mon cluster ?

Vous pouvez interroger la table système SVV_EXTERNAL_TABLES pour obtenir cette information.

Q : Redshift permet-il d'utiliser le machine learning avec SQL ?

Oui, la fonction de Amazon Redshift ML permet aux utilisateurs de SQL de créer, d'entraîner et de déployer facilement des modèles de machine learning (ML) en utilisant les commandes SQL habituelles. Amazon Redshift ML vous permet de tirer parti de vos données dans Amazon Redshift avec Amazon SageMaker, un service de ML entièrement géré. Amazon Redshift prend en charge l'apprentissage non supervisé (K-Means) et l'apprentissage supervisé (algorithmes Autopilot, XGBoost, MLP). Vous pouvez également utiliser les services AWS Language AI pour traduire, rédiger et analyser les champs de texte dans les requêtes SQL avec des fonctions Lambda UDF préconstruites – voir l'article de blog.

Q : Amazon Redshift fournit-il une API pour interroger les données ?

Amazon Redshift fournit une API Data que vous pouvez utiliser facilement aux données d'Amazon Redshift avec tous types d'applications (applications basées sur des événements, basées sur des services Web, sans serveur, traditionnelles, natives cloud et conteneurisées). L'API Data simplifie l'accès à Amazon Redshift car vous n'avez pas besoin de configurer les pilotes et de gérer les connexions aux bases de données. Vous pouvez exécuter des commandes SQL sur un cluster Amazon Redshift en appelant un point de terminaison d'API sécurisé fourni par l'API Data. L'API Data prend en charge la gestion des connexions à la base de données et la mise en mémoire tampon des données. L'API Data est asynchrone ; vous pouvez donc récupérer les résultats plus tard. Les résultats de votre requête sont hébergés durant 24 heures.

Q : Quels types d'informations d'identification puis-je utiliser avec l'API Data d'Amazon Redshift ?

L'API Data prend en charge les informations d'identification IAM et les clés secrètes d'AWS Secrets Manager. L'API Data réunit les informations d'identification d'AWS Identity and Access Management (IAM) afin que vous puissiez utiliser des fournisseurs d'identité comme Okta ou Azure Active Directory ou les informations d'identification à la base de données enregistrées dans Secrets Manager sans fournir les informations d'identification à la base de données dans les appels d'API.

Q : Puis-je utiliser l'API Data d'Amazon Redshift depuis l'interface de ligne de commande AWS CLI ?

Oui, vous pouvez utiliser l'API Data depuis l'interface de ligne de commande AWS CLI via l'option de ligne de commande aws redshift-data.

Q : L'API Data Redshift est-elle intégrée à d'autres services AWS ?

Vous pouvez utiliser l'API Data à partir d'autres services comme AWS Lambda, AWS Cloud9, AWS AppSync et Amazon EventBridge.

Q : Dois-je payer séparément pour utiliser l'API Data d'Amazon Redshift ?

Non, il n'y a pas d'autre facturation pour l'utilisation de l'API Data.

Sauvegarde et restauration

Q : Comment Amazon Redshift procède-t-il pour sauvegarder mes données ? Comment restaurer mon cluster à partir d'une sauvegarde ?

Les clusters Amazon Redshift RA3 et Amazon Redshift Serverless utilisent le stockage géré Redshift, qui est toujours la dernière copie des données disponible. Les clusters DS2 et DC2 reflètent en miroir les données sur le cluster pour s'assurer que la dernière copie est disponible en cas d'échec. Les sauvegardes sont automatiquement créées sur tous les types de cluster Redshift et retenues pendant 24 heures, et sur des points de reprise sans serveurs fournis pour les 24 dernières heures.

Vous pouvez aussi créer vos propres sauvegardes qui peuvent être retenues indéfiniment. Ces sauvegardes peuvent être créées à tout moment, et les sauvegardes automatisées Amazon Redshift ou les points de récupération Amazon Redshift Serverless peuvent être convertis en une sauvegarde utilisateurs pour une rétention plus longue.

Amazon Redshift peut également répliquer de façon asynchrone vos instantanés ou points de reprise sur Amazon S3, dans une autre région, à des fins de reprise après sinistre.

Sur un cluster DS2 ou DC2, le stockage de sauvegarde gratuit est limité à la taille totale du stockage sur les nœuds appartenant au cluster d'entrepôts des données. Il s'applique uniquement aux clusters d'entrepôts des données actifs.

Par exemple, pour un stockage total de 8 To d'entrepôts des données, nous fournissons jusqu'à 8 To de stockage de sauvegarde sans frais supplémentaires. Si vous souhaitez prolonger la période de rétention des sauvegardes au-delà d'une journée, utilisez la console de gestion AWS ou les API Amazon Redshift. Pour en savoir plus sur les instantanés automatiques, consultez Amazon Redshift Management Guide.

Amazon Redshift sauvegarde uniquement les données qui ont été modifiées. Ainsi, la plupart des instantanés n'utilisent qu'une faible portion de votre stockage de sauvegarde gratuit. Lorsque vous avez besoin de restaurer une sauvegarde, vous avez accès à toutes les sauvegardes automatisées dans votre fenêtre de rétention des sauvegardes. Une fois que vous avez choisi la sauvegarde à partir de laquelle procéder à la restauration, nous mettons en service un nouveau cluster d'entrepôts de données et restaurons vos données sur celui-ci.

Q : Comment gérer la rétention de mes sauvegardes et instantanés (snapshots) automatiques ?

Vous pouvez utiliser AWS Management Console ou l'API ModifyCluster pour gérer la période pendant laquelle vos sauvegardes automatiques sont conservées via le paramètre RetentionPeriod. Si vous souhaitez désactiver complètement les sauvegardes automatiques, vous pouvez définir la période de rétention sur 0 (bien que cette option ne soit pas recommandée).

Q : Qu'arrive-t-il à mes sauvegardes si je supprime mon cluster d'entrepôts de données ?

Lorsque vous supprimez un cluster d'entrepôt de données, vous avez la possibilité de spécifier si un instantané final est créé lors de la suppression. Cela permet d'effectuer une restauration ultérieure du cluster d'entrepôt de données supprimé. Tous les instantanés de votre cluster d'entrepôts des données que vous aurez créés manuellement seront retenus et facturés selon les tarifs standard Amazon S3, sauf si vous choisissez de les supprimer.

Surveillance et maintenance

Q : Comment puis-je contrôler les performances de mon cluster d'entrepôts des données Amazon Redshift ?

Les mesures relatives à l'utilisation des capacités de calcul et de stockage, ainsi qu'au trafic en lecture/écriture de votre cluster d'entrepôts de données Amazon Redshift, sont disponibles gratuitement via AWS Management Console ou les API Amazon CloudWatch. Vous pouvez également ajouter des mesures supplémentaires que vous aurez définies, via la fonctionnalité de mesures personnalisées d'Amazon CloudWatch. AWS Management Console fournit un tableau de bord de surveillance qui vous aide à surveiller la santé et les performances de tous vos clusters. Amazon Redshift fournit également des informations sur les performances des interrogations et du cluster via AWS Management Console. Ces informations vous permettent de voir quels utilisateurs et requêtes consomment le plus de ressources système afin de diagnostiquer les problèmes de performances en consultant les plans de requête et les statistiques d'exécution. Vous pouvez également consulter l'utilisation des ressources sur chacun de vos nœuds de calcul, afin de vous assurer que vos données et requêtes sont correctement équilibrées sur tous les nœuds.

Q : Qu'est-ce qu'une fenêtre de maintenance ? Mon cluster d'entrepôts de données sera-t-il disponible pendant la maintenance logicielle ?

Amazon Redshift effectue périodiquement des opérations de maintenance pour apporter des correctifs, des améliorations et de nouvelles fonctionnalités à votre cluster. Vous pouvez changer les fenêtres de maintenance planifiées en modifiant le cluster par programmation ou avec Redshift Console. Durant ces fenêtres de maintenance, votre cluster Amazon Redshift n'est pas disponible pour les opérations normales. Pour en savoir plus sur les fenêtres de maintenance et les programmations par région, consultez la section Fenêtres de maintenance du manuel Amazon Redshift Management Guide.

En savoir plus sur la tarification d'Amazon Redshift

Visiter la page de tarification
Prêt à concevoir ?
Démarrer avec Amazon Redshift
D'autres questions?
Contactez-nous