Quels sont les cas d'utilisation pour le partage des données ?

<p>Voici de cas d'utilisation clé :</p> <ul> <li>Un cluster ETL central partageant des données avec de nombreux clusters d'analytique/de BI pour fournir un isolement de la charge de travail de lecture et une possibilité de facturation facultative.</li> <li>Un fournisseur de données partageant des données avec des consommateurs externes.</li> <li>Le partage de jeux de données courants tels que les clients et les produits, avec différents groupes métiers et la collaboration pour de vastes analytiques et la science des données.</li> <li>Décentralisation d'un entrepôt des données pour simplifier la gestion.</li> <li>Le partage des données entre les environnements de développement, de test et de production.</li> <li>L'accès aux données Redshift à partir d'autres services d'analytique AWS.</li> </ul>

Analytique›
Amazon Redshift›
FAQ sur Amazon Redshift

FAQ sur Amazon Redshift

Démarrer avec Amazon Redshift

Questions d'ordre général

Qu'est-ce qu'Amazon Redshift ?

Des dizaines de milliers de clients utilisent chaque jour Amazon Redshift pour exécuter des analyses SQL dans le cloud, en traitant des exaoctets de données pour obtenir des informations commerciales. Que vos données croissantes soient stockées dans des magasins de données opérationnels, des lacs de données, des services de données en continu ou des ensembles de données tiers, Amazon Redshift vous aide à accéder, combiner et partager les données en toute sécurité avec un minimum de mouvements ou de copies. Amazon Redshift est profondément intégré aux services de base de données, d'analyse et de machine learning d'AWS afin d'employer des approches Zero-ETL ou de vous aider à accéder aux données en place pour des analyses en temps quasi réel, à construire des modèles de machine learning en SQL et à activer les analyses Apache Spark à l'aide de données dans Redshift. Amazon Redshift Serverless permet à vos ingénieurs, développeurs, scientifiques de données et analystes de se lancer facilement et de faire évoluer rapidement les analyses dans un environnement à administration zéro. Grâce à son moteur MPP (Massively Parallel Processing) et à son architecture qui sépare le calcul et le stockage pour une mise à l'échelle efficace, ainsi qu'à des innovations en matière de performances basées sur le machine learning (par exemple : AutoMaterialized Views), Amazon Redshift est conçu pour la mise à l'échelle et offre des performances jusqu'à 5 fois supérieures à celles des autres entrepôts de données en nuage.

Quelles sont les principales raisons pour lesquelles les clients choisissent Amazon Redshift ?

Des milliers de clients choisissent Amazon Redshift pour accélérer leur temps de compréhension, car il s'agit d'un système d'analyse puissant qui s'intègre bien aux services de base de données et de machine learning, dont l'utilisation est simplifiée et qui peut devenir un service central pour répondre à tous leurs besoins d'analyse. Amazon Redshift Serverless alloue et met à l'échelle automatiquement la capacité de l'entrepôt des données pour fournir des performances élevées aux charges de travail exigeantes et imprévisibles. Amazon Redshift offre des performances de premier ordre en termes de prix pour diverses charges de travail analytiques, qu'il s'agisse de tableaux de bord, de développement d'applications, de partage de données, de tâches ETL (Extract, Transform, Load) ou de plusieurs autres. Avec des dizaines de milliers de clients exécutant des analyses sur des téraoctets à des pétaoctets de données, Amazon Redshift optimise les performances des charges de travail des clients dans le monde réel, en se basant sur la télémétrie des performances de la flotte, et fournit des performances qui évoluent de manière linéaire par rapport à la charge de travail, tout en maintenant des coûts faibles. Les innovations en matière de performance sont disponibles pour les clients sans coût supplémentaire. Amazon Redshift vous permet d'obtenir des informations en exécutant l'analytique en temps réel et prédictive sur toutes les données de l'ensemble de vos bases de données, lacs de données, entrepôts des données, données streaming et jeux de donnés tiers opérationnels. Amazon Redshift prend en charge une sécurité de pointe avec une gestion des identités et une fédération pour l'authentification unique (SSO), l'authentification multifactorielle, le contrôle d'accès au niveau des colonnes, la sécurité au niveau des lignes, le contrôle précis des accès Amazon Virtual Private Cloud (Amazon VPC) et un redimensionnement plus rapide du cluster.

Comment Amazon Redshift simplifie-t-il la gestion des entrepôts des données et la gestion analytique ?

Amazon Redshift est entièrement géré par AWS et vous n'avez plus besoin de vous soucier des tâches de gestion de l'entrepôt des données telles que l'approvisionnement matériel, l'application de correctifs logiciels, l'installation, la configuration, la surveillance des nœuds et des lecteurs pour reprendre après des échecs ou des sauvegardes. AWS gère le travail nécessaire pour installer, opérer et mettre à l'échelle un entrepôt des données à votre place, vous permettant ainsi de vous concentrer sur la création de vos applications. Amazon Redshift Serverless alloue et met à l'échelle automatiquement la capacité de l'entrepôt des données pour fournir des performances élevées aux charges de travail exigeantes et imprévisibles, et vous ne payez que pour les ressources que vous utilisez. Amazon Redshift dispose également de capacités de réglage automatique et d'espaces de recommandations pour la gestion de votre entrepôt dans Redshift Advisor. Avec Redshift Spectrum, Amazon Redshift gère l'ensemble de l'infrastructure de calcul, de la répartition de charge, de la planification, de la programmation et de l'exécution de vos requêtes portant sur les données stockées dans Amazon S3. Amazon Redshift permet l'analyse de toutes vos données grâce à une intégration profonde dans les services de base de données avec des fonctionnalités telles que Amazon Aurora Zero-ETL vers Amazon Redshift et la requête fédérée pour accéder aux données en place à partir de bases de données opérationnelles comme Amazon RDS et votre lac de données Amazon S3. Redshift permet de rationaliser l'ingestion de données grâce à des pipelines de données automatisés et sans code qui ingèrent automatiquement des données en continu ou des fichiers Amazon S3. Redshift est également intégré à AWS Data Exchange, ce qui permet aux utilisateurs de trouver, de s'abonner et d'interroger des ensembles de données tiers et de les combiner avec leurs données pour obtenir des informations complètes. Grâce à l'intégration native dans Amazon SageMaker, les clients peuvent rester dans leur entrepôt de données et créer, entraîner et construire des modèles de machine learning en SQL. Amazon Redshift offre un rapport prix/performances sur tous vos besoins analytiques SQL jusqu'à 5 fois supérieur à celui d'autres entrepôts des données cloud.

Quelles sont les options de déploiement d'Amazon Redshift ?

Amazon Redshift est un service entièrement géré et offre les deux options avec allocation et sans serveur. Il est ainsi plus efficace d'exécuter et de mettre à l'échelle les analytiques sans devoir gérer tout votre entrepôt des données. Vous pouvez lancer un nouveau point de terminaison Amazon Redshift Serverless pour provisionner automatiquement l'entrepôt de données en quelques secondes ou choisir l'option provisionnée pour les charges de travail prévisibles.

Comment démarrer avec Amazon Redshift ?

En quelques étapes dans la console de gestion AWS, vous pouvez démarrer l'interrogation des données. Vous pouvez tirer parti des jeux de données d'échantillons préchargés, y compris des jeux de données de référence TPC-H, TPC-DS et d'autres exemples de requêtes pour démarrer l'analytique sans délai. Pour démarrer avec Amazon Redshift Serverless, choisissez « Try Amazon Redshift Serverless » (Essayer Amazon Redshift Serverless) et commencez à interroger les données. Cliquez ici pour commencer.

Comment les performances d'Amazon Redshift se comparent-elles à celles des autres entrepôts des données ?

Les résultats de référence TPC-DS indiquent qu'Amazon Redshift fournit le meilleur rapport prix/performances prêt à l'emploi, même pour un jeu de données comparativement petit de 3 To. Amazon Redshift offre un rapport prix/performances jusqu'à 5 fois supérieur à celui d'autres entrepôts des données cloud. Cela signifie que vous pouvez bénéficier du rapport prix/performances d'Amazon Redshift dès le début sans réglage manuel. Sur la base de la télémétrie de notre flotte de performance, nous savons également que la plupart des charges de travail sont des charges de travail à requête courte (charges de travail qui s'exécutent en moins d'une seconde). Pour ces charges de travail, les derniers bancs d'essai démontrent qu'Amazon Redshift offre des performances jusqu'à 7 fois supérieures en termes de prix pour les charges de travail à forte concurrence et à faible latence que les autres entrepôts de données en nuage. En savoir plus ici.

Puis-je obtenir de l'aide pour en savoir plus sur Amazon Redshift et sur son intégration ?

Oui, des spécialistes Amazon Redshift sont disponibles pour répondre à vos questions et vous fournir un support. Contactez-nous et nous vous répondrons dans un délai d'un jour ouvrable pour discuter de la manière dont AWS peut aider votre organisation.

Qu'est-ce le stockage géré d'Amazon Redshift ?

Le stockage géré d'Amazon Redshift est disponible avec les types de nœuds RA3 et sans serveur. Il vous permet également de mettre à l'échelle et de payer indépendamment le calcul et le stockage, ce qui fait que vous pouvez dimensionner votre cluster en fonction de vos besoins en calcul. Il utilise automatiquement un stockage local SSD à hautes performances comme cache de niveau 1 et tire profit des optimisations telles que la température des blocs de données, l'âge des blocs de données et les modèles de charge de travail afin d'offrir de hautes performances tout en mettant à l'échelle automatiquement le stockage dans Amazon S3 lorsque cela est nécessaire et sans requérir aucune action de votre part.

Comment utiliser le stockage géré d'Amazon Redshift ?

Si vous utilisez déjà les nœuds de stockage denses (DS) ou de calcul denses (DC) d'Amazon Redshift, vous pouvez utiliser le redimensionnement Elastic pour mettre à niveau vos clusters existants vers la nouvelle instance de calcul RA3. Amazon Redshift Serverless et les clusters utilisant l'instance RA3 utilisent automatiquement le stockage géré par Redshift pour stocker les données. Aucune autre action en dehors de l'utilisation d'instances Amazon Redshift Serverless ou RA3 est requise pour utiliser cette capacité.

Comment puis-je exécuter des requêtes à partir de Redshift pour les données stockées dans le lac de données AWS ?

Amazon Redshift Spectrum est une fonction d'Amazon Redshift qui vous permet d'exécuter des requêtes par rapport à votre lac de données dans Amazon S3, sans chargement des données ou d'ETL requis. Lorsque vous envoyez une requête SQL, elle est dirigée vers le point de terminaison Amazon Redshift, qui génère et optimise un plan de requête. Amazon Redshift détermine si les données sont stockées en local ou dans Amazon S3, génère un plan pour réduire le volume de données S3 qui doivent être lues et demande à des programmes d'exécution Amazon Redshift Spectrum au sein d'un groupe de ressources partagées de lire et traiter les données en provenance de Amazon S3.

Quand dois-je envisager l'utilisation d'instances RA3 ?

Envisagez de choisir les types de nœud RA3 dans ces cas :

Vous avez besoin de flexibilité pour mettre à l'échelle et payer le calcul séparément du stockage.
Vous interrogez une fraction du total de vos données.
Le volume de vos données croît rapidement ou il est attendu que cela soit le cas.
Vous voulez de la flexibilité pour dimensionner le cluster uniquement en fonction de vos besoins en performance.

À mesure que l'échelle des données continue de croître, atteignant des pétaoctets, la quantité de données que vous intégrez dans votre entrepôt des données Amazon Redshift augmente aussi. Vous cherchez peut-être comment analyser toutes vos données de manière plus économique.

Grâce aux nouvelles instances Amazon Redshift RA3 avec un stockage géré, vous pouvez choisir le nombre de nœuds en fonction de vos exigences de performance, et uniquement payer pour le stockage géré utilisé. Vous bénéficiez de la flexibilité de dimensionner votre cluster RA3 en fonction de la quantité de données que vous traitez chaque jour, sans augmenter vos coûts de stockage. Créées sur AWS Nitro System, les instances RA3 avec stockage géré utilisent des SSD haute performance pour vos données chaudes et Amazon S3 pour vos données froides, offrant un stockage rentable et facile à utiliser, ainsi que des performances de requête rapides.

Quelle fonctionnalité puis-je utiliser pour l'analyse de la localisation ?

Amazon Redshift Spatial fournit des analytiques basées sur les emplacements afin d'obtenir des informations riches sur vos données. Cette solution intègre en toute transparence des données métier et spatiale pour fournir des analytiques à des fins de prise de décision. En novembre 2019, Amazon Redshift a lancé un support de traitement de données spatiales natif, utilisant des données polymorphiques de type GÉOMÉTRIE et plusieurs fonctions spatiales SQL clé. Nous prenons maintenant en charge le type de données GEOGRAPHY et notre bibliothèque de fonctions spatiales SQL en contient à présent 80. Nous prenons en charge tous les types de données spatiales courants et standards, y compris Shapefiles, GeoJSON, WKT, WKB, eWKT et eWKB. Pour en savoir plus, consultez la page de documentation ou la page Didacticiel Amazon Redshift Spatial.

Comment le support SQL d'Athena se compare-t-il à celui de Redshift, et comment puis-je choisir entre les deux services?

Amazon Athena et Amazon Redshift Serverless répondent à des besoins et des cas d'utilisation différents même si les deux services sont sans serveur et activer les utilisateurs SQL.

Avec son architecture MPP (Massively Parallel Processing) qui sépare le stockage et le calcul et les capacités d'optimisation automatique menées par le machine learning, un entrepôt de données comme Amazon Redshift, qu'il soit sans serveur ou provisionné, est un excellent choix pour les clients qui ont besoin des meilleures performances en termes de prix à n'importe quelle échelle pour les charges de travail complexes de BI et d'analyse. Les clients peuvent utiliser Amazon Redshift comme un composant central de leur architecture de données avec des intégrations profondes disponibles pour accéder aux données en place ou ingérer ou déplacer facilement les données dans l'entrepôt pour des analyses de haute performance, grâce à des méthodes ZeroETL et no-code. Les clients peuvent accéder aux données stockées dans Amazon S3, aux bases de données opérationnelles comme Aurora et Amazon RDS, aux entrepôts de données de tiers grâce à l'intégration avec AWS Data Exchange, et les combiner avec les données stockées dans l'entrepôt de données Amazon Redshift pour l'analyse. Ils peuvent facilement lancer l'entreposage de données et effectuer du machine learning sur toutes ces données.

Amazon Athena est bien adapté à l'analyse interactive et à l'exploration des données de votre lac de données ou de toute autre source de données grâce à un cadre de connecteurs extensible (plus de 30 connecteurs prêts à l'emploi pour les applications et les systèmes d'analyse sur site ou dans le nuage) sans avoir à se soucier de l'ingestion ou du traitement des données. Amazon Athena s'appuie sur des moteurs et des cadres open-source tels que Spark, Presto et Apache Iceberg, ce qui donne aux clients la possibilité d'utiliser Python ou SQL ou de travailler sur des formats de données ouverts. Si les clients veulent faire de l'analyse interactive en utilisant des cadres et des formats de données open-source, Amazon Athena est un excellent point de départ.

Sans serveur

Qu'est-ce qu'Amazon Redshift sans serveur ?

Amazon Redshift Serverless est une option sans serveur d'Amazon Redshift qui rend plus efficace l'exécution et la mise à l'échelle des analytiques en secondes, sans devoir installer et gérer une infrastructure d'entrepôt des données. Avec Redshift Serverless, n'importe quel utilisateur, notamment analyste de données, développeur, professionnel de l'informatique et scientifique des données, peut obtenir des informations à partir des données, simplement en chargeant les données dans l'entrepôt des données et en les interrogeant.

Comment démarrer avec Amazon Redshift sans serveur ?

En seulement quelques étapes dans la console de gestion AWS, vous pouvez choisir « Configure Amazon Redshift Serverless » (Configurer Amazon Redshift Serverless) et commencer à interroger les données. Vous pouvez tirer parti des jeux de données d'échantillons préchargés, tels que les données météo, les données de recensement et les jeux de données de référence, ainsi que des exemples de requêtes pour démarrer l'analytique sans délai. Vous pouvez également créer des bases de données, des schémas, des tables et charger des données à partir d'Amazon S3, accéder aux données via les partages de données Amazon Redshift ou effectuer une restauration à parti d'un instantané de cluster alloué Redshift existant. Vous pouvez par ailleurs interroger directement les données dans des formats ouverts (comme Parquet ou ORC) dans le lac de données Amazon S3, ou interroger des données dans des bases de données opérationnelles, notamment Amazon Aurora, Amazon RDS PostgreSQL et MySQL. Consultez le Guide de démarrage.

Quels sont les avantages d'utiliser Amazon Redshift sans serveur ?

Si vous n'avez pas d'expérience dans la gestion d'entrepôt des données, vous n'avez pas à vous soucier de l'installation, de la configuration, de la gestion des clusters ou du réglage de l'entrepôt. Vous pouvez vous concentrer sur l'obtention d'informations importantes à partir de vos données ou sur la façon d'atteindre vos résultats métiers principaux via les données. Vous ne payez que pour ce que vous utilisez, ce qui permet de gérer les coûts. Vous bénéficiez toujours de toutes les meilleures performances d'Amazon Redshift, des fonctions SQL riches, de l'intégration transparente avec les lacs de données et des entrepôts des données opérationnels, ainsi que des analytiques prévisibles et des fonctionnalités de partage des données. Si vous souhaitez un contrôle plus précis de votre entrepôt des données, vous pouvez allouer des clusters Redshift.

Comment fonctionne Amazon Redshift sans serveur avec les autres services AWS ?

Vous pouvez continuer d'utiliser toutes les multiples fonctionnalités d'analytique d'Amazon Redshift, comme les jointures complexes, les requêtes directes de données dans le lac de données et les bases de données opérationnelles Amazon S3, les vues matérialisées, les procédures stockées, la prise en charge de données semi-structurées et le ML, ainsi que des performances élevées à grande échelle. Tous les services connexes avec lesquels Amazon Redshift s'intègre (comme Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation et AWS Glue) continuent de fonctionner avec Amazon Redshift Serverless.

Quels cas d'utilisation puis-je gérer avec Amazon Redshift sans serveur ?

Vous pouvez continuer à exécuter tous les cas d'utilisation d'analytique. Avec un simple flux de mise en route, une scalabilité automatique et la possibilité de payer en fonction de l'utilisation, l'expérience Amazon Redshift Serverless, plus efficace et plus rentable, permet d'exécuter et de tester les environnements ayant besoin de démarrer rapidement, les analytiques métiers ad-hoc, les charges de travail avec des besoins en calcul qui varient et sont imprévisibles, et des charges de travail intermittentes et sporadiques.

Absorption et chargement de données

Comment puis-je charger des données dans mon entrepôt des données Amazon Redshift ?

Vous pouvez charger les données dans Amazon Redshift à partir de diverses sources de données, notamment Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline et/ou tout hôte compatible SSH, sur Amazon EC2 ou sur site. Amazon Redshift tente de charger vos données en parallèle dans chaque nœud de calcul afin d'optimiser le taux d'absorption des données dans votre cluster d'entrepôts de données. Les clients peuvent se connecter à Amazon Redshift à partir d'ODBC ou de JDBC, puis lancer des commandes SQL « Insert » afin d'insérer les données. Notez, toutefois, que cette méthode est plus lente que d'utiliser les services S3 ou DynamoDB. En effet, ces services chargent les données en parallèle sur chaque nœud de calcul, tandis que les instructions SQL Insert effectuent le chargement à partir d'un seul et même nœud « leader ». Pour en savoir plus sur le chargement de données dans Amazon Redshift, consultez notre Guide de mise en route.

En quoi la copie automatique de Redshift est-elle différente de la commande de copie ?

Redshift auto-copy permet d'automatiser les relevés de copie en suivant les dossiers Amazon S3 et en ingérant les nouveaux fichiers sans intervention du client. Sans copie automatique, une instruction de copie lance immédiatement le processus d'ingestion de fichiers pour les fichiers existants. Auto-copy étend la commande de copie existante et permet 1/ d'automatiser le processus d'ingestion de fichiers en surveillant les chemins d'accès Amazon S3 spécifiés pour les nouveaux fichiers, 2/ de réutiliser les configurations de copie, réduisant ainsi la nécessité de créer et d'exécuter de nouvelles instructions de copie pour les tâches d'ingestion répétitives et 3/ de garder la trace des fichiers chargés pour éviter la duplication des données.

Comment démarrer avec la copie automatique de Redshift ?

Pour commencer, les clients doivent disposer d'un dossier Amazon S3, auquel leur cluster Redshift/terminal sans serveur peut accéder à l'aide des rôles IAM associés, et créer une table Redshift à utiliser comme cible. Une fois qu'un chemin Amazon S3 et la table Redshift sont prêts, les clients peuvent créer un travail de copie en utilisant la commande de copie. Une fois la tâche de copie créée, Redshift commence à suivre le chemin Amazon S3 spécifié en arrière-plan et lance les instructions de copie définies par l'utilisateur pour copier automatiquement les nouveaux fichiers dans la table cible.

Quels sont les cas d'utilisation de l'intégration d'Amazon Redshift pour Apache Spark ?

Les principaux cas d'utilisation sont les suivants : 1/ Les clients utilisant Amazon EMR et AWS Glue pour exécuter des tâches Apache Spark qui accèdent aux données et les chargent dans Amazon Redshift dans le cadre des pipelines d'ingestion et de transformation des données (batch et streaming) 2/ Les clients utilisant Amazon SageMaker pour effectuer de machine learning à l'aide d'Apache Spark et doivent accéder aux données stockées dans Amazon Redshift pour l'ingénierie et la transformation des fonctionnalités. 3/Clients d'Amazon Athena utilisant Apache Spark pour effectuer une analyse interactive des données dans Amazon Redshift.

Quels sont les bénéfices de l'intégration Amazon Redshift pour Apache Spark ?

Baikal offre les avantages suivants :

Facilité d'utilisation pour démarrer et exécuter des applications Apache Spark sur des données dans Amazon Redshift, sans avoir à vous soucier des étapes manuelles nécessaires à la configuration et à la maintenance des versions non certifiées de Spark
Possibilité d'utiliser Apache Spark à partir de différents services AWS tels qu'Amazon EMR, AWS Glue, Amazon Athena et Amazon SageMaker avec Amazon Redshift pour une configuration minimale
Performances améliorées lors de l'exécution des applications Apache Spark sur Amazon Redshift

Quand dois-je utiliser Amazon Aurora Zero-ETL vers Amazon Redshift au lieu de Federated Querying ?

Amazon Aurora Zero-ETL to Amazon Redshift permet aux clients d'Amazon Aurora et d'Amazon Redshift d'exécuter des analyses et une machine learning en temps quasi réel sur des pétaoctets de données transactionnelles en offrant une solution entièrement gérée pour rendre les données transactionnelles d'Amazon Aurora disponibles dans Amazon Redshift quelques secondes après leur écriture. Avec Amazon Aurora Zero-ETL to Amazon Redshift, les clients choisissent simplement les tables Amazon Aurora contenant les données qu'ils souhaitent analyser avec Amazon Redshift, et la fonctionnalité réplique de manière transparente le schéma et les données dans Amazon Redshift. Les clients n'ont plus besoin de construire et de gérer des pipelines de données complexes, ce qui leur permet de se concentrer sur l'amélioration de leurs applications. Avec Amazon Aurora Zero-ETL to Amazon Redshift, les clients peuvent répliquer les données de plusieurs clusters de bases de données Amazon Aurora dans la même instance Amazon Redshift pour obtenir des informations complètes sur plusieurs applications, tout en consolidant leurs principaux actifs analytiques, ce qui leur permet de réaliser des économies et de gagner en efficacité opérationnelle. Avec Amazon Aurora Zero-ETL to Amazon Redshift, les clients peuvent également accéder aux principales fonctionnalités d'analyse et de machine learning d'Amazon Redshift, telles que les vues matérialisées, le partage de données et l'accès fédéré à plusieurs magasins de données et lacs de données. Cela permet aux clients de combiner l'analyse en temps quasi réel et l'analyse de base afin d'obtenir efficacement des informations sensibles au temps qui éclairent les décisions commerciales. En outre, les clients utilisent Amazon Aurora pour les transactions et Amazon Redshift pour les analyses, de sorte qu'il n'y a pas de ressources informatiques partagées, ce qui donne une solution performante et stable sur le plan opérationnel.

Comment Amazon Aurora Zero-ETL vers Amazon Redshift se rapporte-t-il/travaille-t-il avec d'autres services AWS ?

L'intégration zéro ETL d'Amazon Aurora à Amazon Redshift permet une intégration parfaite entre les deux services pour l'analyse transactionnelle.

Comment fonctionne l'ingestion de streaming ?

Les données en continu sont différentes des tableaux traditionnels des bases de données, car lorsque vous interrogez un flux, vous saisissez l'évolution d'une relation variable dans le temps. Les tableaux, quant à eux, capturent un instantané ponctuel de cette relation qui varie dans le temps. Les clients d'Amazon Redshift sont habitués à opérer sur des tables régulières et à effectuer un traitement en aval (c'est-à-dire des transformations) des données en utilisant un modèle batch traditionnel, par exemple « ELT ». Nous fournissons une méthode pour utiliser les vues matérialisées (MV) de Redshift afin que les clients puissent facilement matérialiser une vue ponctuelle du flux, tel qu'il a été accumulé jusqu'au moment où il est interrogé, aussi rapidement que possible pour prendre en charge les flux de PEL.

Partage de données

Qu'est-ce que les requêtes inter-bases de données dans Amazon Redshift ?

Avec les requêtes inter-bases de données, vous pouvez rechercher des données et y accéder sans problème dans toutes les bases de données Redshift auxquelles vous avez accès, peu importe la base de données à laquelle vous êtes connecté. Cela concerne tant les bases de données locales sur le cluster que les jeux de données partagés disponibles sur des clusters distants. Les requêtes inter-bases de données vous offrent la flexibilité nécessaire pour organiser vos données dans différentes bases afin de permettre les configurations multi-locataire.

Qui sont les principaux utilisateurs d'AWS Data Exchange ?

AWS Data Exchange permet aux clients AWS d'échanger plus efficacement et d'utiliser des données tierces dans AWS en toute sécurité. Les analystes de données, les responsables de produits, les responsables de portefeuilles, les scientifiques des données, les analystes quantitatifs, les techniciens d'essais cliniques et les développeurs de pratiquement tous les secteurs aimeraient accéder à plus de données pour stimuler les analytiques, entraîner les modèles ML et prendre des décisions orientées données. Mais il n'existe pas d'emplacement unique où trouver les données provenant de plusieurs fournisseurs et aucune cohérence de livraison des données, et les utilisateurs doivent gérer un mélange de supports physiques expédiés, d'informations d'identification FTP et d'appels d'API personnalisés. De même, de nombreuses organisations voudraient que leurs données soient disponibles à des fins de recherche ou commerciales, mais il est trop difficile et coûteux de créer et de maintenir la livraison des données, les droits et la technologie de facturation, réduisant davantage l'approvisionnement de données précieuses.

Capacité de mise à l'échelle et simultanéité

Comment puis-je mettre à l'échelle la taille et les performances de mon cluster d'entrepôt des données Amazon Redshift ?

Amazon Redshift Serverless alloue automatiquement la capacité de l'entrepôt de données et fait évoluer intelligemment les ressources sous-jacentes. Amazon Redshift Serverless ajuste la capacité en quelques secondes pour offrir des performances élevées et constantes et des opérations simplifiées, même pour les charges de travail les plus exigeantes et les plus volatiles. Avec la fonction de mise à l'échelle de la simultanéité, vous pouvez prendre en charge un nombre quasi illimité d'utilisateurs et de requêtes simultanés, avec des performances de requêtes constamment rapides. Lorsque la mise à l'échelle de la simultanéité est activée, Amazon Redshift ajoute automatiquement une capacité de cluster supplémentaire lorsque le nombre de requêtes en file attente de votre cluster augmente.

Pour une mise à l'échelle manuelle, si vous souhaitez augmenter les performances de requête ou remédier à une surutilisation du CPU, de la mémoire ou des E/S, vous pouvez augmenter le nombre de nœuds figurant dans votre cluster d'entrepôts des données à l'aide du redimensionnement Elastic via la console de gestion AWS ou l'API ModifyCluster. Les modifications que vous apportez à votre cluster d'entrepôts des données sont immédiatement appliquées. Les métriques relatives à l'utilisation des capacités de calcul et de stockage, ainsi qu'au trafic en lecture/écriture de votre cluster d'entrepôts des données Redshift, sont disponibles gratuitement via la console de gestion AWS ou les API Amazon CloudWatch. Vous pouvez également ajouter des métriques définies par l'utilisateur, via la fonctionnalité de métriques personnalisées d'Amazon CloudWatch.

Avec Amazon Redshift Spectrum, vous pouvez exécuter plusieurs clusters Redshift accédant aux mêmes données dans Amazon S3. Il est ainsi possible de faire appel à différents clusters selon les cas d'utilisation. Par exemple, vous pouvez utiliser un cluster pour la génération de rapports standard, et un autre pour les requêtes de science des données. Votre équipe marketing peut avoir ses propres clusters, bien distincts de ceux de l'équipe des opérations. Redshift Spectrum répartit automatiquement l'exécution de la requête entre plusieurs programmes d'exécution Redshift Spectrum au sein d'un groupe de ressources partagées, chargés de lire et traiter les données provenant d'Amazon S3, puis redirige les résultats vers votre cluster Redshift pour les éventuelles tâches de traitement restantes.

Mon cluster d'entrepôts des données restera-t-il disponible pendant la mise à l'échelle ?

Cela dépend. Lorsque vous utilisez la fonctionnalité d'adaptation de la simultanéité, le cluster est entièrement disponible en lecture et en écriture lors de l'adaptation de la simultanéité. Avec le redimensionnement Elastic, le cluster est indisponible quatre à huit minutes pendant la période de redimensionnement. Grâce à l'élasticité du stockage Redshift RA3 dans le stockage géré, le cluster est entièrement disponible et les données sont automatiquement transférées entre les nœuds de calcul et de stockage géré.

Qu'est-ce que le redimensionnement Elastic et en quoi diffère-t-il de la mise à l'échelle de la simultanéité ?

Le redimensionnement Elastic ajoute ou supprime des nœuds d'un seul cluster Redshift en quelques minutes pour gérer son débit de requêtes. Par exemple, une charge de travail ETL durant certaines heures d'un rapport de fin de journée ou de mois peut requérir des ressources Amazon Redshift supplémentaires pour être finalisée à temps. La mise à l'échelle de la simultanéité ajoute des ressources de cluster supplémentaires pour accroître la simultanéité globale des requêtes.

Puis-je accéder directement aux clusters de mise à l'échelle de la simultanéité ?

Non. La mise à l'échelle de la simultanéité est un groupe de ressources Amazon Redshift extrêmement évolutif. Les clients ne peuvent pas y accéder directement.

Sécurité

Comment Amazon Redshift assure-t-il la sécurité de mes données ?

Amazon Redshift prend en charge une sécurité de pointe avec une gestion des identités et une fédération pour l'authentification unique (SSO), l'authentification multifactorielle, le contrôle précis des accès et Amazon Virtual Private Cloud (Amazon VPC). Avec Amazon Redshift, vos données sont chiffrées en transit et au repos. Toutes les fonctionnalités de sécurité d'Amazon Redshift sont proposées prêts à l’emploi sans coût supplémentaire pour satisfaire les exigences les plus strictes en matière de sécurité, de confidentialité et de conformité. Vous bénéficiez de la prise en charge par AWS d’un plus grand nombre de normes de sécurité et de certifications de conformité que tout autre fournisseur, y compris ISO 27001, SOC, HIPAA/HITECH, et FedRAMP.

Redshift prend-il en charge les contrôles précis des accès ?

Oui, Amazon Redshift fournit la prise en charge le contrôle d'accès basé sur les rôles. Le contrôle des accès au niveau des colonnes vous permet d'affecter un ou plusieurs rôles à un utilisateur et d'octroyer des permissions et d'objet par rôle. Vous pouvez utiliser les rôles système prêts à l'emploi, notamment utilisateur root, administrateur de bases de données, opérateur et administrateurs de sécurité, ou créer vos propres rôles.

Amazon Redshift prend-il en charge le masquage des données ou la création de jetons des données ?

Les fonctions définies par l'utilisateur AWS Lambda vous permettent d'utiliser une fonction AWS Lambda comme une fonction définie par l'utilisateur dans Amazon Redshift et de l'appeler avec les requêtes SQL Redshift. Avec cette fonctionnalité, vous pouvez écrire des extensions personnalisées pour votre requête SQL afin de renforcer l'intégration avec d'autres services ou des produits tiers. Vous pouvez écrire des fonctions définies par l'utilisateur Lambda pour permettre la création de jeton externe, le masquage des données, l'identification ou la désidentification des données, en intégrant des fournisseurs comme Protegrity, et protéger ou déprotéger les données sensibles en fonction des groupes et des autorisations de l'utilisateur au moment de la requête.

Grâce à la prise en charge du masquage dynamique des données, les clients peuvent facilement protéger leurs données sensibles et contrôler un accès granulaire en gérant des politiques de masquage des données. Supposons que vos applications comptent plusieurs utilisateurs et des objets contenant des données sensibles qui ne peuvent être exposées à tous les utilisateurs. Vous avez des exigences pour fournir un niveau de sécurité granulaire différent que vous voulez donner à différents groupes d'utilisateurs. Redshift Dynamic Data Masking est configurable pour permettre aux clients de définir des valeurs de données masquées cohérentes, préservant le format et irréversibles. Une fois que la fonction est GA, vous commencez à l'utiliser immédiatement. Les administrateurs de la sécurité peuvent créer et appliquer des politiques en quelques commandes seulement.

Amazon Redshift prend-il en charge l'authentification unique ?

Oui. Les clients qui souhaitent utiliser leurs fournisseurs d'identité d'entreprise tels que Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate ou tout autre fournisseur d'identité conforme à SAML, peuvent configurer Amazon Redshift afin de proposer l'authentification unique. Vous pouvez vous connecter au cluster Amazon Redshift avec des identités Microsoft Azure Active Directory (AD). Cela vous permet de vous connecter à Redshift sans dupliquer ces identités Azure Active Directory dans Redshift.

Amazon Redshift prend-il en charge l'authentification multifactorielle (MFA) ?

Oui. Vous pouvez utiliser l'authentification multi-facteurs (MFA) pour plus de sécurité au moment de vous identifier pour entrer dans votre cluster Amazon Redshift.

Disponibilité et durabilité

Quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts des données si un nœud échoue de manière isolée ?

Amazon Redshift détecte automatiquement le nœud en échec dans votre cluster d'entrepôts de données et le remplace. Sur les clusters de calcul dense (DC) et de stockage dense (DS2), les données sont stockées sur les nœuds de calcul pour garantir la durabilité élevée des données. Lorsqu'un nœud est remplacé, les données sont actualisées à partir de la copie en miroir sur l'autre nœud. Les clusters RA3 et Redshift sans serveur ne sont pas impactés de la même manière car les données sont stockées dans Amazon S3 et le lecteur local est simplement utilisé comme cache des données. Le cluster d'entrepôts de données reste indisponible pour les interrogations et les mises à jour jusqu'à ce qu'un nœud de remplacement soit mis en service et ajouté à la base de données. Amazon Redshift rend votre nœud de remplacement immédiatement disponible et charge vos données les plus fréquemment consultées à partir d'Amazon S3 afin que vous puissiez reprendre l'interrogation des données aussi rapidement que possible. Les clusters ne comportant qu'un nœud ne prennent pas en charge la réplication des données. En cas de défaillance d'un disque, vous devrez restaurer le cluster à partir d'un instantané stocké dans S3. Nous vous recommandons donc d'utiliser au moins deux nœuds en mode production.

En cas de panne au niveau de la zone de disponibilité (AZ) de mon cluster d'entrepôts des données, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

Si votre entrepôt de données Amazon Redshift est un déploiement à une seule AZ et que la zone de disponibilité du cluster devient indisponible, Amazon Redshift va automatiquement transférer votre cluster vers une autre zone de disponibilité AWS (AZ) sans entraîner des pertes de données ou des changements de l'application. Pour activer cette procédure, vous devez activer la capacité de transfert dans les paramètres de configuration de votre cluster.

Pourquoi devrais-je utiliser un déploiement Redshift Multi-AZ ?

Contrairement aux déploiements mono-AZ, les clients peuvent désormais améliorer la disponibilité de Redshift en exécutant leur entrepôt de données dans un déploiement multi-AZ. Un déploiement multi-AZ vous permet d'exécuter votre entrepôt de données dans plusieurs zones de disponibilité (AZ) AWS simultanément pour continuer à fonctionner dans scénarios de panne imprévus. Aucun changement d'application n'est nécessaire pour maintenir la continuité des activités puisque le déploiement de Multi-AZ est géré comme un entrepôt de données unique avec un seul point de terminaison. Les déploiements multi-AZ réduisent le temps de récupération en garantissant la capacité de récupération automatique et sont destinés aux clients disposant d'applications d'analyse critiques pour l'entreprise qui nécessitent les plus hauts niveaux de disponibilité et de résilience aux pannes AZ. Cela permet également aux clients de mettre en œuvre une solution plus conforme aux recommandations du pilier de la fiabilité de l'AWS Well-Architected Framework. Pour en savoir plus sur Amazon Redshift Multi-AZ, cliquez ici.

Qu'est-ce qu'un RPO et un RTO ? Quels RPO et RTO sont pris en charge avec un déploiement Multi-AZ?

RPO est l'acronyme de Recovery Point Objective (objectif de point de récupération). Il s'agit d'un terme décrivant la garantie de rétablissement des données en cas de défaillance. Le RPO est le délai maximal acceptable depuis le dernier point de récupération des données. Cela détermine ce qui est considéré comme une perte acceptable de données entre le dernier point de récupération et l'interruption du service. Redshift Multi-AZ prend en charge RPO = 0, ce qui signifie que les données sont garanties comme étant actuelles et à jour en cas de panne. Nos tests préalables au lancement ont révélé que le RTO avec les déploiements multi-AZ Amazon Redshift est inférieur à 60 secondes, voire moins, dans le cas peu probable d'une défaillance de la zone de disponibilité.

Comment Redshift Multi-AZ se compare-t-il à la fonctionnalité de relocalisation existante de Redshift ?

La relocalisation de Redshift est activée par défaut sur tous les nouveaux clusters RA3 et points d'extrémité sans serveur, ce qui permet de redémarrer un entrepôt de données dans un autre AZ en cas de panne à grande échelle, sans perte de données ni coût supplémentaire. Bien que l'utilisation de Relocate soit gratuite, ses limites sont qu'il s'agit d'une approche de type best-effort soumise à la disponibilité des ressources dans la zone AZ en cours de récupération et que l'objectif de temps de récupération (RTO) peut être affecté par d'autres problèmes liés au démarrage d'un nouveau cluster. Cela peut entraîner des temps de récupération compris entre 10 et 60 minutes. Redshift Multi-AZ prend en charge les exigences de haute disponibilité en fournissant un RTO mesuré en dizaines de secondes et offre un fonctionnement continu garanti puisqu'il ne sera pas soumis à des limitations de capacité ou à d'autres problèmes potentiels lors de la création d'un nouveau cluster.

Interrogation et analytique

Amazon Redshift et Redshift Spectrum sont-ils compatibles avec mon package logiciel d'informatique décisionnelle et mes outils d'ETL favoris ?

Oui, Amazon Redshift utilise les instructions SQL standard du secteur et est accessible depuis les pilotes JDBC et ODBC standard. Vous pouvez télécharger les pilotes JDBC et ODBC personnalisés d'Amazon Redshift à partir de l'onglet Connect Client de notre console Redshift. Nous disposons d'intégrations validées auprès de fournisseurs de BI et d'ETL populaires, dont la plupart proposent des essais gratuits pour vous aider à débuter dans le chargement et l'analyse de vos données. Vous pouvez également vous rendre sur AWS Marketplace afin de déployer et configurer en quelques minutes des solutions conçues pour fonctionner avec Amazon Redshift.

Amazon Redshift Spectrum prend en charge tous les outils clients Amazon Redshift. Ces outils clients peuvent continuer à se connecter au point de terminaison du cluster Amazon Redshift à l'aide de connexions ODBC ou JDBC. Aucune modification n'est nécessaire.

Vous utilisez exactement la même syntaxe de requête et avez les mêmes possibilités d'accès aux tables dans Redshift Spectrum que pour les tables du stockage local de votre cluster Redshift. Les tables externes sont référencées à l'aide du nom de schéma défini dans la commande CREATE EXTERNAL SCHEMA utilisée pour leur enregistrement.

Quels sont les formats de données et les formats de compression pris en charge par Amazon Redshift Spectrum ?

Amazon Redshift Spectrum prend actuellement en charge de nombreux formats de données open source, notamment Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text et TSV. <br>Amazon Redshift Spectrum prend actuellement en charge les compressions Gzip et Snappy.

Que se passe-t-il si une table dans mon stockage local a le même nom qu'une table externe ?

Comme pour les tables locales, vous pouvez utiliser le nom de schéma pour sélectionner précisément la table souhaitée en insérant la valeur nom_schéma.nom_table dans votre requête.

J'ai recours à un Hive Metastore pour stocker les métadonnées relatives à mon lac de données S3. Puis-je utiliser Redshift Spectrum ?

Oui. La commande CREATE EXTERNAL SCHEMA prend en charge les Hive Metastores. Toutefois, nous ne prenons pas encore en charge le langage DDL pour le Hive Metastore.

Comment obtenir la liste de toutes les tables de base de données externes créées dans mon cluster ?

Vous pouvez interroger la table système SVV_EXTERNAL_TABLES pour obtenir cette information.

Redshift permet-il d'utiliser le machine learning avec SQL ?

Oui, la fonction de Amazon Redshift ML permet aux utilisateurs de SQL de créer, d'entraîner et de déployer facilement des modèles de machine learning (ML) en utilisant les commandes SQL habituelles. Amazon Redshift ML vous permet de tirer parti de vos données dans Amazon Redshift avec Amazon SageMaker, un service de ML entièrement géré. Amazon Redshift prend en charge l'apprentissage non supervisé (K-Means) et l'apprentissage supervisé (algorithmes Autopilot, XGBoost, MLP). Vous pouvez également utiliser les services AWS Language AI pour traduire, rédiger et analyser les champs de texte dans les requêtes SQL avec des fonctions Lambda UDF préconstruites – voir l'article de blog.

Amazon Redshift fournit-il une API pour interroger les données ?

Amazon Redshift fournit une API Data que vous pouvez utiliser pour accéder facilement aux données d'Amazon Redshift avec tous types d'applications (applications basées sur des événements, basées sur des services Web, sans serveur, traditionnelles, natives cloud et conteneurisées). L'API Data simplifie l'accès à Amazon Redshift car vous n'avez pas besoin de configurer les pilotes et de gérer les connexions aux bases de données. Vous pouvez exécuter des commandes SQL sur un cluster Amazon Redshift en appelant un point de terminaison d'API sécurisé fourni par l'API Data. L'API Data prend en charge la gestion des connexions à la base de données et la mise en mémoire tampon des données. L'API Data est asynchrone ; vous pouvez donc récupérer les résultats plus tard. Les résultats de votre requête sont hébergés durant 24 heures.

Quels types d'informations d'identification puis-je utiliser avec l'API Data d'Amazon Redshift ?

L'API Data prend en charge les informations d'identification IAM et les clés secrètes d'AWS Secrets Manager. L'API Data réunit les informations d'identification d'AWS Identity and Access Management (IAM) afin que vous puissiez utiliser des fournisseurs d'identité comme Okta ou Azure Active Directory ou les informations d'identification à la base de données enregistrées dans Secrets Manager sans fournir les informations d'identification à la base de données dans les appels d'API.

Puis-je utiliser l'API Data d'Amazon Redshift depuis l'interface de ligne de commande (CLI) AWS ?

Oui, vous pouvez utiliser l'API Data depuis l'interface de ligne de commande AWS CLI via l'option de ligne de commande aws redshift-data.

L'API Data Redshift est-elle intégrée à d'autres services AWS ?

Vous pouvez utiliser l'API Data à partir d'autres services comme AWS Lambda, AWS Cloud9, AWS AppSync et Amazon EventBridge.

Dois-je payer séparément pour utiliser l'API Data d'Amazon Redshift ?

Non, il n'y a pas d'autre facturation pour l'utilisation de l'API Data.

Intégrations zéro ETL

Quand dois-je utiliser l'intégration zéro ETL d'Amazon Aurora avec Amazon Redshift ?

Vous devez utiliser l'intégration zéro ETL d'Aurora avec Amazon Redshift lorsque vous avez besoin d'un accès en temps quasi réel aux données transactionnelles. Cette intégration vous permet de tirer parti du ML d'Amazon Redshift à l'aide de simples commandes SQL.

Quels moteurs et versions d'Amazon Aurora prennent en charge les intégrations zéro ETL ?

L'intégration zéro ETL d'Aurora avec Amazon Redshift est disponible sur l'édition compatible avec Aurora MySQL pour la version 3.05 d'Aurora MySQL (compatible avec MySQL 8.0.32) et les versions ultérieures dans les régions USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Europe (Francfort), Europe (Irlande) et Europe (Stockholm). L'intégration zéro ETL d'Aurora avec Amazon Redshift est disponible dans l'édition compatible avec Aurora PostgreSQL pour Aurora PostgreSQL 15.4 dans la région USA Est (Ohio).

Quels sont les avantages de l'intégration zéro ETL ?

L'intégration zéro ETL d'Aurora avec Amazon Redshift vous évite de créer et de gérer des pipelines de données complexes. Vous pouvez consolider les données d'un ou de plusieurs clusters de bases de données Aurora vers un cluster de base de données Amazon Redshift unique et d'exécuter des analyses et un machine learning en temps quasi réel à l'aide d'Amazon Redshift sur des pétaoctets de données transactionnelles provenant d'Amazon Aurora.

L'intégration zéro ETL est-elle compatible avec Amazon Redshift sans serveur ?

L'intégration zéro ETL avec Amazon Redshift est compatible avec Amazon Redshift sans serveur et Amazon Aurora sans serveur v2. Lorsque vous utilisez Aurora sans serveur v2 et Amazon Redshift sans serveur, vous pouvez générer des analyses en temps quasi réel sur les données transactionnelles sans avoir à gérer d'infrastructure pour les pipelines de données.

Comment démarrer une intégration zéro ETL ?

Vous pouvez commencer par utiliser la console Amazon RDS pour créer l'intégration zéro ETL en spécifiant la source Aurora et la destination Amazon Redshift. Une fois l'intégration créée, la base de données Aurora sera répliquée sur Amazon Redshift et vous pourrez commencer à interroger les données une fois l'amorçage initial terminé. Pour plus d'informations, consultez le guide de démarrage relatif aux intégrations zéro ETL d'Aurora avec Amazon Redshift.

Comment l'intégration zéro ETL gère-t-elle les transactions ? Sont-elles validées de manière atomique lorsqu'elles sont répliquées ?

L'intégration zéro ETL d'Aurora à Amazon Redshift réplique de manière atomique les transactions afin de garantir la cohérence des données entre la base de données Aurora source et le cluster Amazon Redshift cible.
Voici quelques points clés concernant l'atomicité des transactions grâce à cette intégration :

Seules les transactions validées dans Aurora sont répliquées sur Amazon Redshift. Les transactions non validées ou annulées ne sont pas appliquées.
L'intégration utilise un processus de validation en deux phases pour appliquer de manière atomique chaque transaction à Amazon Redshift. Toutes les modifications apportées aux données de la transaction sont appliquées ou, en cas d'erreur, aucune n'est appliquée.
La cohérence des transactions est maintenue entre la source et la cible. Après la réplication, les données d'une transaction donnée seront cohérentes à la fois dans Aurora et dans Amazon Redshift.
Les modifications de schéma via DDL ou DML sont également appliquées de manière atomique pour préserver l'intégrité.
L'application atomique des transactions garantit qu'aucune transaction partielle ou aucun état de données incohérent ne peut se produire entre les bases de données.

Dans quel ordre les modifications que j'apporte à Aurora sont-elles répliquées dans Amazon Redshift ?

L'intégration zéro ETL Aurora avec Amazon Redshift assure une cohérence transactionnelle totale entre la base de données Aurora source et le cluster Amazon Redshift cible.

Comment les modifications de schéma sont-elles gérées avec l'intégration zéro ETL ?

Voici quelques points clés sur la façon dont les modifications de schéma sont gérées :

Les instructions DDL telles que CREATE TABLE, ALTER TABLE, DROP TABLE, etc. sont automatiquement répliquées depuis Aurora vers Amazon Redshift.
L'intégration effectue les vérifications et les ajustements nécessaires dans les tables Amazon Redshift pour les modifications de schéma répliquées. Par exemple, l'ajout d'une colonne dans Aurora ajoutera la colonne dans Amazon Redshift.
La réplication et la synchronisation du schéma se font automatiquement en temps réel avec un décalage minimal entre les bases de données source et cible.
La cohérence du schéma est maintenue même si les modifications DML se produisent parallèlement aux modifications DDL.

Comment exécuter des transformations sur mes données à l'aide de zéro ETL ?

Vous pouvez créer des vues matérialisées dans votre base de données Amazon Redshift locale pour transformer les données répliquées via une intégration zéro ETL. Connectez-vous à votre base de données locale et utilisez des requêtes entre bases de données pour accéder aux bases de données de destination. Vous pouvez utiliser des noms d'objets complets avec une notation en trois parties (nom-base-de-destination.nom-schéma.nom-table) ou créer un schéma externe faisant référence à la base de données de destination et à la paire de schémas et utiliser une notation en deux parties (nom-schéma-externe.nom-table).

Combien coûte l'intégration zéro ETL ?

Zéro ETL et le traitement continu des modifications de données sont proposés sans frais supplémentaires. Vous payez pour les ressources Amazon RDS et Amazon Redshift existantes utilisées pour créer et traiter les données de modification générées dans le cadre d'une intégration zéro ETL. Ces ressources peuvent inclure :

E/S et stockage supplémentaires utilisés en activant les journaux binaires améliorés
Coûts d'exportation d'instantanés pour l'exportation initiale des données afin d'alimenter vos bases de données Amazon Redshift
Stockage Amazon Redshift supplémentaire pour le stockage des données répliquées
Coûts de transfert de données entre plusieurs AZ pour déplacer les données de la source vers la cible

Pour plus d'informations, consultez la page de tarification Aurora.

Sauvegarde et restauration

Comment Amazon Redshift procède-t-il pour sauvegarder mes données ? Comment restaurer mon cluster à partir d'une sauvegarde ?

Les clusters Amazon Redshift RA3 et Amazon Redshift Serverless utilisent le stockage géré Redshift, qui est toujours la dernière copie des données disponible. Les clusters DS2 et DC2 reflètent en miroir les données sur le cluster pour s'assurer que la dernière copie est disponible en cas d'échec. Les sauvegardes sont automatiquement créées sur tous les types de cluster Redshift et retenues pendant 24 heures, et sur des points de reprise sans serveur fournis pour les 24 dernières heures.

Vous pouvez aussi créer vos propres sauvegardes qui peuvent être retenues indéfiniment. Ces sauvegardes peuvent être créées à tout moment, et les sauvegardes automatisées Amazon Redshift ou les points de récupération Amazon Redshift Serverless peuvent être convertis en une sauvegarde utilisateurs pour une rétention plus longue.

Amazon Redshift peut également répliquer de façon asynchrone vos instantanés ou points de reprise sur Amazon S3, dans une autre région, à des fins de reprise après sinistre.

Sur un cluster DS2 ou DC2, le stockage de sauvegarde gratuit est limité à la taille totale du stockage sur les nœuds appartenant au cluster d'entrepôts des données. Il s'applique uniquement aux clusters d'entrepôts des données actifs.

Par exemple, pour un stockage total de 8 To d'entrepôts des données, nous fournissons jusqu'à 8 To de stockage de sauvegarde sans frais supplémentaires. Si vous souhaitez prolonger la période de rétention des sauvegardes au-delà d'une journée, utilisez la console de gestion AWS ou les API Amazon Redshift. Pour en savoir plus sur les instantanés automatiques, consultez Amazon Redshift Management Guide.

Amazon Redshift sauvegarde uniquement les données qui ont été modifiées. Ainsi, la plupart des instantanés n'utilisent qu'une faible portion de votre stockage de sauvegarde gratuit. Lorsque vous avez besoin de restaurer une sauvegarde, vous avez accès à toutes les sauvegardes automatisées dans votre fenêtre de rétention des sauvegardes. Une fois que vous avez choisi la sauvegarde à partir de laquelle procéder à la restauration, nous mettons en service un nouveau cluster d'entrepôts de données et restaurons vos données sur celui-ci.

Comment gérer la rétention de mes sauvegardes et instantanés automatiques ?

Vous pouvez utiliser la console de gestion AWS ou l'API ModifyCluster pour gérer la période pendant laquelle vos sauvegardes automatiques sont conservées via le paramètre RetentionPeriod. Si vous souhaitez désactiver complètement les sauvegardes automatiques, vous pouvez définir la période de rétention sur 0 (bien que cette option ne soit pas recommandée).

Qu'arrive-t-il à mes sauvegardes si je supprime mon cluster d'entrepôts des données ?

Lorsque vous supprimez un cluster d'entrepôt de données, vous avez la possibilité de spécifier si un instantané final est créé lors de la suppression. Cela permet d'effectuer une restauration ultérieure du cluster d'entrepôt de données supprimé. Tous les instantanés de votre cluster d'entrepôts des données que vous aurez créés manuellement seront retenus et facturés selon les tarifs standard Amazon S3, sauf si vous choisissez de les supprimer.

Surveillance et maintenance

Comment puis-je surveiller les performances de mon cluster d'entrepôts des données Amazon Redshift ?

Les métriques relatives à l'utilisation des capacités de calcul et de stockage, ainsi qu'au trafic en lecture/écriture de votre cluster d'entrepôts des données Amazon Redshift, sont disponibles gratuitement via la console de gestion AWS ou les API Amazon CloudWatch. Vous pouvez également ajouter des mesures supplémentaires que vous aurez définies, via la fonctionnalité de mesures personnalisées d'Amazon CloudWatch. AWS Management Console fournit un tableau de bord de surveillance qui vous aide à surveiller la santé et les performances de tous vos clusters. Amazon Redshift fournit également des informations sur les performances des interrogations et du cluster via AWS Management Console. Ces informations vous permettent de voir quels utilisateurs et requêtes consomment le plus de ressources système afin de diagnostiquer les problèmes de performances en consultant les plans de requête et les statistiques d'exécution. Vous pouvez également consulter l'utilisation des ressources sur chacun de vos nœuds de calcul, afin de vous assurer que vos données et requêtes sont correctement équilibrées sur tous les nœuds.

Qu'est-ce qu'une fenêtre de maintenance ? Mon cluster d'entrepôts de données sera-t-il disponible pendant la maintenance logicielle ?

Amazon Redshift effectue périodiquement des opérations de maintenance pour apporter des correctifs, des améliorations et de nouvelles fonctionnalités à votre cluster. Vous pouvez changer les fenêtres de maintenance planifiées en modifiant le cluster par programmation ou avec Redshift Console. Durant ces fenêtres de maintenance, votre cluster Amazon Redshift n'est pas disponible pour les opérations normales. Pour en savoir plus sur les fenêtres de maintenance et les programmations par région, consultez la section Fenêtres de maintenance du Guide de gestion Amazon Redshift.

Démarrer avec Amazon Redshift

En savoir plus sur la tarification d'Amazon Redshift

Visiter la page de tarification

Prêt à concevoir ?

Démarrer avec Amazon Redshift

D'autres questions?

Nous contacter

FAQ sur Amazon Redshift

Page Topics

Questions d'ordre général

Qu'est-ce qu'Amazon Redshift ?

Quelles sont les principales raisons pour lesquelles les clients choisissent Amazon Redshift ?

Comment Amazon Redshift simplifie-t-il la gestion des entrepôts des données et la gestion analytique ?

Quelles sont les options de déploiement d'Amazon Redshift ?

Comment démarrer avec Amazon Redshift ?

Comment les performances d'Amazon Redshift se comparent-elles à celles des autres entrepôts des données ?

Puis-je obtenir de l'aide pour en savoir plus sur Amazon Redshift et sur son intégration ?

Qu'est-ce le stockage géré d'Amazon Redshift ?

Comment utiliser le stockage géré d'Amazon Redshift ?

Comment puis-je exécuter des requêtes à partir de Redshift pour les données stockées dans le lac de données AWS ?

Quand dois-je envisager l'utilisation d'instances RA3 ?

Quelle fonctionnalité puis-je utiliser pour l'analyse de la localisation ?

Comment le support SQL d'Athena se compare-t-il à celui de Redshift, et comment puis-je choisir entre les deux services?

Sans serveur

Qu'est-ce qu'Amazon Redshift sans serveur ?

Comment démarrer avec Amazon Redshift sans serveur ?

Quels sont les avantages d'utiliser Amazon Redshift sans serveur ?

Comment fonctionne Amazon Redshift sans serveur avec les autres services AWS ?

Quels cas d'utilisation puis-je gérer avec Amazon Redshift sans serveur ?

Absorption et chargement de données

Comment puis-je charger des données dans mon entrepôt des données Amazon Redshift ?

En quoi la copie automatique de Redshift est-elle différente de la commande de copie ?

Comment démarrer avec la copie automatique de Redshift ?

Quels sont les cas d'utilisation de l'intégration d'Amazon Redshift pour Apache Spark ?

Quels sont les bénéfices de l'intégration Amazon Redshift pour Apache Spark ?

Quand dois-je utiliser Amazon Aurora Zero-ETL vers Amazon Redshift au lieu de Federated Querying ?

Comment Amazon Aurora Zero-ETL vers Amazon Redshift se rapporte-t-il/travaille-t-il avec d'autres services AWS ?

Comment fonctionne l'ingestion de streaming ?

Partage de données

Quels sont les cas d'utilisation pour le partage des données ?

Qu'est-ce que les requêtes inter-bases de données dans Amazon Redshift ?

Qui sont les principaux utilisateurs d'AWS Data Exchange ?

Capacité de mise à l'échelle et simultanéité

Comment puis-je mettre à l'échelle la taille et les performances de mon cluster d'entrepôt des données Amazon Redshift ?

Mon cluster d'entrepôts des données restera-t-il disponible pendant la mise à l'échelle ?

Qu'est-ce que le redimensionnement Elastic et en quoi diffère-t-il de la mise à l'échelle de la simultanéité ?

Puis-je accéder directement aux clusters de mise à l'échelle de la simultanéité ?

Sécurité

Comment Amazon Redshift assure-t-il la sécurité de mes données ?

Redshift prend-il en charge les contrôles précis des accès ?

Amazon Redshift prend-il en charge le masquage des données ou la création de jetons des données ?

Amazon Redshift prend-il en charge l'authentification unique ?

Amazon Redshift prend-il en charge l'authentification multifactorielle (MFA) ?

Disponibilité et durabilité

Quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts des données si un nœud échoue de manière isolée ?

En cas de panne au niveau de la zone de disponibilité (AZ) de mon cluster d'entrepôts des données, quel est l'impact sur la disponibilité et la durabilité de mon cluster d'entrepôts de données ?

Pourquoi devrais-je utiliser un déploiement Redshift Multi-AZ ?

Qu'est-ce qu'un RPO et un RTO ? Quels RPO et RTO sont pris en charge avec un déploiement Multi-AZ?

Comment Redshift Multi-AZ se compare-t-il à la fonctionnalité de relocalisation existante de Redshift ?

Interrogation et analytique

Amazon Redshift et Redshift Spectrum sont-ils compatibles avec mon package logiciel d'informatique décisionnelle et mes outils d'ETL favoris ?

Quels sont les formats de données et les formats de compression pris en charge par Amazon Redshift Spectrum ?

Que se passe-t-il si une table dans mon stockage local a le même nom qu'une table externe ?

J'ai recours à un Hive Metastore pour stocker les métadonnées relatives à mon lac de données S3. Puis-je utiliser Redshift Spectrum ?

Comment obtenir la liste de toutes les tables de base de données externes créées dans mon cluster ?

Redshift permet-il d'utiliser le machine learning avec SQL ?

Amazon Redshift fournit-il une API pour interroger les données ?

Quels types d'informations d'identification puis-je utiliser avec l'API Data d'Amazon Redshift ?

Puis-je utiliser l'API Data d'Amazon Redshift depuis l'interface de ligne de commande (CLI) AWS ?

L'API Data Redshift est-elle intégrée à d'autres services AWS ?

Dois-je payer séparément pour utiliser l'API Data d'Amazon Redshift ?

Intégrations zéro ETL

Quand dois-je utiliser l'intégration zéro ETL d'Amazon Aurora avec Amazon Redshift ?

Quels moteurs et versions d'Amazon Aurora prennent en charge les intégrations zéro ETL ?

Quels sont les avantages de l'intégration zéro ETL ?

L'intégration zéro ETL est-elle compatible avec Amazon Redshift sans serveur ?

Comment démarrer une intégration zéro ETL ?

Comment l'intégration zéro ETL gère-t-elle les transactions ? Sont-elles validées de manière atomique lorsqu'elles sont répliquées ?

Dans quel ordre les modifications que j'apporte à Aurora sont-elles répliquées dans Amazon Redshift ?

Comment les modifications de schéma sont-elles gérées avec l'intégration zéro ETL ?

Comment exécuter des transformations sur mes données à l'aide de zéro ETL ?

Combien coûte l'intégration zéro ETL ?

Sauvegarde et restauration

Comment Amazon Redshift procède-t-il pour sauvegarder mes données ? Comment restaurer mon cluster à partir d'une sauvegarde ?

Comment gérer la rétention de mes sauvegardes et instantanés automatiques ?

Qu'arrive-t-il à mes sauvegardes si je supprime mon cluster d'entrepôts des données ?

Surveillance et maintenance