Publié le: Nov 29, 2022

Amazon Redshift prend désormais en charge l'ingestion en streaming en temps réel pour Amazon Kinesis Data Streams (KDS) et Amazon Managed Streaming for Apache Kafka (MSK). L'ingestion en streaming Amazon Redshift évite l'organisation des données de streaming dans Amazon S3 avant leur ingestion dans Amazon Redshift, ce qui permet aux clients d'atteindre une faible latence, mesurée en secondes tout en ingérant des centaines de mégaoctets de données en streaming par seconde dans leur entrepôt des données. 

Les ingénieurs de données, analystes de données et développeurs en big data font évoluer leurs analyses du mode par lot au temps réel, en adoptant les moteurs en streaming comme Amazon KDS et Amazon MSK, pour implémenter une logique et des analyses responsables, proches du temps réel sur des données d'application en streaming. Actuellement, les clients qui souhaitent ingérer des données en temps réel, à partir de services comme Amazon KDS et Amazon MSK dans Amazon Redshift, doivent d'abord organiser les données dans Amazon S3 et utiliser la commande COPY qui atteint la latence en quelques minutes. Grâce à la nouvelle fonctionnalité d'ingestion en streaming d'Amazon Redshift, vous pouvez utiliser SQL (langage de recherche structurée) dans Redshift pour fournir la capacité de se connecter et d'ingérer directement des données à partir de plusieurs flux Amazon KDS ou Amazon MSK en même temps. L'ingestion en streaming Amazon Redshift simplifie les pipelines de données en vous permettant de créer des vues matérialisées directement au-dessus des flux. Les vues matérialisées peuvent également inclure des transformations SQL dans le cadre de votre pipeline ELT (Extract Load Transform).

Une fois les vues matérialisées définies, les données en streaming sont ingérées automatiquement et en continu à partir du flux KDS ou de la rubrique MSK dans la vue matérialisée en streaming Amazon Redshift lorsque la fonction d'actualisation automatique est activée. Vous pouvez également choisir d'actualiser manuellement la vue matérialisée en streaming pour contrôler directement la planification de l'ingestion. Cette approche vous donne la possibilité d'effectuer un traitement en aval et des transformations de données en streaming à l'aide d'outils Amazon Redshift existants et de SQL qui vous sont familiers. Et cela, sans frais supplémentaires.

L'ingestion en streaming Amazon Redshift est désormais disponible de manière générale dans toutes les régions Amazon Web Services (AWS) dans lesquelles Amazon Redshift est disponible. Pour démarrer avec l'ingestion en streaming Amazon Redshift, allouez un cluster Amazon Redshift dans la piste CURRENT. Pour plus d'informations sur comment démarrer avec l'ingestion en streaming Amazon Redshift, consultez la page documentation Amazon Redshift.